OCR w dokumentach » faktura

OCR wzbogacony o sieci neuronowe = nowa jakość?

Michał Rykiert — Wed, 12 Aug 2015 10:41:21 +0000

Mechanizm Optycznego Rozpoznawania Znaków jest obecnie narzędziem o wysokiej skuteczności i różnorodnym zastosowaniu – od firmowych dokumentów do książek digitalizowanych przez (nie)świadomych użytkowników reCAPTCHY. A co gdyby dodać do OCR także namiastkę inteligencji w postaci sieci neuronowych?

Zanim przejdę jednak do omówienia możliwości oferowanych przez sieci neuronowe, chciałbym zwrócić uwagę na fakt, iż obecnie możemy podzielić działanie OCR na dwie sfery:

Rozpoznanie znaków

Mechanizm rozpoznaje pojedyncze znaki, a poprzez analizowanie odstępów w skanowanym tekście dzieli je na wyrazy. Tego typu działanie służy np. do tworzenia tzw. „wyszukiwalnych plików PDF” (z ang. searchable PDF). W zależności od producenta, skuteczność rozpoznania zwiększana jest poprzez zastosowanie kolejnych warstw algorytmów, np. porównujących rozpoznaną frazę z wbudowanym słownikiem.

Rozpoznanie treści

Tutaj wykorzystywana jest pierwsza metoda w połączeniu z zaawansowanymi mechanizmami, które analizują rozpoznanie tekstu także w kontekście słów znajdujących się w jego bezpośredniej okolicy. OCR identyfikuje poszczególne wyrazy i sprawdza jak rozpoznanie wpasowuje się w całość skanowanego tekstu.

W tym drugim przypadku szczególnie przydatne okazują się sieci neuronowe, które zawierają zestaw reguł wg których rozpoznawane są poszczególne słowa i frazy. Weźmy za przykład faktury. OCR „wie”, że dane o wystawiającym fakturę powinny znajdować się w okolicach prawego górnego rogu. Nazwa ulicy poprzedzona jest wyrazem „ul.” po którym następuje numer domu, a następnie kod pocztowy i miasto. Natomiast numer konta bankowego ma 26 cyfr, zazwyczaj zapisany jest w określonym formacie i występuje obok słowa bank.

Sieci neuronowe – z czym się to je

Powyższe, to oczywiście prosty przykład, a tego typu reguł jest naprawdę dużo. To czym różni od siebie szablony rozpoznawania dokumentów od sieci neuronowych, to możliwość dynamicznej zmiany i „douczania” tych drugich, na podstawie rozpoznawanych dokumentów. Przy czym w przeciwieństwie do dedykowanych bądź uniwersalnych szablonów, nie jest to czynność wymagająca pracy programistycznej.

Odpowiednio przygotowany interfejs pozwoli każdemu użytkownikowi na wprowadzenie odpowiednich zmian i zmodyfikowanie sieci. Pomimo niebagatelnych zalet takiego rozwiązania (łatwość wykorzystania, elastyczność), istnieje też pewne ryzyko. Poprzez nieumiejętne „szkolenie” sieci neuronowych, można je „popsuć”. Prostym przykładem jest wskazywanie przez użytkownika błędnych danych jako poprawne. Idąc za przykładem faktur, byłoby to np. wskazanie numeru telefonu jako NIP-u sprzedawcy. Im więcej tego typu modyfikacji, tym gorsze będą wyniki rozpoznania.

Istnieją też przypadki pośrednie. W systemach obiegu dokumentów, OCR jest rzeczą powszechnie wykorzystywaną. Zazwyczaj przygotowywana jest uniwersalna sieć neuronowa, działająca w odniesieniu do konkretnego typu dokumentu (np. wcześniej już wspomnianej faktury). Jednakże zdarzają się sytuacje, w których np. faktury od jednego z kontrahentów mają zupełnie inną strukturę niż w przypadku pozostałych. Co wtedy?

Uczenie uniwersalnej sieci na przykładzie wyjątków poskutkuje lepszym rozpoznaniem ich samych, jednocześnie negatywnie wpływając na identyfikacje całej reszty dokumentów. Dlatego też rozwiązania tej klasy oferują możliwość tworzenia dedykowanych sieci neuronowych ro skanowania dokumentów od wybranych kontrahentów. Wówczas wyróżnikiem, za pomocą którego system wybiera odpowiednią sieć neuronową, jest numer NIP, dlatego iż jest on unikalny i ściśle powiązanym z kontrahentem.

Sieci neuronowe – co dalej?

Bez wątpienia sieci neuronowe są przyszłością OCR. Wydaje się, iż jest to obecnie jedyny kierunek rozwoju, który może w przyszłości dostarczyć skuteczność rozpoznawania znaków i treści na poziomie 100%. W przypadku pisma maszynowego, nawet w kontekście słabej jakości skanów, nie jest to zbyt daleka przyszłość. Natomiast pismo odręczne to zupełnie inna bajka i na jakiekolwiek sensowne rezultaty (powyżej 80%, w warunkach „bojowych”, a nie laboratoryjnych) prawdopodobnie przyjdzie jeszcze nam trochę poczekać. Niemniej jednak – warto.

Post OCR wzbogacony o sieci neuronowe = nowa jakość? pojawił się poraz pierwszy w OCR w dokumentach.

Szablon OCR – dedykowany czy uniwersalny?

Michał Rykiert — Fri, 06 Dec 2013 13:09:38 +0000

Sporo pisałem ostatnio o wykorzystaniu OCR w kontekście CAPTCHY. Jednakże nie można zapominać o tym, iż technologia Optycznego Rozpoznawania Znaków jest coraz powszechniej wykorzystywana w firmach. Największy zwrot z inwestycji (ROI) uzyskuje się dzięki zespoleniu OCR-a z systemem obiegu dokumentów. Dlatego też jednym z najpopularniejszych scenariuszy zastosowania Optical Character Recognition jest procesowanie za jego pomocą faktur kosztowych.

Dlaczego? Załóżmy, że firma Kowalski ma 100 kontrahentów, od których regularnie dostaje faktury. Każdy z nich ma inny wzór dokumentu, przez co manualne rejestrowanie tychże staje się dość uciążliwe, ponieważ większość czasu pracownicy spędzają na odszukiwaniu poszczególnych danych.

Dlatego też firma Kowalski decyduje się na wdrożenie systemu obiegu dokumentów ze zintegrowanym modułem OCR, aby proces ten przyspieszyć i zoptymalizować.

OCR a obieg dokumentów

Jak działa takie rozwiązanie? Mamy dwa podstawowe warianty. Pierwszy zakłada, że kontrahenci firmy Kowalski idą z duchem czasu i zamiast zasypywać siedzibę firmy zbędnym papierem, przysyłają na odpowiednią skrzynkę faktury drogą e-mailową. Wówczas są one przechwytywane, automatycznie poddawane skanowaniu przez OCR, poszczególne wartości (np. kwota netto/brutto, NIP, data wystawienia itd.) przenoszone są automatycznie do elektronicznego formularza, a skan faktury załączany do obiegu. W dalszej kolejności dokument przechodzi przez ścieżkę akceptacji i trafia do archiwum.

Drugie rozwiązanie opiera się na tradycyjnej metodzie przesyłania faktur papierowych. Wówczas te wymagają ręcznego ich zaniesienia do skanera, a następnie uruchomienia odpowiedniego obiegu. Dalej proces wygląda tak samo jak w poprzednim przykładzie.

W porządku. Jak zatem działa OCR „pod spodem” na przykładzie faktur w elektronicznym obiegu dokumentów? Zasadniczo mamy dwie możliwości konfiguracji: za pomocą szablonu dedykowanego i uniwersalnego.

Szablon dedykowany OCR

Szablony dedykowane tworzy się osobno dla każdego kontrahenta, zgodnie ze wzorem jego faktury. Wówczas wskazujemy jakie konkretne informacje znajdować będą się w poszczególnych miejscach na danej fakturze. Rozwiązanie to pozwala na osiągnięcie bardzo wysokiej skuteczności rozpoznawania znaków, dzięki czemu zredukowany do minimum zostaje czas, potrzebny na sprawdzenie poprawności działania mechanizmu OCR. Niestety rozwiązanie to ma także swoje wady. Zakładając, że firma Kowalski ma 100 kontrahentów, którzy przysyłają jej faktury, zajdzie konieczność stworzenia 100 osobnych szablonów dla każdego z nich. Przyjmijmy, że stworzenie jednego szablonu dedykowanego zajmuje średnio pół dnia roboczego. Wychodzi na to, że aby uruchomić OCR faktur, na samo tworzenie szablonów należy poświęcić prawie 2 miesiące… A co jeśli po jakimś czasie wzór faktury kontrahentów się zmieni? A co jeśli będziemy chcieli wdrożyć OCR dla innych typów dokumentów?

Szablon uniwersalny OCR

Alternatywą jest wykorzystanie szablonu uniwersalnego OCR. Wówczas rozpoznawane są poszczególne nazwy, tj. NIP, nazwa kontrahenta, kwota netto itd. bez względu na ich położenie na formularzu. Dzięki temu implementowany jest tylko jeden szablon dla wszystkich faktur. Rozwiązanie to zapewnia zdecydowanie krótszy czas wdrożenia, a także nie wymaga wprowadzania modyfikacji w przypadku zmian we wzorze faktur kontrahentów. Jedynym minusem uniwersalnego szablonu jest fakt, iż zapewnia on nieznacznie mniejszą skuteczność rozpoznawania znaków od szablonów dedykowanych. Jednakże ze względu na fakt, iż praktycznie zawsze efekty działania OCR weryfikowane są przez człowieka, nie powinno być to zbyt uciążliwe.

Sieci neuronowe?

Bardzo obiecującym rozwiązaniem wydaje się być zastosowanie sieci neuronowych w rozpoznawaniu znaków. Tego typu mechanizmy mają zdolność uczenia się wraz z kolejnym zeskanowanym dokumentem, podnosząc tym samym skuteczność działania OCR. Wkrótce postaram się napisać więcej o tego typu oprogramowaniu.

Co wybrać?

Szablony dedykowane są rozwiązaniem przestarzałym, czasochłonnym we wdrożeniu i drogim w utrzymaniu. Obecnie optymalnym wyborem będzie zastosowanie szablonów uniwersalnych, które są zdecydowanie bardziej elastyczne i wydajne kosztowo. Niemniej jednak przyszłość może należeć do sieci neuronowych, które stale rozwijane będą w stanie dostarczać nową jakość w pełnotekstowym skanowaniu dokumentów.

Post Szablon OCR – dedykowany czy uniwersalny? pojawił się poraz pierwszy w OCR w dokumentach.