Archive for Michał Rykiert

Testy OCR – który najlepszy dla firmy? Cz. 1: ABBYY

Testy OCR od ABBYY

Technologia Optycznego Rozpoznawania Znaków (OCR) wykorzystana w przedsiębiorstwie, jest w stanie zaoszczędzić wymierne sumy pieniędzy, które w innym przypadku musiałby zostać wydane np. na opłacenie odpowiednich pracowników. W poprzednim wpisie wskazałem na co zwracać uwagę podczas wyboru konkretnego rozwiązania. Czas na przyjrzenie się konkretnym programom.

Każdy kto słyszał o OCR, z pewnością natknął się na jeden z produktów ABBYY. Nie bez powodu, gdyż oprogramowanie tej rosyjskiej firmy, obecne jest na rynku dość długo i znane jest z bardzo dobrej jakości. 

Jak to wygląda w testach? Zależy od testu :). Aczkolwiek w ogromnej ilości przypadków OCR od ABBYY radzi sobie całkiem nieźle. Przedstawiam zestaw kilku różnych testów, w które w rozmaity sposób wyciskają siódme poty z rosyjskiego OCR-a:

Czytaj dalej

OCR – jak wybrać dobry software?

barcoderay

Na początku lat 90. zaczęto organizować swego rodzaju zawody w dokładności rozpoznawania znaków przez oprogramowanie OCR. Nie były to jednak chałupnicze projekty, a dość poważne i kompleksowe badania przeprowadzane przez amerykańskie Information Science Research Institute (ISRI) oraz University of Nevada Las Vegas (tak, nawet w światowej stolicy hazardu znajduje się szanowana uczelnia!). W 1995 roku odbyła się ostatnia edycja tego konkursu.

Od tego czasu sporo się jednak zmieniło. W końcu 18 lat w branży informatycznej to niemalże wieczność. Jak zatem stwierdzić który software obecnie jest najlepszy? 

Dużo zależy od tego jak przeprowadzone zostaną testy, jakie kryteria będą wzięte pod uwagę oraz czego tak naprawdę potrzeba osobie/firmie zainteresowanej kupnem oprogramowania OCR. Bowiem inne wymagania będzie mieć firma sprzedażowa, pracująca głównie na drukowanych fakturach, a inne biblioteka publiczna, starająca się digitalizować swoje wiekowe zbiory.

Podczas oceny i wyboru oprogramowania należy wziąć przynajmniej 6 czynników, które mogą mieć wpływ na ostateczną decyzję:

Czytaj dalej

OCR – branże w których najbardziej się przyda

OCR - lek na stosy papieru

W poprzednim wpisie opisałem przykład rozwiązania OCR, będącego częścią większego systemu usprawniającego m.in. przepływ dokumentów. Kombinacja ta wydaje się być najbardziej sensowna, gdyż OCR sam w sobie nie przynosi aż tak dużych korzyści. W tym poście chciałbym przedstawić, które branże szczególnie takim rozwiązaniem powinny się zainteresować.

W gruncie rzeczy OCR można wykorzystać w praktycznie każdym przedsiębiorstwie. Jednakże dla jednych będzie on pożytecznym dodatkiem, a dla drugich podstawą w pracy nad dokumentami. I to na tej drugiej grupie chciałbym się skupić w niniejszym tekście.

OCR przyda się szczególnie tam, gdzie występuje duża ilość dokumentów papierowych, które można zastąpić ich elektronicznymi odpowiednikami.

Bankowość i finanse – jedna z najbardziej ‘papiero-żernych’ branż na rynku. Niezliczone stosy raportów, umów i innego rodzaju dokumentów zalegają w sejfach i na biurkach i są zmorą każdego z pracowników. W dużej mierze winne są stosowane procedury, które wymagają posiadania fizycznych kopii dokumentów. Niemniej jednak odpowiedni system informatyczny w połączeniu z OCR jest w stanie sprostać tymże regulacjom i znacznie ograniczyć papierowe szaleństwo.

OCR w finansach i bankowości

Czytaj dalej

Wykorzystanie OCR – badania i statystyki

Statystyki skanowania OCR

W niniejszym wpisie chciałbym spojrzeć na Optical Character Recognition (OCR) z nieco szerszej perspektywy. Dlatego też w oparciu o badania AIIM przedstawię kilka liczb opisujących m.in.: w jakim procencie przedsiębiorstw używa się OCR-a, w ilu przypadkach pomimo skanowania, tekst musi być mimo wszystko ręcznie wprowadzany, o ile procent OCR/ICR jest w stanie przyspieszyć pracę na dokumentami i nie tylko.

Wykorzystanie OCR

26% użytkowników OCR

skanuje 100 lub mniej dokumentów na dzień.

10% użytkowników OCR

procesuje ponad 10 000 dokumentów na dzień!

88%

– taki odsetek respondentów korzysta ze skanowania w pracy. Jednakże tylko 32% z nich używa do tego OCR.

55%

– ponad połowa z przepytanych osób skanuje dokumenty, a następnie ręcznie przepisuje zawarte w nich dane, korzystając przy tym z systemu workflow
CZYTAJ DALEJ

Rozponawanie tekstu w przedsiębiorstwie

OCR dokumentów

Szukając materiału do kolejnego wpisu natknąłem się na serię artykułów o OCR, znajdujących się na stronie Uniwersytetu Ekonomicznego w Krakowie. Jeden z nich szczególnie przykuł moją uwagę, dlatego pozwalam sobie na zacytowanie kilku jego fragmentów.

Autorem tekstu jest p. Kinga Rocławska:

„Jeśli jedna osoba przepisywałaby ręcznie 1 stronę A4 dziennie, to w ciągu roku spędziłaby 15 dni roboczych czyli 3 tygodnie pracy na tej czynności. Natomiast jeżeli dwudziestu pracownikom firmy zajmuje po 30 minut w ciągu dnia ręczne przepisywanie tekstu, strata czasu jest 20-krotnie wyższa.”

Czytaj dalej

Zastosowanie modułu OCR w praktyce

OCR w WEBCON BPS

W poprzednich wpisach skupiałem się bardziej na teoretycznym opisie tego czym jest Optical Character Recognition (OCR). Tymczasem warto byłoby zobaczyć jak całe rozwiązanie jest w stanie funkcjonować jako część większej platformy.

Obecnie moduł OCR najczęściej wykorzystywany jest w przedsiębiorstwach przy zarządzaniu elektronicznymi dokumentami. Jeśli przyjąć za kryterium wyboru sprawność w digitalizacji tradycyjnych dokumentów, a także procesy zarządzające ich obiegiem, jednym z ciekawszych rozwiązań na rynku jest WEBCON Business Process Suite, którego integralną częścią jest wbudowany OCR.

Charakterystyczne cechy OCR w WEBCON BPS:

– oparty jest na logice algorytmów rozmytych – wyszukuje i zaznacza słowa kluczowe (np. NIP, data płatności), przez co nie ma konieczności tworzenia dedykowanego szablonu dla każdego kontrahenta. Informacje są pobierane i uzupełniane samoczynnie, a następnie przekazywane w systemie obiegu dokumentów do akceptacji.

Czytaj dalej

Jak digitalizujemy książki nawet o tym nie wiedząc?

Logo reCAPTCHA

Jednym z najciekawszych i najbardziej pomysłowych rozwiązań na jakie się ostatnio natknąłem jest reCAPTCHA. Dzięki niej, miliony ludzi na świecie staje się swego rodzaju manualnym OCR-em, nawet o tym nie wiedząc. Jak to możliwe?

Rejestrując się na stronie lub na forum, zazwyczaj na koniec tego procesu witryna zmusza Cię do udowodnienia, że nie jesteś botem do rozpowszechniania spamu. Co robisz? W 90% przypadków przepisujesz kod/wyraz z wyświetlonego obrazka obrazka. Tak działa m.in. reCAPTCHA.

Jak to się ma do OCR-a? Nawet najlepsze systemy nie są w stanie rozpoznać 100% skanowanych wyrazów. Obecnie skuteczność tego typu programów kształtuje się na poziomie 90-98%, w zależności od wykorzystywanych algorytmów i jakości skanowanego tekstu. To oznacza, że przy tekście zawierającym 20 000 słów, wciąż od 400 do 2000 pozostaje do rozpoznania przez człowieka.

Błędne rozpoznanie systemu OCR

Czytaj dalej

Dyrektor IT o OCR

Logo Sudzucker

Niedawno ukazał się wywiad z Markiem Witkowskim, dyrektorem IT w Sudzucker Polska. Wśród różnych, dość interesujących wypowiedzi, znalazłem także fragment o wykorzystaniu modułu OCR w tej firmie. Historia jest ciekawa, dlatego pozwalam ją sobie przytoczyć, cytując fragment wywiadu.

„- Od kilku lat firma korzysta z modułu OCR. Jak jest wykorzystywany, jakie przynosi korzyści i czy jest wart polecenia?

Czytaj dalej

OCR – jakie płyną z niego korzyści?

Korzyści z OCR

Aby dostrzec potencjalne korzyści z wykorzystania systemu OCR, warto przeanalizować trzy podstawowe modele, stosowane obecnie w przedsiębiorstwach. Za przykład niech posłuży schemat rejestrowania faktur kosztowych.

1. Ręczna rejestracja z zastosowaniem elektronicznego systemu obiegu dokumentów:

– faktury rejestrowane są ręcznie, przez pracowników oddelegowanych do tego zadania
– dzięki elektronicznemu systemowi obiegu dokumentów, wiadomo dokładnie w którym miejscu znajduje się dana faktura
– trafia ona bezpośrednio do właściciela biznesowego, bez konieczności jej ręcznej dekretacji
– system spełnia funkcję kontrolną nad procesem akceptacji zarejestrowanej faktury
a)      Zyski:
– brak potrzeby ręcznej dekretacji faktury
– brak potrzeby fizycznego przekazywania faktury do akceptacji
– brak możliwości zagubienia faktury podczas procesu akceptacji
– zgodność z procedurą i polepszenie jakości danych
– oszczędność czasu

Czytaj dalej

Jak działa OCR?

OCR - rozpoznawanie struktury rastrowej

Proces konwersji pliku graficznego do edytowalnego dokumentu podzielony jest na kilka etapów, za które odpowiadają różne zestawy algorytmów.

Pierwszym krokiem jest załadowanie obrazu dokumentu w postaci bitmapy. Następnie zeskanowany tekst jest analizowany na kilka różnych sposobów.

Na początku program OCR dokonuje analizy layoutu i dzieli stronę na poszczególne elementy. Dzięki temu możliwa jest identyfikacja miejsc, w których znajduje się tekst. Ten z kolei dzielony jest na coraz mniejsze elementy: akapity, wersy, słowa i znaki. Na tym etapie dokument zapamiętywany jest jako zbiór pojedynczych znaków.

OCR - rozpoznawanie struktury rastrowej

Następnie znaki te rozpoznawane są przy użyciu poszczególnych algorytmów. Rodzaj i sposób ich wykorzystania zależy od producentów oprogramowania. Nie istnieje jedna, uniwersalna metoda, jednak można wyszczególnić kilka najbardziej popularnych technik:

Czytaj dalej

Yet Another Social Plugin powered by TutsKid.com.