OCR wzbogacony o sieci neuronowe = nowa jakość?

neural_network_by_stuart203-d4r1tc5

Mechanizm Optycznego Rozpoznawania Znaków jest obecnie narzędziem o wysokiej skuteczności i różnorodnym zastosowaniu – od firmowych dokumentów do książek digitalizowanych przez (nie)świadomych użytkowników reCAPTCHY. A co gdyby dodać do OCR także namiastkę inteligencji w postaci sieci neuronowych?

Zanim przejdę jednak do omówienia możliwości oferowanych przez sieci neuronowe, chciałbym zwrócić uwagę na fakt, iż obecnie możemy podzielić działanie OCR na dwie sfery:

Czytaj dalej

Szablon OCR – dedykowany czy uniwersalny?

Szablon OCR

Sporo pisałem ostatnio o wykorzystaniu OCR w kontekście CAPTCHY. Jednakże nie można zapominać o tym, iż technologia Optycznego Rozpoznawania Znaków jest coraz powszechniej wykorzystywana w firmach. Największy zwrot z inwestycji (ROI) uzyskuje się dzięki zespoleniu OCR-a z systemem obiegu dokumentów. Dlatego też jednym z najpopularniejszych scenariuszy zastosowania Optical Character Recognition jest procesowanie za jego pomocą faktur kosztowych.

Dlaczego? Załóżmy, że firma Kowalski ma 100 kontrahentów, od których regularnie dostaje faktury. Każdy z nich ma inny wzór dokumentu, przez co manualne rejestrowanie tychże staje się dość uciążliwe, ponieważ większość czasu pracownicy spędzają na odszukiwaniu poszczególnych danych.

Dlatego też firma Kowalski decyduje się na wdrożenie systemu obiegu dokumentów ze zintegrowanym modułem OCR, aby proces ten przyspieszyć i zoptymalizować.

OCR a obieg dokumentów

Jak działa takie rozwiązanie? Mamy dwa podstawowe warianty. Pierwszy zakłada, że kontrahenci firmy Kowalski idą z duchem czasu i zamiast zasypywać siedzibę firmy zbędnym papierem, przysyłają na odpowiednią skrzynkę faktury drogą e-mailową. Wówczas są one przechwytywane, automatycznie poddawane skanowaniu przez OCR, poszczególne wartości (np. kwota netto/brutto, NIP, data wystawienia itd.) przenoszone są automatycznie do elektronicznego formularza, a skan faktury załączany do obiegu. W dalszej kolejności dokument przechodzi przez ścieżkę akceptacji i trafia do archiwum.

Czytaj dalej

CAPTCHA kontra spam – czy OCR będzie kolejnym dynamitem?

captcha codes

Spam jest prawie tak stary jak Internet. Oprócz wirusów, trojanów, malware’u itp. jest największą plagą cyberprzestrzeni. Któż z nas nie dostał e-maila z reklamą cudownych tabletek na powiększenie męskiego… hardware’u :)? Od dekady jednym z najskuteczniejszych mechanizmów zabezpieczenia stron internetowych i forów dyskusyjnych jest wykorzystywanie (re)CAPTCHY. Jednak i ten mur udaje się rozbić, m.in. dzięki mechanizmom OCR – Optycznego Rozpoznawania Znaków.

Obecnie oprócz reklamowania szemranych produktów i usług, spam na stronach internetowych służy również m.in. do: manipulowania wynikami ankiet, masowego linkowania, rozprowadzania złośliwego kodu czy naruszania integralności kodu stron. Szacuje się, że aż 90% wiadomości wysyłanych w Internecie to spam.

Od dekady jednym ze skuteczniejszych mechanizmów służących do obrony przed spamem jest CAPTCHA oraz jej pochodne tj. reCAPTCHA. Pomysłowość osób rozsyłających spam sięga coraz dalej i nawet CAPTCHA niekiedy bywa zawodna. Zobaczmy jakie są 3 najczęstsze sposoby jej łamania:

Czytaj dalej

Microsoft oferuje OCR w SkyDrive!

OCR w SkyDrive

Software’owi giganci robią wszystko by nie pozostać w tyle i nie stracić pozycji rynkowej! Niedawno pisałem o OCR w usłudze Google Drive. Okazało się, że podobny patent zastosował Microsoft w usłudze SkyDrive. Szykuje nam się OCR-owa wojna?

Od końca sierpnia tego roku, chmura Microsoftu ma możliwość optycznego rozpoznawania znaków z przesyłanych do niej zdjęć. W SkyDrive wykorzystano dokładnie ten sam engine, który obecny jest w wyszukiwarce Bing. Może być to przydatne w celu przechowania i możliwości szybkiego skopiowania informacji znajdujących się np. na ulotkach, wizytówkach, mapach i innych obiektach tego typu.
OCR w SkyDrive
Obecnie możliwe jest rozpoznawanie znaków w językach: angielskim, portugalskim, hiszpańskim, francuskim i niemieckim. Na tym polu Microsoft zdecydowanie przegrywa z Google, który oferuje skanowanie w 34 językach, w tym polskim.

Czytaj dalej

ZXX – sposób na przechytrzenie NSA

ZXX - manifesto

Wobec informacji ujawnionych przez Edwarda Snowdena o programie PRISM, nie jest niczym nowym, iż rozmaite organizacje rządowe zbierają o nas tyle informacji, ile tylko się da. Jednym to nie przeszkadza, drudzy natomiast biją na alarm, iż ograniczane są podstawowe prawa i przywileje obywateli. Nikt natomiast nie lubi być podglądany, szczególnie w Internecie.

Agencją, która w największym stopniu śledzi życie obywateli w cyberprzestrzeni jest NSA – National Security Agency. Były agent NSA, Sang Mun, który przez dwa lata pracował w Korei  i miał okazję z pierwszej ręki dowiedzieć się jak wydobywa się cenne dane, postanowił się temu procederowi sprzeciwić. Opracował specjalny rodzaj czcionek, nazwanych ZXX (od trzyliterowego kodu wykorzystywanego w Bibliotece Kongresu, którym oznaczane są książki o statusie: „brak treści językowej; nie dotyczy”), które są nie do rozpoznania, nawet przy zastosowaniu najbardziej zaawansowanych mechanizmów OCR.

ZXX - mix

Jak działa ZXX?

Spośród sześciu opracowanych czcionek ZXX, zeskanowane i rozpoznane mogą być tylko dwie. Pozostałe cztery: Camo, False, Noise i Xed uniemożliwiają programom Optical Character Recognition na odczytanie znaków z jakąkolwiek sensowną trafnością.

Czytaj dalej

Dokumenty papierowe a bezpieczeństwo danych

Bezpieczeństwo dokumentów

Znacie Kevina Mitnicka? To najsłynniejszy hacker na świecie, o którym Hollywood nakręcił film (Takedown, 2000). Zapewne słysząc słowo „hacker”, większość osób ma w wyobraźni obraz typowego „kujona” we flanelowej koszulki, który od komputera odchodzi tylko po to, aby zaspokoić swoje podstawowe potrzeby życiowe. Dużo mniej osób jednak wie, że Mitnick swój sukces zawdzięcza nie tylko znajomościom systemów komputerowych, ale także socjotechnice i tzw. dumpster divingowi (brzmi mądrze, lecz chodzi o pospolite grzebanie w śmieciach, w tym przypadku w poszukiwaniu przydatnych danych). Wszak najsłabszym ogniwem każdego systemu jest zawsze człowiek.

Mitnick, w książce „Sztuka Podstępu” udowadniał jak wiele ważnych informacji można znaleźć w pojemniku na odpady umieszczonym obok siedziby firmy. Dane pracowników, numery kont bankowych, korespondencję i wiele innych. Posiadając taką wiedzę, manipulowanie pracownikami okazywało się czynnością dziecinnie prostą.

Elektroniczne dokumenty vs papierowe dokumenty

Jednakże wciąż w bardzo wielu organizacjach, kiedy przywołany zostaje temat zastąpienia papierowych dokumentów elektronicznymi, pracownicy obawiają się o bezpieczeństwo. Brak wiedzy, ignorancja czy zbytnie przyzwyczajenie do papieru? Przyjrzyjmy się jakie największe zagrożenia niesie ze sobą wykorzystywanie papierowych dokumentów.

Czytaj dalej

ICR – czy warto skanować pismo odręczne?

ICR

W swoich dotychczasowych wpisach poruszałem głównie tematykę związaną z „klasycznym” OCR-rem. Nie jest to jednak jedyny termin określający oprogramowanie rozpoznające znaki. Jednym z ciekawszych przykładów jest ICR – Intelligent Character Recogniction (Inteligentne Rozpoznawanie znaków).

Na czym polega ICR?

Intelligent Character Recognition to aplikacja wykorzystująca zaawansowane algorytmy, służące do rozpoznawania pisma odręcznego. Większość aplikacji ICR posiada algorytmy uczące się (tzw. sieci neuronowe), które automatycznie aktualizują swoją bazę w miarę rozpoznawania kolejnych typów pisma.

Zasada działania jest analogiczna jak w przypadku OCR. Rozpoznawane kształty przenoszone są do formy cyfrowej, natomiast tam gdzie program napotkał problem, znaki pozostają do rozpoznania przez użytkownika. Oprogramowanie ICR często posiada kilka silników rozpoznających na raz. Wówczas wyniki skanów zestawiane są ze sobą w celu jak najlepszej interpretacji tekstu.

Czytaj dalej

Google Drive i darmowy OCR

GoogleDrive oferuje OCR

Interesuje Cię OCR, ale nie będziesz skanować tak dużo, aby opłacalne było kupno specjalistycznego oprogramowania? „Wujek Google” ma dla Ciebie rozwiązanie. Oferuje Optyczne Rozpoznawanie Znaków przy okazji korzystania z Google Drive. Skanować można także używając aplikacji mobilnej na Androida. Brzmi nieźle? Zobaczmy jak to wygląda w praktyce.

Cały proces jest bardzo prosty. Umieszczając plik PDF lub zdjęcie (JPG, GIF, PNG) na Dysku Google możemy skorzystać z funkcji OCR. Wówczas zostanie on zeskanowany i przekonwertowany do formy tekstowej. Przy tym wszystko odbywa się w chmurze przy minimalnej ingerencji użytkownika końcowego. System obsługuje 34 języki, wśród których jest także polski, a z trudniejszych do odczytania także rosyjski, chiński (uproszczony) i kilka innych rodem z Azji.

Google Drive i OCR
Usługa ma jednak swoje limity. Pliki graficzne nie mogą przekraczać 2MB, a pliki PDF 10-u stron. Ponadto materiał poddawany skanowaniu powinien być dobrej jakości, szczególnie jeśli chodzi o rozdzielczość, jakość obrazu czy orientację. Do zadań firmowych to zdecydowanie za mało, jednakże dla zastosowań domowych powinno wystarczyć.

Czytaj dalej

5 największych przeszkód w OCR-owaniu

OCR dokumentów

Optical Character Recognition (OCR) to technologia bez wątpienia przydatna i pożyteczna. Nie jest jednak pozbawiona wad. O niedoskonałościach w rozpoznawaniu znaków napomknąłem już wcześniej. Teraz chciałbym przedstawić inne problemy, które negatywnie wpływają na rozpoznawanie znaków.

OCR świetnie sprawdza się w firmach – tam zazwyczaj skanowane wydruki są dobrej jakości i większość programów bez problemu rozpoznaje między 95 a 99% znaków. Dużo gorzej jest np. w przypadku bibliotek. Tam, niektóre ze zbiorów (często już wiekowych) nie stwarzają już tak dobrych warunków do digitalizacji tekstu. Książki bywają zniszczone, pisane archaicznym językiem i niespotykaną obecnie czcionką. To oczywiście dość ekstremalne przypadki, ale dobrze obrazują przeszkody jakie napotyka oprogramowanie.

Problemy w pełnotekstowym skanowaniu OCR

Przyjrzyjmy się co bywa największym problemem w pełnotekstowym skanowaniu.

Czytaj dalej

Ngram Viewer – kolejny przykład wykorzystania OCR

Google Labs

Pamiętacie wpis o reCAPTCHY*, który ujawniał jak na co dzień skanujemy książki? Teraz czas na system, który pozwala wykorzystać zeskanowane materiały. Ngram Viewer, bo o nim mowa, stworzony został przez Google Labs i zawiera bazę ponad 5 milionów książek (zawierający 500 miliardów słów!) z lat 1800-2008, które poddano OCR-owaniu w firmie Larry’ego Page’a.

Wszystkie mole książkowe, którym zaświeciły się w tym miejscu oczy, na myśl o dostępie do tych wszystkich zbiorów, muszę ostrzec: Ngram Viewer służy głównie do badań statystycznych i językoznawczych. Nie ma możliwości przeczytania danego dzieła od deski do deski, można co najwyżej podejrzeć pewne fragmenty. 

Jak to działa?

Ale po kolei. Narzędzie Google służy do wyszukiwania pożądanych fraz, w danym przedziale czasowym i języku zeskanowanych publikacji. Dane zwracane są w formie wykresu, który prezentuje poziom częstotliwości występowania danego słowa na przestrzeni czasu. Możliwe jest wyszukiwanie złożonych fraz (np. atak terrorystyczny) jak i zestawianie ich ze sobą (np. Bóg i nauka jak na obrazku poniżej). 

Czytaj dalej

Yet Another Social Plugin powered by TutsKid.com.