OCR w dokumentach » skan

Dokumenty papierowe a bezpieczeństwo danych

Michał Rykiert — Tue, 20 Aug 2013 10:07:08 +0000

Znacie Kevina Mitnicka? To najsłynniejszy hacker na świecie, o którym Hollywood nakręcił film (Takedown, 2000). Zapewne słysząc słowo „hacker”, większość osób ma w wyobraźni obraz typowego „kujona” we flanelowej koszulki, który od komputera odchodzi tylko po to, aby zaspokoić swoje podstawowe potrzeby życiowe. Dużo mniej osób jednak wie, że Mitnick swój sukces zawdzięcza nie tylko znajomościom systemów komputerowych, ale także socjotechnice i tzw. dumpster divingowi (brzmi mądrze, lecz chodzi o pospolite grzebanie w śmieciach, w tym przypadku w poszukiwaniu przydatnych danych). Wszak najsłabszym ogniwem każdego systemu jest zawsze człowiek.

Mitnick, w książce „Sztuka Podstępu” udowadniał jak wiele ważnych informacji można znaleźć w pojemniku na odpady umieszczonym obok siedziby firmy. Dane pracowników, numery kont bankowych, korespondencję i wiele innych. Posiadając taką wiedzę, manipulowanie pracownikami okazywało się czynnością dziecinnie prostą.

Jednakże wciąż w bardzo wielu organizacjach, kiedy przywołany zostaje temat zastąpienia papierowych dokumentów elektronicznymi, pracownicy obawiają się o bezpieczeństwo. Brak wiedzy, ignorancja czy zbytnie przyzwyczajenie do papieru? Przyjrzyjmy się jakie największe zagrożenia niesie ze sobą wykorzystywanie papierowych dokumentów.

1. „Gdzieś się zapodział”.

Około 50% przypadków naruszenia bezpieczeństwa danych wynika z zagubienia dokumentu papierowego. I nic dziwnego. Często wędrują one po całej firmie, od działu do działu. Składane są na kupki, wkładane do segregatorów i szuflad. Przechodzą przez ręce kilkunastu(dziesięciu) pracowników i tylko kwestią czasu jest jak któryś z nich się zapodzieje. Nie ma jasnej ewidencji u kogo się aktualnie znajduje, kto i kiedy zmienił jego położenie. Pół biedy, jeśli został źle skatalogowany. Dużo gorzej w przypadku gdy trafia w niewłaściwe ręce. A konkurencja nie śpi…

2. „Tego tu nie było”.

Kolejnym zagrożeniem jakie stwarzają dokumenty papierowe jest manipulowanie danymi. O ile w systemie klasy BPM/DMS, który pilnuje użytkowników w trakcie wprowadzania informacji, bardzo ciężko jest zawrzeć nieprawdziwe informacje (szczególnie jeśli system ten jest zintegrowany z OCR i na podstawie skanu uzupełnia pola). O tyle w przypadku dokumentu papierowego, zamienienie trójki na ósemkę czy sfałszowanie podpisu jest dużo łatwiejsze.

3. „A te dokumenty to pana?”

Dokumenty swobodnie leżące na biurku, zostawione w ogólnodostępnej drukarce, w koszu na śmieci, niezamknięte szafki, omyłkowo wysłane faksy itd. Potencjalnych zagrożeń jest wiele, a nieautoryzowany dostęp do poufnych informacji może być fatalny w skutkach. Tymczasem elektroniczny obieg dokumentów pozwala na zdefiniowanie kto będzie miał dostęp do których informacji. Ponadto dane mogą być szyfrowane i nawet w przypadku kiedy dostaną się w niepowołane ręce, mogą być chronione.

Wnioski

„Jeżeli jesteśmy do czegoś przyzwyczajeni, sądzimy, że nam się to sprawiedliwie należy. Postęp nie ma większego wroga niż przyzwyczajenie”. Przytoczone słowa José Martíego, perfekcyjnie wręcz odzwierciedlają największą przeszkodę, która stoi na drodze do pozbycia się papieru. Ludzkie nawyki bywają największą barierą w implementacji nowych rozwiązań. Należy jednak patrzeć na nie z punktu widzenia korzyści: większej produktywności, bezpieczeństwa, a w efekcie i wygody. Bo gdy przyzwyczaimy pracowników do nowego sposobu działania, nie będą już chcieli wracać do starych metod.

Post Dokumenty papierowe a bezpieczeństwo danych pojawił się poraz pierwszy w OCR w dokumentach.

ICR – czy warto skanować pismo odręczne?

Michał Rykiert — Wed, 07 Aug 2013 09:08:54 +0000

W swoich dotychczasowych wpisach poruszałem głównie tematykę związaną z „klasycznym” OCR-rem. Nie jest to jednak jedyny termin określający oprogramowanie rozpoznające znaki. Jednym z ciekawszych przykładów jest ICR – Intelligent Character Recogniction (Inteligentne Rozpoznawanie znaków).

Na czym polega ICR?

Intelligent Character Recognition to aplikacja wykorzystująca zaawansowane algorytmy, służące do rozpoznawania pisma odręcznego. Większość aplikacji ICR posiada algorytmy uczące się (tzw. sieci neuronowe), które automatycznie aktualizują swoją bazę w miarę rozpoznawania kolejnych typów pisma.

Zasada działania jest analogiczna jak w przypadku OCR. Rozpoznawane kształty przenoszone są do formy cyfrowej, natomiast tam gdzie program napotkał problem, znaki pozostają do rozpoznania przez użytkownika. Oprogramowanie ICR często posiada kilka silników rozpoznających na raz. Wówczas wyniki skanów zestawiane są ze sobą w celu jak najlepszej interpretacji tekstu.

Skuteczność ICR może sięgać 98%. Jednakże aby osiągnąć taki wynik, skanowany tekst musi spełnić co najmniej kilka wymagań:
• litery muszą być czytelne i wyraźne
• tekst powinien być ustrukturyzowany i jednolity
• kontrast między tekstem a tłem powinien być wysoki

Zastosowanie ICR

Ze względu na fakt coraz częstszego wykorzystania rozmaitych programów (np. MS Word) służących do edycji tekstu, ICR traci z czasem na znaczeniu. Z pewnością będzie przydatny wszędzie tam, gdzie istnieje potrzeba ręcznego wprowadzania tekstu na podstawie dokumentów napisanych odręcznie. Oprogramowanie ICR jest wówczas w stanie zaoszczędzić wymierną ilość czasu.

Inteligentne rozpoznawanie znaków będzie zatem użyteczne w przypadku formularzy stałopozycyjnych, w których dane zawsze znajdują się w tym samym miejscu (np. ankiety, formularze, tabele). Możliwe jest także procesowanie formularzy zmiennopozycyjnych, w których pożądane dane bywają umieszczone w różnych miejscach (np. pisma, reklamacje).

ICR znajduje zastosowanie w branżach tj.:
• finanse i bankowość
• sprzedaż detaliczna
• służba zdrowia
• administracja publiczna

Oprogramowanie ICR

• ABBYY Flexi Capture – po raz kolejny wymieniam ABBYY na pierwszym miejscu. Chcąc nie chcąc jest to oprogramowanie oferujące największe możliwości. Zarówno jeśli weźmiemy pod uwagę skuteczność, jak i liczbę obsługiwanych języków (ponad 100!)
• SmartZone – ICR i OCR przeznaczony do integracji z innymi systemami. Niezłe możliwości rozpoznawania, obsługuje podstawowe języki (polskiego brak)
• TypeReader – 13 obsługiwanych języków, support dla 200 różnych skanerów

ICR – wdrażać?

Ze względu na fakt, iż rola pisma odręcznego systematycznie maleje, zalecałbym ostrożność we wdrożeniu oprogramowania ICR. Może się bowiem okazać, że dużo wydajniejsze i bardziej przyszłościowe będzie przestawienie się na cyfrowe wprowadzanie danych. Wówczas dużo lepsze efekty będzie w stanie dostarczyć OCR. Intelligent Character Recognition natomiast winien być zastosowany tylko tam, gdzie jest to absolutnie niezbędne, a odejście od pisma odręcznego jest niemożliwe lub trudne do zrealizowania.

Post ICR – czy warto skanować pismo odręczne? pojawił się poraz pierwszy w OCR w dokumentach.

5 największych przeszkód w OCR-owaniu

Michał Rykiert — Fri, 21 Jun 2013 09:45:12 +0000

Optical Character Recognition (OCR) to technologia bez wątpienia przydatna i pożyteczna. Nie jest jednak pozbawiona wad. O niedoskonałościach w rozpoznawaniu znaków napomknąłem już wcześniej. Teraz chciałbym przedstawić inne problemy, które negatywnie wpływają na rozpoznawanie znaków.

OCR świetnie sprawdza się w firmach – tam zazwyczaj skanowane wydruki są dobrej jakości i większość programów bez problemu rozpoznaje między 95 a 99% znaków. Dużo gorzej jest np. w przypadku bibliotek. Tam, niektóre ze zbiorów (często już wiekowych) nie stwarzają już tak dobrych warunków do digitalizacji tekstu. Książki bywają zniszczone, pisane archaicznym językiem i niespotykaną obecnie czcionką. To oczywiście dość ekstremalne przypadki, ale dobrze obrazują przeszkody jakie napotyka oprogramowanie.

Przyjrzyjmy się co bywa największym problemem w pełnotekstowym skanowaniu.

1. Jednym z najczęstszych problemów jest słaba jakość druku źródłowego. W przypadku gdy liczba (gęstość) pikseli jest zbyt mała, programy zwyczajnie się gubią, dając albo niepoprawne wyniki, albo w ogóle nie rozpoznając znaków i poszczególnych słów. Jest to najczęstszy i uniwersalny problem dotyczący skanowania.

2. Brak jednolitości tekstu to kolejny czynnik, który zaniża skuteczność rozpoznawania. Korzystanie z różnych czcionek i różnych wielkości ujemnie wpływa na możliwość poprawnego zeskanowania tekstu. W miarę możliwości należy tego unikać, aby otrzymać jak najlepszy efekt.

3. Wyblakłe kolory i zbyt mały kontrast. Optymalnie byłoby, gdyby skanowany tekst miał czcionkę o głębokiej czerni. Niestety rzeczywistość jest mniej różowa i często okazuje się, że barwa poszczególnych liter nie jest wystarczająco wyrazista. Warto także zwrócić uwagę na fakt, iż użycie innych kolorów niż czarny,co również może być przeszkodą dla OCR-a.

4. Tekst nie powinien być także zbyt gęsty. Zbyt duże nagromadzenie tekstu na stronie (liter, paragrafów) może poskutkować niższą skutecznością.

5. Rozmiar czcionki również ma znaczenie. Minimalny próg, w zależności od rodzaju stosowanych algorytmów przez OCR, powinien wynosić między 6 a 8.

Co by nie mówić, technologia idzie do przodu. Programy do rozpoznawania znaków są coraz lepsze, tak jak i materiały skanowane na co dzień (choćby faktury czy umowy). Jestem ciekaw kiedy doczekamy

Na koniec ciekawostka. Znaczenie ma także rodzaj skanowanego papieru (materiału). Ze względu na nietypowy, jak na dzisiejsze czasy, skład papieru, skanowaniu nie poddaje się większości tekstów wydanych przed 1850 rokiem. Aby to zrobić konieczne są dodatkowe analizy oraz ustawienie niestandardowych parametrów dla OCR-a, dostosowanych do skanowanego materiału.

Post 5 największych przeszkód w OCR-owaniu pojawił się poraz pierwszy w OCR w dokumentach.