5 największych przeszkód w OCR-owaniu

OCR dokumentów

Optical Character Recognition (OCR) to technologia bez wątpienia przydatna i pożyteczna. Nie jest jednak pozbawiona wad. O niedoskonałościach w rozpoznawaniu znaków napomknąłem już wcześniej. Teraz chciałbym przedstawić inne problemy, które negatywnie wpływają na rozpoznawanie znaków.

OCR świetnie sprawdza się w firmach – tam zazwyczaj skanowane wydruki są dobrej jakości i większość programów bez problemu rozpoznaje między 95 a 99% znaków. Dużo gorzej jest np. w przypadku bibliotek. Tam, niektóre ze zbiorów (często już wiekowych) nie stwarzają już tak dobrych warunków do digitalizacji tekstu. Książki bywają zniszczone, pisane archaicznym językiem i niespotykaną obecnie czcionką. To oczywiście dość ekstremalne przypadki, ale dobrze obrazują przeszkody jakie napotyka oprogramowanie.

Problemy w pełnotekstowym skanowaniu OCR

Przyjrzyjmy się co bywa największym problemem w pełnotekstowym skanowaniu.

1. Jednym z najczęstszych problemów jest słaba jakość druku źródłowego. W przypadku gdy liczba (gęstość) pikseli jest zbyt mała, programy zwyczajnie się gubią, dając albo niepoprawne wyniki, albo w ogóle nie rozpoznając znaków i poszczególnych słów. Jest to najczęstszy i uniwersalny problem dotyczący skanowania.

2. Brak jednolitości tekstu to kolejny czynnik, który zaniża skuteczność rozpoznawania. Korzystanie z różnych czcionek i różnych wielkości ujemnie wpływa na możliwość poprawnego zeskanowania tekstu. W miarę możliwości należy tego unikać, aby otrzymać jak najlepszy efekt.

3. Wyblakłe kolory i zbyt mały kontrast. Optymalnie byłoby, gdyby skanowany tekst miał czcionkę o głębokiej czerni. Niestety rzeczywistość jest mniej różowa i często okazuje się, że barwa poszczególnych liter nie jest wystarczająco wyrazista. Warto także zwrócić uwagę na fakt, iż użycie innych kolorów niż czarny,co również może być przeszkodą dla OCR-a.

4. Tekst nie powinien być także zbyt gęsty. Zbyt duże nagromadzenie tekstu na stronie (liter, paragrafów) może poskutkować niższą skutecznością.

5. Rozmiar czcionki również ma znaczenie. Minimalny próg, w zależności od rodzaju stosowanych algorytmów przez OCR, powinien wynosić między 6 a 8.

Co by nie mówić, technologia idzie do przodu. Programy do rozpoznawania znaków są coraz lepsze, tak jak i materiały skanowane na co dzień (choćby faktury czy umowy). Jestem ciekaw kiedy doczekamy

Na koniec ciekawostka. Znaczenie ma także rodzaj skanowanego papieru (materiału). Ze względu na nietypowy, jak na dzisiejsze czasy, skład papieru, skanowaniu nie poddaje się większości tekstów wydanych przed 1850 rokiem. Aby to zrobić konieczne są dodatkowe analizy oraz ustawienie niestandardowych parametrów dla OCR-a, dostosowanych do skanowanego materiału.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.

Yet Another Social Plugin powered by TutsKid.com.