OCR – jak wybrać dobry software?

barcoderay

Na początku lat 90. zaczęto organizować swego rodzaju zawody w dokładności rozpoznawania znaków przez oprogramowanie OCR. Nie były to jednak chałupnicze projekty, a dość poważne i kompleksowe badania przeprowadzane przez amerykańskie Information Science Research Institute (ISRI) oraz University of Nevada Las Vegas (tak, nawet w światowej stolicy hazardu znajduje się szanowana uczelnia!). W 1995 roku odbyła się ostatnia edycja tego konkursu.

Od tego czasu sporo się jednak zmieniło. W końcu 18 lat w branży informatycznej to niemalże wieczność. Jak zatem stwierdzić który software obecnie jest najlepszy? 

Dużo zależy od tego jak przeprowadzone zostaną testy, jakie kryteria będą wzięte pod uwagę oraz czego tak naprawdę potrzeba osobie/firmie zainteresowanej kupnem oprogramowania OCR. Bowiem inne wymagania będzie mieć firma sprzedażowa, pracująca głównie na drukowanych fakturach, a inne biblioteka publiczna, starająca się digitalizować swoje wiekowe zbiory.

Podczas oceny i wyboru oprogramowania należy wziąć przynajmniej 6 czynników, które mogą mieć wpływ na ostateczną decyzję:

1. Jakość skanowanych dokumentów – zgodnie z wcześniej podanym przykładem należy określić na skanowaniu jakich dokumentów najbardziej nam zależy

2. Obsługa różnych języków – bardzo ważny czynnik dla firm mających oddziały w różnych krajach. Np. organizacja mająca siedzibę w Stanach Zjednoczonych i oddział w Izraelu najpewniej potrzebowała będzie OCR-a wspierającego język angielski i hebrajski.

Chiński OCR

3. Integracja z innymi systemami – to kolejne pytanie o funkcje OCR. Jeśli celem jest tylko digitalizacja dokumentów (biblioteki) to nie trzeba sobie tym czynnikiem specjalnie zawracać głowy. Jeśli natomiast OCR ma funkcjonować w ramach np. systemu elektronicznego obiegu dokumentów, wówczas należy się zastanowić co będzie najłatwiej zintegrować

4. Łatwość użycia – obecnie nie istnieje oprogramowanie dające 100% skuteczność. Stąd prędzej czy później działanie OCR-a podlegać będzie ludzkiej weryfikacji. Dlatego warto zadbać, aby kupiony program był łatwy i intuicyjny w obsłudze

5. Wsparcie – żadna aplikacja nie jest pozbawiona błędów. Prędzej czy później doświadczymy działalności złych, programistycznych trolli. To zaś powinno skłaniać do wyboru producenta, który zapewni solidne wsparcie dla swojego produktu. Jest to niezwykle istotne w przypadku gdy skanowaniu podlegają krytyczne dla firmy dokumenty

6. Dokładność – na koniec najważniejszy czynnik czyli trafność w rozpoznawaniu znaków. Mogłoby się wydawać, że między 98% a 99% skutecznością nie ma wielkiej różnicy, lecz nic bardziej mylnego. Średnio na stronie A4 znajduje się 1800 znaków. Stąd przy 10-stronicowym dokumencie robi znaczną różnice czy trzeba będzie zweryfikować poprawność 360 słów czy tylko 180. Różnica jak widać jest dwukrotna!

To oczywiście ogólne wskazówki, niemniej jednak warto o nich pamiętać przy wyborze oprogramowania. A tym bardziej dobrze jest mieć je w głowie zanim zaczniemy analizować bardziej szczegółowe i techniczne aspekty. Pozwoli to na zachowanie szerszej perspektywy i lepsze dopasowanie OCR-a w stosunku do indywidualnych potrzeb. O ile w przypadku zakupu detalicznego można sobie pozwolić na pewną pobłażliwość, o tyle w sytuacji zakupu dla firmy warto zachować czujność, gdyż w grę z reguły wchodzą wymierne kwoty.

W następnym wpisie postaram się wskazać na jaki konkretnie soft warto zwrócić uwagę.

2 comments

  1. […] (OCR) to technologia bez wątpienia przydatna i pożyteczna. Nie jest jednak pozbawiona wad. O niedoskonałościach w rozpoznawaniu znaków napomknąłem już wcześniej. Teraz chciałbym przedstawić inne problemy, które […]

  2. Piotr pisze:

    Od wielu lat używam Finereadera, zdaje się od wersji 5 i nie zamieniłbym go na żaden inny. A na dodatek teraz do 30 grudnia są zniżki i można go kupić super tanio. wideosoft.pl/finereader.html

Odpowiedz na „5 największych przeszkód w OCR-owaniuAnuluj pisanie odpowiedzi

Twój adres e-mail nie zostanie opublikowany.

Yet Another Social Plugin powered by TutsKid.com.