Tag Archive for statystyki

Ngram Viewer – kolejny przykład wykorzystania OCR

Google Labs

Pamiętacie wpis o reCAPTCHY*, który ujawniał jak na co dzień skanujemy książki? Teraz czas na system, który pozwala wykorzystać zeskanowane materiały. Ngram Viewer, bo o nim mowa, stworzony został przez Google Labs i zawiera bazę ponad 5 milionów książek (zawierający 500 miliardów słów!) z lat 1800-2008, które poddano OCR-owaniu w firmie Larry’ego Page’a.

Wszystkie mole książkowe, którym zaświeciły się w tym miejscu oczy, na myśl o dostępie do tych wszystkich zbiorów, muszę ostrzec: Ngram Viewer służy głównie do badań statystycznych i językoznawczych. Nie ma możliwości przeczytania danego dzieła od deski do deski, można co najwyżej podejrzeć pewne fragmenty. 

Jak to działa?

Ale po kolei. Narzędzie Google służy do wyszukiwania pożądanych fraz, w danym przedziale czasowym i języku zeskanowanych publikacji. Dane zwracane są w formie wykresu, który prezentuje poziom częstotliwości występowania danego słowa na przestrzeni czasu. Możliwe jest wyszukiwanie złożonych fraz (np. atak terrorystyczny) jak i zestawianie ich ze sobą (np. Bóg i nauka jak na obrazku poniżej). 

Czytaj dalej

Wykorzystanie OCR – badania i statystyki

Statystyki skanowania OCR

W niniejszym wpisie chciałbym spojrzeć na Optical Character Recognition (OCR) z nieco szerszej perspektywy. Dlatego też w oparciu o badania AIIM przedstawię kilka liczb opisujących m.in.: w jakim procencie przedsiębiorstw używa się OCR-a, w ilu przypadkach pomimo skanowania, tekst musi być mimo wszystko ręcznie wprowadzany, o ile procent OCR/ICR jest w stanie przyspieszyć pracę na dokumentami i nie tylko.

Wykorzystanie OCR

26% użytkowników OCR

skanuje 100 lub mniej dokumentów na dzień.

10% użytkowników OCR

procesuje ponad 10 000 dokumentów na dzień!

88%

– taki odsetek respondentów korzysta ze skanowania w pracy. Jednakże tylko 32% z nich używa do tego OCR.

55%

– ponad połowa z przepytanych osób skanuje dokumenty, a następnie ręcznie przepisuje zawarte w nich dane, korzystając przy tym z systemu workflow
CZYTAJ DALEJ

Rozponawanie tekstu w przedsiębiorstwie

OCR dokumentów

Szukając materiału do kolejnego wpisu natknąłem się na serię artykułów o OCR, znajdujących się na stronie Uniwersytetu Ekonomicznego w Krakowie. Jeden z nich szczególnie przykuł moją uwagę, dlatego pozwalam sobie na zacytowanie kilku jego fragmentów.

Autorem tekstu jest p. Kinga Rocławska:

„Jeśli jedna osoba przepisywałaby ręcznie 1 stronę A4 dziennie, to w ciągu roku spędziłaby 15 dni roboczych czyli 3 tygodnie pracy na tej czynności. Natomiast jeżeli dwudziestu pracownikom firmy zajmuje po 30 minut w ciągu dnia ręczne przepisywanie tekstu, strata czasu jest 20-krotnie wyższa.”

Czytaj dalej

Yet Another Social Plugin powered by TutsKid.com.