Tag Archive for książki

Ngram Viewer – kolejny przykład wykorzystania OCR

Google Labs

Pamiętacie wpis o reCAPTCHY*, który ujawniał jak na co dzień skanujemy książki? Teraz czas na system, który pozwala wykorzystać zeskanowane materiały. Ngram Viewer, bo o nim mowa, stworzony został przez Google Labs i zawiera bazę ponad 5 milionów książek (zawierający 500 miliardów słów!) z lat 1800-2008, które poddano OCR-owaniu w firmie Larry’ego Page’a.

Wszystkie mole książkowe, którym zaświeciły się w tym miejscu oczy, na myśl o dostępie do tych wszystkich zbiorów, muszę ostrzec: Ngram Viewer służy głównie do badań statystycznych i językoznawczych. Nie ma możliwości przeczytania danego dzieła od deski do deski, można co najwyżej podejrzeć pewne fragmenty. 

Jak to działa?

Ale po kolei. Narzędzie Google służy do wyszukiwania pożądanych fraz, w danym przedziale czasowym i języku zeskanowanych publikacji. Dane zwracane są w formie wykresu, który prezentuje poziom częstotliwości występowania danego słowa na przestrzeni czasu. Możliwe jest wyszukiwanie złożonych fraz (np. atak terrorystyczny) jak i zestawianie ich ze sobą (np. Bóg i nauka jak na obrazku poniżej). 

Czytaj dalej

Jak digitalizujemy książki nawet o tym nie wiedząc?

Logo reCAPTCHA

Jednym z najciekawszych i najbardziej pomysłowych rozwiązań na jakie się ostatnio natknąłem jest reCAPTCHA. Dzięki niej, miliony ludzi na świecie staje się swego rodzaju manualnym OCR-em, nawet o tym nie wiedząc. Jak to możliwe?

Rejestrując się na stronie lub na forum, zazwyczaj na koniec tego procesu witryna zmusza Cię do udowodnienia, że nie jesteś botem do rozpowszechniania spamu. Co robisz? W 90% przypadków przepisujesz kod/wyraz z wyświetlonego obrazka obrazka. Tak działa m.in. reCAPTCHA.

Jak to się ma do OCR-a? Nawet najlepsze systemy nie są w stanie rozpoznać 100% skanowanych wyrazów. Obecnie skuteczność tego typu programów kształtuje się na poziomie 90-98%, w zależności od wykorzystywanych algorytmów i jakości skanowanego tekstu. To oznacza, że przy tekście zawierającym 20 000 słów, wciąż od 400 do 2000 pozostaje do rozpoznania przez człowieka.

Błędne rozpoznanie systemu OCR

Czytaj dalej

Yet Another Social Plugin powered by TutsKid.com.