Jak digitalizujemy książki nawet o tym nie wiedząc?

Michał Rykiert — Fri, 11 Jan 2013 10:46:15 +0000

Jednym z najciekawszych i najbardziej pomysłowych rozwiązań na jakie się ostatnio natknąłem jest reCAPTCHA. Dzięki niej, miliony ludzi na świecie staje się swego rodzaju manualnym OCR-em, nawet o tym nie wiedząc. Jak to możliwe?

Rejestrując się na stronie lub na forum, zazwyczaj na koniec tego procesu witryna zmusza Cię do udowodnienia, że nie jesteś botem do rozpowszechniania spamu. Co robisz? W 90% przypadków przepisujesz kod/wyraz z wyświetlonego obrazka obrazka. Tak działa m.in. reCAPTCHA.

Jak to się ma do OCR-a? Nawet najlepsze systemy nie są w stanie rozpoznać 100% skanowanych wyrazów. Obecnie skuteczność tego typu programów kształtuje się na poziomie 90-98%, w zależności od wykorzystywanych algorytmów i jakości skanowanego tekstu. To oznacza, że przy tekście zawierającym 20 000 słów, wciąż od 400 do 2000 pozostaje do rozpoznania przez człowieka.

Tymczasem na Uniwersytecie Carnegie-Mellona w Pittsburghu, zastanawiano się jak szybko i małym nakładem sił można digitalizować książki i stare egzemplarze gazet. Tak powstał projekt reCAPTCHA. Mechanizm jest w gruncie rzeczy bardzo prosty. Użytkownik, by zakończyć np. rejestrację, musi przepisać dwa słowa podane przez program. W przypadku rozwiązania naukowców z Pittsburga, jedno z nich jest słowem kontrolnym (znanym przez system), natomiast drugie, to słowo nieprawidłowo rozpoznane przez moduł OCR.

Kolejność wyrazów jest losowa, natomiast ich jakość zbliżona, dlatego internauta nigdy nie wie, które z nich stanowi zabezpieczenie. Jeśli dane słowo, przez różnych użytkowników, zostanie trzykrotnie jednakowo zweryfikowane, wówczas system przesyła je do źródła jako rozpoznane. W przypadku kiedy trzej pierwsi użytkownicy nie podali jednakowo brzmiących odpowiedzi, wówczas wyraz prezentowany jest większej ilości osób, a decyzja o jego ostatecznym brzmieniu podejmowana jest na podstawie najczęściej pojawiających się odpowiedzi. Skuteczność tej metody wynosi ponad 99,5%, co przy ilości rozpoznawanych słów jest wynikiem imponującym.

ReCAPTCHA funkcjonuje od 2009 roku i w pierwszych 12 miesiącach od wprowadzenia udało się zdigitalizować aż 17 tysięcy książek. Szacuje się, że aż 200 milionów kodów zabezpieczających CAPTCHA rozwiązywanych jest codziennie przez internautów na całym świecie. Proces ten zajmuje około 10 sekund, co daje sumarycznie niebagatelną ilość zrealizowanych 150 tysięcy roboczogodzin, każdego dnia.

Geniusz reCAPTCHY leży w kilku czynnikach. Przede wszystkim jest to rozwiązanie podwójnie pożyteczne. Z jednej strony webmasterzy zabezpieczają swoje strony i fora internetowe przed spamem. Z drugiej, rozpoznawane są słowa, z którymi nie radzi sobie OCR. Natomiast najlepszy w tym wszystkim jest fakt, że odbywa się w to sposób niemalże niezauważalny i nie wymagający wysiłku dla pojedynczego użytkownika. A do tego wszystkiego, reCAPTCHE można zaimplementować bardzo łatwo i zupełnie za darmo. Czego chcieć więcej?

Nie wiem jak Wy, ale według mnie twórcy (Luis von Ahn, Ben Maurer, Colin McMillen, David Abraham i Manuel Blum) powinni na stałe wpisać się w kanon osób, które pożytecznie przyczyniły się dla społeczeństwa światowego. ReCAPTCHA codziennie pozwala na utrwalenie kilkudziesięciu książek, które w przeciwnym przypadku już nigdy mogłyby nie być dostępne dla szerszej publiki.

Post Jak digitalizujemy książki nawet o tym nie wiedząc? pojawił się poraz pierwszy w OCR w dokumentach.

OCR w dokumentach » archiwum

Jak digitalizujemy książki nawet o tym nie wiedząc?