Jak digitalizujemy książki nawet o tym nie wiedząc?

Pin It

Jednym z najciekawszych i najbardziej pomysłowych rozwiązań na jakie się ostatnio natknąłem jest reCAPTCHA. Dzięki niej, miliony ludzi na świecie staje się swego rodzaju manualnym OCR-em, nawet o tym nie wiedząc. Jak to możliwe?

Rejestrując się na stronie lub na forum, zazwyczaj na koniec tego procesu witryna zmusza Cię do udowodnienia, że nie jesteś botem do rozpowszechniania spamu. Co robisz? W 90% przypadków przepisujesz kod/wyraz z wyświetlonego obrazka obrazka. Tak działa m.in. reCAPTCHA.

Jak to się ma do OCR-a? Nawet najlepsze systemy nie są w stanie rozpoznać 100% skanowanych wyrazów. Obecnie skuteczność tego typu programów kształtuje się na poziomie 90-98%, w zależności od wykorzystywanych algorytmów i jakości skanowanego tekstu. To oznacza, że przy tekście zawierającym 20 000 słów, wciąż od 400 do 2000 pozostaje do rozpoznania przez człowieka.

Tymczasem na Uniwersytecie Carnegie-Mellona w Pittsburghu, zastanawiano się jak szybko i małym nakładem sił można digitalizować książki i stare egzemplarze gazet. Tak powstał projekt reCAPTCHA. Mechanizm jest w gruncie rzeczy bardzo prosty. Użytkownik, by zakończyć np. rejestrację, musi przepisać dwa słowa podane przez program. W przypadku rozwiązania naukowców z Pittsburga, jedno z nich jest słowem kontrolnym (znanym przez system), natomiast drugie, to słowo nieprawidłowo rozpoznane przez moduł OCR.

Kolejność wyrazów jest losowa, natomiast ich jakość zbliżona, dlatego internauta nigdy nie wie, które z nich stanowi zabezpieczenie. Jeśli dane słowo, przez różnych użytkowników, zostanie trzykrotnie jednakowo zweryfikowane, wówczas system przesyła je do źródła jako rozpoznane. W przypadku kiedy trzej pierwsi użytkownicy nie podali jednakowo brzmiących odpowiedzi, wówczas wyraz prezentowany jest większej ilości osób, a decyzja o jego ostatecznym brzmieniu podejmowana jest na podstawie najczęściej pojawiających się odpowiedzi. Skuteczność tej metody wynosi ponad 99,5%, co przy ilości rozpoznawanych słów jest wynikiem imponującym.

ReCAPTCHA funkcjonuje od 2009 roku i w pierwszych 12 miesiącach od wprowadzenia udało się zdigitalizować aż 17 tysięcy książek. Szacuje się, że aż 200 milionów kodów zabezpieczających CAPTCHA rozwiązywanych jest codziennie przez internautów na całym świecie. Proces ten zajmuje około 10 sekund, co daje sumarycznie niebagatelną ilość zrealizowanych 150 tysięcy roboczogodzin, każdego dnia.

Geniusz reCAPTCHY leży w kilku czynnikach. Przede wszystkim jest to rozwiązanie podwójnie pożyteczne. Z jednej strony webmasterzy zabezpieczają swoje strony i fora internetowe przed spamem. Z drugiej, rozpoznawane są słowa, z którymi nie radzi sobie OCR. Natomiast najlepszy w tym wszystkim jest fakt, że odbywa się w to sposób niemalże niezauważalny i nie wymagający wysiłku dla pojedynczego użytkownika. A do tego wszystkiego, reCAPTCHE można zaimplementować bardzo łatwo i zupełnie za darmo. Czego chcieć więcej?

Nie wiem jak Wy, ale według mnie twórcy (Luis von Ahn, Ben Maurer, Colin McMillen, David Abraham i Manuel Blum) powinni na stałe wpisać się w kanon osób, które pożytecznie przyczyniły się dla społeczeństwa światowego. ReCAPTCHA codziennie pozwala na utrwalenie kilkudziesięciu książek, które w przeciwnym przypadku już nigdy mogłyby nie być dostępne dla szerszej publiki.

26 comments

Jandrzej pisze:

9 kwietnia 2013 o 19:05

„Jednym z najciekawszych i najbardziej pomysłowych rozwiązań na jakie się ostatnio natknąłem jest reCAPTCHA.”

Żyjesz w Kambodży czy gdzie? Przecież reCAPTCHA jest powszechnie używana w Internecie od paru lat. Nie mówiąc też o tym, że o tej digitaliacji wie też co druga osoba.

Odpowiedz
- Dalej Lama pisze:
  
  9 kwietnia 2013 o 19:53
  
  Nawet pod takim artykułem znajdzie się hejterski komentarz Może czasem zamiast dawać upust swojej frustracji w taki sposób lepiej zrelaksuj się przy jakimś „filmie akcji” Jendrzeju.
  
  Odpowiedz
  - Ebook pisze:
    
    10 kwietnia 2013 o 01:20
    
    niestety ale Jandrzej ma rację. Choć ten artykuł może być ciekawy dla nowych użytkowników sieci.
    
    Odpowiedz
    - Rupert pisze:
      
      10 kwietnia 2013 o 07:17
      
      Sieci używam od połowy lat dziewięćdziesiątych. Dla mnie to ciekawostka, o której nie wiedziałem. Szkoda, że na polskich forach wypowiadają się wszystkowiedzący experci – zazwyczaj na minimalnej krajowej albo na zasiłku. Zmieniając swoje zainteresowania i koncentrując siły na pożytecznych rzeczach mogliby znakomicie wpłynąć na rozwój społeczeństwa, alternatywnie mogliby też szybko zostać milionerami – by później mieć środki na działania charytatywne.
      
      Odpowiedz
      - asd pisze:
        
        10 kwietnia 2013 o 14:09
        
        A teraz ja Ciebie zhejtuje, bo sposob argumentowania w stylu „bo to zlodziej i pijak” jest prymitywny.
        Nie mam ani zasilku, ani minimalnej. Sieci uzywam od połowy lat dziewięćdziesiątych i zgadzam sie ze porownanie do Kambodzy, bylo calkiem trafione.
      - Kitsune pisze:
        
        10 kwietnia 2013 o 15:20
        
        I Ty uważasz, że to Jędrzej Cię hejtuje? A Twój sposób wypowiedzi i zarzuty typu „na zasiłku lub bezrobotny” uważasz za kulturę jaką powinno się pokazywać w Internecie?
        To gratulację. ReCaptcha nie jest niczym nowym i na pewno wielu użytkowników wie na czym ona polega. Czy gdybym zrobił artykuł co to jest kot domowy, nie stwierdziłbyś, że każdy to wie?
        Nikt nie próbuje być tu ekspertem, ale wystawienie negatywnego komentarza nie znaczy, że to od razu hejt. Trochę pokory, to że kto Cię krytykuje, nie znaczy, że jest „na zasiłku”. Wolność słowa chyba całkiem zanika… wszystko jest dopuszczalne dopóki ktoś nie skrytykuje.
      - fear pisze:
        
        10 kwietnia 2013 o 22:14
        
        Popieram to co napisał Rupert. Posiadam pewną wiedzę informatyczną, ale ciągła praca i brak czasu na siedzenie i wczytywanie się we „wszystko” co jest w internecie sprawił, że nie znałem tej ciekawostki. Widać jak wiele osób miało czas obejrzeć ją wcześniej na byle demotywatorach czy innych śmietnikach informacji mało użytecznych. Oczywiście gdyby jeden z drugim wszechwiedzący nie skrytykowali autora tekstu to nie mogliby pewnie zasnąć… Nasuwa się proste pytanie… Po co ci wszechwiedzący czytali ten artykuł skoro „już o tym wiedzieli…”? Czyżby za dużo czasu do zabicia?
      - Kitsune pisze:
        
        6 maja 2013 o 13:31
        
        fear – czy Ty naprawdę jesteś tak ograniczony? Co znaczy „po co czytali skoro wiedzieli”? A jak miałbym wiedzieć co zawiera tekst artykułu, zanim go przeczytam? Gratuluję inteligencji!
        Ja nie wchodzę na żadne głupie demoty, kwejki ani nic takiego, więc cóż, ale nie trafiłeś. Ja zwyczajnie używam mózgu, a powiem, że jakoś szczególnie bystry to nie jestem.
        
        „Wszechwiedzący”. Przyznaj po prostu, że to Ty jesteś małowiedzący, a nie inni wiedzą za dużo. Nie odwracaj kota ogonem. Może o tym, że kot jest zwierzęciem przeczytasz w internecie i to Cię zdziwi tak samo jak to tutaj, hm? Bo oczywiste fakty są oczywiste, nie każdy może je znać, ale większość użytkowników owszem. Ja jestem w owej większości. Przykro mi, że wiem od Ciebie więcej na tak banalny temat i to wywołuje u Ciebie dezaprobatę
  - Kitsune pisze:
    
    10 kwietnia 2013 o 01:23
    
    A może zamiast dziwić się, że ktoś taki „hejterski”, jak to ująłeś, komentarz napisze, wpierw pomyśl czy to co nie piszesz nie jest oczywistością.
    Ja nie należę do najbystrzejszych osób, a o tym, że recaptcha służy sprawdzaniu słów w książkach wiem od wielu lat, praktycznie odkąd stało się to standardem.
    Każdy ma prawo wyrazić swoje zdanie, Jędrzej też to zrobił i nie widzę w jego wypowiedzi nic co by zaliczało to do hate speechu, więc hejterstwem tego nie można nazwać. Powiedział niestety prawdę – jest to znane od bardzo dawna, no i chyba prawie każdy wie na czym to polega.
    
    Dzisiaj jak ktoś napisze negatywny komentarz, od razu nazywa się to hejtem. Śmieszne, szczególnie, że zazwyczaj zarzucająca osoba nie wie co to w ogóle znaczy.
    
    Pozdrawiam.
    
    Odpowiedz
Anonim pisze:

9 kwietnia 2013 o 19:06

A ja tam zawsze wpisuję poprawnie ten jeden wymagany wyraz poprawnie, a zamiast drugiego brzydki wyraz, po polsku lub po angielsku.

Odpowiedz
york pisze:

9 kwietnia 2013 o 19:46

No to ciekawostka. A tyle razy bezmyślnie wpisuję recaptcha i nie wiedziałem, że uczestniczę w szlachetnym projekcie

Odpowiedz
... ... ... pisze:

9 kwietnia 2013 o 20:46

Użytkownik nigdy nie wie które słowo jest zabezpieczeniem? Właśnie haczyk tkwi w tym że to można bardzo łatwiutko rozpoznać. Na podanym przykładzie słowo „Discover” jest zabezpieczeniem. Słowa zabezpieczające niemal zawsze są wyraźnie inaczej napisane aniżeli właściwe sprawdzane które mają charakterystyczny wygląd.

Odpowiedz
- guest pisze:
  
  10 kwietnia 2013 o 11:00
  
  a właśnie, że nie. Discover w tym wypadku służy do OCR a słowem zabezpieczającym przed botami jest ‚eanynot’
  
  Odpowiedz
  - Yanks pisze:
    
    11 kwietnia 2013 o 21:10
    
    hahaha, niezłe trolowanie
    
    „carry not”
    
    Odpowiedz
kaktus pisze:

9 kwietnia 2013 o 21:10

Znam ten system od dawna, ale nie sądziłem że jest aż tak wydajny.

Odpowiedz
pismak pisze:

9 kwietnia 2013 o 21:21

Fakt, trochę odgrzewane kotlety. Samo Google kręciło o tym filmik już w 2010. Generalnie polecam subskrybować kilka ważniejszych kanałów na sieci i o podobnych nowinkach będzie można dowiedzieć się w miarę „o czasie”.

Tak czy siak dzięki za wpis, bo warto popularyzować wiedzę.

Odpowiedz
Krr pisze:

10 kwietnia 2013 o 02:04

Bardzo ciekawy artykuł. Mimo, ze nie jestem „nowym użytkownikiem sieci” dowiedziałam się właśnie, że mimowolnie pomagam ulepszać świat. Podbudowuje

Odpowiedz
Admin pisze:

10 kwietnia 2013 o 09:06

Ja tylko nieco sprostuję – o captchy też wiedziałem od jakiegoś czasu. Natomiast stosunkowo niedawno dowiedziałem się o idei jaką jest reCAPTCHA (i jej działaniu). Myślę, że w podobnej sytuacji jest wielu internautów, dlatego pomyślałem że warto podzielić się wiedzą.

Jeśli tak jak Jędrzej ktoś znał to zastosowanie wcześniej – duży plus dla niego. Choć to ciekawe, że pomimo tej wiedzy link na wykopie i tak sprowokował do przeczytania i skomentowania wpisu :).

Odpowiedz
- Mateen pisze:
  
  20 lipca 2016 o 23:27
  
  Your article is a very well-done infmvoatire piece of writing. I am so impressed with this content that I had to make a comment which is not normal for me. Thank you for your dedication.
  
  Odpowiedz
- http://www./ pisze:
  
  21 lipca 2016 o 08:38
  
  Thank you so much. What a pleasant surprise to get such an immediate response this morning to brighten my day. A compliment from a fellow writer is encouraging. Your works are also an inspiration. I look forward to reading more.JHT
  
  Odpowiedz
co pisze:

12 kwietnia 2013 o 18:52

a gdzie te moge te ksziazki przeczytać za darmo skoro ich juz tyle przepisalem ?

Odpowiedz
Ngram Viewer – kolejny przykład wykorzystania OCR pisze:

5 czerwca 2013 o 14:11

[…] wpis o reCAPTCHY*, który ujawniał jak na co dzień skanujemy książki? Teraz czas na system, który pozwala […]

Odpowiedz
Neodrink pisze:

17 lipca 2013 o 15:40

[…] wykradanie oszczędności obywateli na całym świecie – Struktura akcjonariatu polskich banków – Jak digitalizujemy książki nawet o tym nie wiedząc? – XCOM: GDC 2013 Press Conference [EN] – Internet to bujda – pisał “Newsweek” w 1995 roku. I […]

Odpowiedz
Google Drive i darmowy OCR pisze:

18 lipca 2013 o 11:52

[…] okazji nie wiem czy wiecie, ale Google przejęło projekt reCAPTCHY. W związku z powyższym przepisując tekst kontrolny na rozmaitych forach i stronach internetowych […]

Odpowiedz
CAPTCHA kontra spam - czy OCR będzie kolejnym dynamitem? pisze:

29 października 2013 o 13:07

[…] mechanizmów służących do obrony przed spamem jest CAPTCHA oraz jej pochodne tj. reCAPTCHA. Pomysłowość osób rozsyłających spam sięga coraz dalej i nawet CAPTCHA niekiedy bywa […]

Odpowiedz
OCR wzbogacony o sieci neuronowe = nowa jakość? pisze:

12 sierpnia 2015 o 12:41

[…] i różnorodnym zastosowaniu – od firmowych dokumentów do książek digitalizowanych przez (nie)świadomych użytkowników reCAPTCHY. A co gdyby dodać do OCR także namiastkę inteligencji w postaci sieci […]

Odpowiedz

OCR w dokumentach

Jedyny, polski blog o Optycznym Rozpoznawaniu Znaków, oraz naprawa telefonów Warszawa która obsługuje cało Polskę

Jak digitalizujemy książki nawet o tym nie wiedząc?

26 comments

Odpowiedz na „Google Drive i darmowy OCR” Anuluj pisanie odpowiedzi

Najnowsze wpisy

Polecane

Kategorie

Najnowsze komentarze

Archiwa

Kalendarz

Meta

Luty 2017
P	W	Ś	C	P	S	N
« sie
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28