Ngram Viewer – kolejny przykład wykorzystania OCR

Google Labs

Pamiętacie wpis o reCAPTCHY*, który ujawniał jak na co dzień skanujemy książki? Teraz czas na system, który pozwala wykorzystać zeskanowane materiały. Ngram Viewer, bo o nim mowa, stworzony został przez Google Labs i zawiera bazę ponad 5 milionów książek (zawierający 500 miliardów słów!) z lat 1800-2008, które poddano OCR-owaniu w firmie Larry’ego Page’a.

Wszystkie mole książkowe, którym zaświeciły się w tym miejscu oczy, na myśl o dostępie do tych wszystkich zbiorów, muszę ostrzec: Ngram Viewer służy głównie do badań statystycznych i językoznawczych. Nie ma możliwości przeczytania danego dzieła od deski do deski, można co najwyżej podejrzeć pewne fragmenty. 

Jak to działa?

Ale po kolei. Narzędzie Google służy do wyszukiwania pożądanych fraz, w danym przedziale czasowym i języku zeskanowanych publikacji. Dane zwracane są w formie wykresu, który prezentuje poziom częstotliwości występowania danego słowa na przestrzeni czasu. Możliwe jest wyszukiwanie złożonych fraz (np. atak terrorystyczny) jak i zestawianie ich ze sobą (np. Bóg i nauka jak na obrazku poniżej). 

Ngram Viewer przykład wykorzystania

Ponadto możliwe jest podejrzenie 40 wybranych przez system publikacji, które przedstawiać będą znalezione słowa. Dlaczego tylko tyle? Ponieważ w przypadku większych ilości Ngram Viewer mógłby dostać czkawki.

„Wszystko fajnie, tylko po co”?

Do czego można wykorzystać narzędzie Google Labs? Początkowy zamysł był taki, aby narzędzie służyło głównie historykom i językoznawcom. Ngram Viewer okazuje się bardzo przydatny w badaniach lingwistycznych i w prosty sposób pozwala na wychwycenie jak zmieniała się popularność poszczególnych słów, a co za tym idzie, jak zmieniał się sam język na przestrzeni lat. Co jeszcze można wycisnąć z tego narzędzia?

W bardzo przejrzysty sposób można zaobserwować np. trendy w postępie technologicznym. Zestawienie fraz tj.: statek, kolej, samolot pokaże stopień i skalę przemian. Z drugiej strony można zestawiać także mężczyzn i kobiety, marketing i innowacje, otyłość i fast food itd. Warto samemu spróbować i zobaczyć co wyjdzie. Oczywiście wyniki należy traktować raczej orientacyjnie, a nie jako ścisły dowód naukowy. 

Ngram Viewer na pewno przyda się także literaturoznawcom, którzy będą mieli możliwość np. zestawienia konkretnych wyrazów opisujących emocje z daną epoką. Możliwości jest sporo.

A błędy?

Słowo "Congress" zapisane starą czcionką

O tym, że OCR nie jest wolny od błędów wie na pewno każdy czytelnik niniejszego bloga. Co prawda 99%, a nawet 99,5% to sporo, ale margines błędu zawsze jest. Nie inaczej jest i w tym przypadku. Polecam prześledzenie case study słowa fuck/suck z tego linka. W skrócie rzecz rozbija się o pisownie „suck” w starych pismach, którą OCR interpretuje jako „fuck”, dając tym samym fałszywe wyniki wykorzystania słowa np. w XIX wieku. Swoją drogą, to nieco ironiczna pomyłka, prawda?

Takich błędów jest pewnie więcej, dlatego zawsze należy podchodzić do wyników z rezerwą. 

Co dalej?

Póki co system od Google Labs nie zachwyca, wziąwszy pod uwagę np. możliwość przeglądania książek, dokładność czy interfejs graficzny. Z pewnością natomiast drzemie w programie ogromny potencjał i jestem pewien, że w przyszłości będzie miał do zaoferowania dużo więcej. Ponadto jest żywym dowodem na to, że OCR to bardzo pożyteczna technologia, która zwyczajnie służy ludziom i zachowaniu ich dziedzictwa kulturowego w postaci książek. 

Na marginesie: Ngram Viewer nie jest dostępny niestety dla polskich zbiorów. Oferuje za to języki tj.: angielski, francuski, rosyjski, niemiecki, włoski, hiszpański, hebrajski i kilka innych. Może kiedyś się doczekamy się także i naszego ojczystego.

* Wpis o reCAPTCHY stał się zdecydowanym hitem tego bloga. Dzięki poleceniom, linkom i portalowi wykop.pl zobaczyło go ponad 10 000 osób. Dzięki!

One comment

  1. Hans pisze:

    Napisałeś:
    Możliwe jest wyszukiwanie złożonych fraz (np. atak terrorystyczny) jak i zestawianie ich ze sobą (np. Bóg i nauka jak na obrazku poniżej).
    Ngram Viewer jest wrażliwy na wielkość liter, dlatego poprawnie (i to widać na diagramie) byłoby napisać, że chodzi o słowa bóg (z małej) i nauka (też z małej). Proszę sprawdzić jak bardzo odmienne wyniki daje porównanie słów God i science…

Odpowiedz na „HansAnuluj pisanie odpowiedzi

Twój adres e-mail nie zostanie opublikowany.

Yet Another Social Plugin powered by TutsKid.com.