Tag Archive for PDF

Google Drive i darmowy OCR

GoogleDrive oferuje OCR

Interesuje Cię OCR, ale nie będziesz skanować tak dużo, aby opłacalne było kupno specjalistycznego oprogramowania? „Wujek Google” ma dla Ciebie rozwiązanie. Oferuje Optyczne Rozpoznawanie Znaków przy okazji korzystania z Google Drive. Skanować można także używając aplikacji mobilnej na Androida. Brzmi nieźle? Zobaczmy jak to wygląda w praktyce.

Cały proces jest bardzo prosty. Umieszczając plik PDF lub zdjęcie (JPG, GIF, PNG) na Dysku Google możemy skorzystać z funkcji OCR. Wówczas zostanie on zeskanowany i przekonwertowany do formy tekstowej. Przy tym wszystko odbywa się w chmurze przy minimalnej ingerencji użytkownika końcowego. System obsługuje 34 języki, wśród których jest także polski, a z trudniejszych do odczytania także rosyjski, chiński (uproszczony) i kilka innych rodem z Azji.

Google Drive i OCR
Usługa ma jednak swoje limity. Pliki graficzne nie mogą przekraczać 2MB, a pliki PDF 10-u stron. Ponadto materiał poddawany skanowaniu powinien być dobrej jakości, szczególnie jeśli chodzi o rozdzielczość, jakość obrazu czy orientację. Do zadań firmowych to zdecydowanie za mało, jednakże dla zastosowań domowych powinno wystarczyć.

Czytaj dalej

Jak działa OCR?

OCR - rozpoznawanie struktury rastrowej

Proces konwersji pliku graficznego do edytowalnego dokumentu podzielony jest na kilka etapów, za które odpowiadają różne zestawy algorytmów.

Pierwszym krokiem jest załadowanie obrazu dokumentu w postaci bitmapy. Następnie zeskanowany tekst jest analizowany na kilka różnych sposobów.

Na początku program OCR dokonuje analizy layoutu i dzieli stronę na poszczególne elementy. Dzięki temu możliwa jest identyfikacja miejsc, w których znajduje się tekst. Ten z kolei dzielony jest na coraz mniejsze elementy: akapity, wersy, słowa i znaki. Na tym etapie dokument zapamiętywany jest jako zbiór pojedynczych znaków.

OCR - rozpoznawanie struktury rastrowej

Następnie znaki te rozpoznawane są przy użyciu poszczególnych algorytmów. Rodzaj i sposób ich wykorzystania zależy od producentów oprogramowania. Nie istnieje jedna, uniwersalna metoda, jednak można wyszczególnić kilka najbardziej popularnych technik:

Czytaj dalej

Yet Another Social Plugin powered by TutsKid.com.