Google Drive i darmowy OCR

Michał Rykiert — Thu, 18 Jul 2013 09:52:46 +0000

Interesuje Cię OCR, ale nie będziesz skanować tak dużo, aby opłacalne było kupno specjalistycznego oprogramowania? „Wujek Google” ma dla Ciebie rozwiązanie. Oferuje Optyczne Rozpoznawanie Znaków przy okazji korzystania z Google Drive. Skanować można także używając aplikacji mobilnej na Androida. Brzmi nieźle? Zobaczmy jak to wygląda w praktyce.

Cały proces jest bardzo prosty. Umieszczając plik PDF lub zdjęcie (JPG, GIF, PNG) na Dysku Google możemy skorzystać z funkcji OCR. Wówczas zostanie on zeskanowany i przekonwertowany do formy tekstowej. Przy tym wszystko odbywa się w chmurze przy minimalnej ingerencji użytkownika końcowego. System obsługuje 34 języki, wśród których jest także polski, a z trudniejszych do odczytania także rosyjski, chiński (uproszczony) i kilka innych rodem z Azji.

Usługa ma jednak swoje limity. Pliki graficzne nie mogą przekraczać 2MB, a pliki PDF 10-u stron. Ponadto materiał poddawany skanowaniu powinien być dobrej jakości, szczególnie jeśli chodzi o rozdzielczość, jakość obrazu czy orientację. Do zadań firmowych to zdecydowanie za mało, jednakże dla zastosowań domowych powinno wystarczyć.

Sporo możliwości daje natomiast aplikacja mobilna, która niedawno doczekała się aktualizacji. Mocno odświeżony został interfejs, a także dodano kilka nowych opcji. Z punktu widzenia tematyki, którą poruszam najbardziej interesująca jest możliwość skanowania z poziomu smartfona. Wystarczy, że zrobimy zdjęcie, np. dokumentowi czy ulotce, a tekst który się tam znajduje zostanie rozpoznany i przekonwertowany do pliku PDF. Szybko, łatwo i przyjemnie. Zastosowań może być sporo, a zważywszy że większość z nas smartfona ma przez większość czasu pod ręką, może się faktycznie przydać. Podejrzewam, że rozwiązanie to szczególnie może zainteresować studentów, którzy będą chcieli skanować notatki, skrypty itp.

Aplikacja dostępna jest w sklepie Google Play, za darmo, pod tym adresem: https://play.google.com/store/apps/details?id=com.google.android.apps.docs

Bez wątpienia Google oferuje użytkownikom swojego wirtualnego dysku sporo przydatnych opcji. Wśród niszczących się dokumentów papierowych, porysowanych płyt CD/DVD i uszkodzonych pendrive’ów, możliwość trzymania plików w chmurze bywa bardzo przydatna i w miarę bezpieczna. Oczywiście pod warunkiem że zabezpieczymy się dobrym, i tylko nam znanym, hasłem.

Przy okazji nie wiem czy wiecie, ale Google przejęło projekt reCAPTCHY. W związku z powyższym przepisując tekst kontrolny na rozmaitych forach i stronach internetowych możemy teoretycznie pomagać w skanowaniu… swoich własnych tekstów umieszczanych w Google Drive.

A tak na zakończenie (w ramach ciekawostki): zwolennicy teorii spiskowych twierdzą, iż drugim dnem dla którego funkcjonuje Google Drive, jest fakt pozyskiwania danych przez Google o swoich użytkownikach. Ciężko to ocenić, choć oczywiście jest to możliwe. Dlatego na wszelki wypadek kluczowe informacje przetrzymujmy mimo wszystko na tradycyjnych nośnikach.

Post Google Drive i darmowy OCR pojawił się poraz pierwszy w OCR w dokumentach.

Jak działa OCR?

Michał Rykiert — Thu, 29 Nov 2012 13:32:50 +0000

Proces konwersji pliku graficznego do edytowalnego dokumentu podzielony jest na kilka etapów, za które odpowiadają różne zestawy algorytmów.

Pierwszym krokiem jest załadowanie obrazu dokumentu w postaci bitmapy. Następnie zeskanowany tekst jest analizowany na kilka różnych sposobów.

Na początku program OCR dokonuje analizy layoutu i dzieli stronę na poszczególne elementy. Dzięki temu możliwa jest identyfikacja miejsc, w których znajduje się tekst. Ten z kolei dzielony jest na coraz mniejsze elementy: akapity, wersy, słowa i znaki. Na tym etapie dokument zapamiętywany jest jako zbiór pojedynczych znaków.

Następnie znaki te rozpoznawane są przy użyciu poszczególnych algorytmów. Rodzaj i sposób ich wykorzystania zależy od producentów oprogramowania. Nie istnieje jedna, uniwersalna metoda, jednak można wyszczególnić kilka najbardziej popularnych technik:

Podstawową jest rozpoznawanie wzorców. Wówczas program porównuje analizowany obraz z zaimplementowaną bazą danych, zawierającą setki różnych czcionek. Jeżeli dany znak pasuje do znaku z bazy danych, wówczas zostaje uznany za rozpoznany.
Inną metodą jest rozpoznawanie cech. W tym przypadku zadaniem programu jest rozpoznanie cech charakterystycznych dla danego znaku. Może się to odbywać na kilka różnych sposobów, m.in za pomocą klasyfikacji rastra (porównanie znaku z różnymi krojami czcionek), klasyfikacji struktury (znaki zostają rozłożone na krzywe i identyfikowane na podstawie ich położenia), czy klasyfikacji cech (wyszukiwanie charakterystycznych cech danych znaków).
Odrębną techniką, którą również się wykorzystuje, jest ICR (Intelligent Character Recognition). Algorytm ten używany jest głównie w przypadku tekstu pisanego ręcznie. Bazuje na architekturze sieci neuronowej i systemach uczenia się. W przypadku gdy system nie ma pewności czy dany znak został rozpoznany poprawnie, wówczas prosi użytkownika o wskazanie jego poprawnej formy. Wybór ten zostaje zapamiętany i wykorzystany w przyszłości w podobnej sytuacji. Dzięki temu rozwiązaniu, programy oparte o algorytm ICR nieustannie podnoszą swoją skuteczność w rozpoznawaniu pisma odręcznego.

Powyższe algorytmy to tylko część z tych, które wykorzystywane są w systemach OCR. Zazwyczaj programy posiadają ich co najmniej kilka, a rezultat końcowy zależy od porównania wyników analizy każdego z algorytmów.

Kolejnym krokiem jest złożenie tekstu z uprzednio rozpoznanych znaków. Program OCR wykorzystuje bazy słownikowe, za pomocą których na nowo konstruuje poszczególne wyrazy, zdania i akapity. Stosowana jest także korekta gramatyczna dla uzyskania poprawności poszczególnych zwrotów. Następnie cały tekst, tym razem już w formie elektronicznej, budowany jest z powrotem na podstawie wcześniej przeprowadzonej analizy layoutu.

W jednej z ostatnich faz całego procesu użyte zostają algorytmy mające na celu poprawę jakości danego tekstu. Ich zadaniem jest również usunięcie wszelkiego rodzaju szumów i wad, które mogłyby utrudnić odczytanie treści.

Etapem końcowym jest zapis pliku w jednym z pożądanych formatów, np. .pdf, .txt czy .doc. Najczęściej wykorzystywany format PDF posiada po zakończeniu OCR dwie warstwy: jedną z nich stanowi obraz (skan), drugą jest tekst, który możemy swobodnie zaznaczać i przeszukiwać.

Możliwości biznesowego wykorzystania OCR są szersze, jedną z nich jest automatyczna rejestracja wszelkiego rodzaju formularzy, na podstawie treści rozpoznanej w skanowanym dokumencie. Więcej o tym w następnym wpisie.

Post Jak działa OCR? pojawił się poraz pierwszy w OCR w dokumentach.

OCR w dokumentach » PDF

Google Drive i darmowy OCR

Jak działa OCR?