Tag Archive for skanowanie

Dokumenty papierowe a bezpieczeństwo danych

Bezpieczeństwo dokumentów

Znacie Kevina Mitnicka? To najsłynniejszy hacker na świecie, o którym Hollywood nakręcił film (Takedown, 2000). Zapewne słysząc słowo „hacker”, większość osób ma w wyobraźni obraz typowego „kujona” we flanelowej koszulki, który od komputera odchodzi tylko po to, aby zaspokoić swoje podstawowe potrzeby życiowe. Dużo mniej osób jednak wie, że Mitnick swój sukces zawdzięcza nie tylko znajomościom systemów komputerowych, ale także socjotechnice i tzw. dumpster divingowi (brzmi mądrze, lecz chodzi o pospolite grzebanie w śmieciach, w tym przypadku w poszukiwaniu przydatnych danych). Wszak najsłabszym ogniwem każdego systemu jest zawsze człowiek.

Mitnick, w książce „Sztuka Podstępu” udowadniał jak wiele ważnych informacji można znaleźć w pojemniku na odpady umieszczonym obok siedziby firmy. Dane pracowników, numery kont bankowych, korespondencję i wiele innych. Posiadając taką wiedzę, manipulowanie pracownikami okazywało się czynnością dziecinnie prostą.

Elektroniczne dokumenty vs papierowe dokumenty

Jednakże wciąż w bardzo wielu organizacjach, kiedy przywołany zostaje temat zastąpienia papierowych dokumentów elektronicznymi, pracownicy obawiają się o bezpieczeństwo. Brak wiedzy, ignorancja czy zbytnie przyzwyczajenie do papieru? Przyjrzyjmy się jakie największe zagrożenia niesie ze sobą wykorzystywanie papierowych dokumentów.

Czytaj dalej

Google Drive i darmowy OCR

GoogleDrive oferuje OCR

Interesuje Cię OCR, ale nie będziesz skanować tak dużo, aby opłacalne było kupno specjalistycznego oprogramowania? „Wujek Google” ma dla Ciebie rozwiązanie. Oferuje Optyczne Rozpoznawanie Znaków przy okazji korzystania z Google Drive. Skanować można także używając aplikacji mobilnej na Androida. Brzmi nieźle? Zobaczmy jak to wygląda w praktyce.

Cały proces jest bardzo prosty. Umieszczając plik PDF lub zdjęcie (JPG, GIF, PNG) na Dysku Google możemy skorzystać z funkcji OCR. Wówczas zostanie on zeskanowany i przekonwertowany do formy tekstowej. Przy tym wszystko odbywa się w chmurze przy minimalnej ingerencji użytkownika końcowego. System obsługuje 34 języki, wśród których jest także polski, a z trudniejszych do odczytania także rosyjski, chiński (uproszczony) i kilka innych rodem z Azji.

Google Drive i OCR
Usługa ma jednak swoje limity. Pliki graficzne nie mogą przekraczać 2MB, a pliki PDF 10-u stron. Ponadto materiał poddawany skanowaniu powinien być dobrej jakości, szczególnie jeśli chodzi o rozdzielczość, jakość obrazu czy orientację. Do zadań firmowych to zdecydowanie za mało, jednakże dla zastosowań domowych powinno wystarczyć.

Czytaj dalej

5 największych przeszkód w OCR-owaniu

OCR dokumentów

Optical Character Recognition (OCR) to technologia bez wątpienia przydatna i pożyteczna. Nie jest jednak pozbawiona wad. O niedoskonałościach w rozpoznawaniu znaków napomknąłem już wcześniej. Teraz chciałbym przedstawić inne problemy, które negatywnie wpływają na rozpoznawanie znaków.

OCR świetnie sprawdza się w firmach – tam zazwyczaj skanowane wydruki są dobrej jakości i większość programów bez problemu rozpoznaje między 95 a 99% znaków. Dużo gorzej jest np. w przypadku bibliotek. Tam, niektóre ze zbiorów (często już wiekowych) nie stwarzają już tak dobrych warunków do digitalizacji tekstu. Książki bywają zniszczone, pisane archaicznym językiem i niespotykaną obecnie czcionką. To oczywiście dość ekstremalne przypadki, ale dobrze obrazują przeszkody jakie napotyka oprogramowanie.

Problemy w pełnotekstowym skanowaniu OCR

Przyjrzyjmy się co bywa największym problemem w pełnotekstowym skanowaniu.

Czytaj dalej

Ngram Viewer – kolejny przykład wykorzystania OCR

Google Labs

Pamiętacie wpis o reCAPTCHY*, który ujawniał jak na co dzień skanujemy książki? Teraz czas na system, który pozwala wykorzystać zeskanowane materiały. Ngram Viewer, bo o nim mowa, stworzony został przez Google Labs i zawiera bazę ponad 5 milionów książek (zawierający 500 miliardów słów!) z lat 1800-2008, które poddano OCR-owaniu w firmie Larry’ego Page’a.

Wszystkie mole książkowe, którym zaświeciły się w tym miejscu oczy, na myśl o dostępie do tych wszystkich zbiorów, muszę ostrzec: Ngram Viewer służy głównie do badań statystycznych i językoznawczych. Nie ma możliwości przeczytania danego dzieła od deski do deski, można co najwyżej podejrzeć pewne fragmenty. 

Jak to działa?

Ale po kolei. Narzędzie Google służy do wyszukiwania pożądanych fraz, w danym przedziale czasowym i języku zeskanowanych publikacji. Dane zwracane są w formie wykresu, który prezentuje poziom częstotliwości występowania danego słowa na przestrzeni czasu. Możliwe jest wyszukiwanie złożonych fraz (np. atak terrorystyczny) jak i zestawianie ich ze sobą (np. Bóg i nauka jak na obrazku poniżej). 

Czytaj dalej

Jak digitalizujemy książki nawet o tym nie wiedząc?

Logo reCAPTCHA

Jednym z najciekawszych i najbardziej pomysłowych rozwiązań na jakie się ostatnio natknąłem jest reCAPTCHA. Dzięki niej, miliony ludzi na świecie staje się swego rodzaju manualnym OCR-em, nawet o tym nie wiedząc. Jak to możliwe?

Rejestrując się na stronie lub na forum, zazwyczaj na koniec tego procesu witryna zmusza Cię do udowodnienia, że nie jesteś botem do rozpowszechniania spamu. Co robisz? W 90% przypadków przepisujesz kod/wyraz z wyświetlonego obrazka obrazka. Tak działa m.in. reCAPTCHA.

Jak to się ma do OCR-a? Nawet najlepsze systemy nie są w stanie rozpoznać 100% skanowanych wyrazów. Obecnie skuteczność tego typu programów kształtuje się na poziomie 90-98%, w zależności od wykorzystywanych algorytmów i jakości skanowanego tekstu. To oznacza, że przy tekście zawierającym 20 000 słów, wciąż od 400 do 2000 pozostaje do rozpoznania przez człowieka.

Błędne rozpoznanie systemu OCR

Czytaj dalej

Czym jest OCR – optyczne rozpoznawanie znaków?

OCR skaner

OCR (z ang. Optical Character Recognition) – Optyczne Rozpoznawanie Znaków.

Oprogramowanie służące do analizy tekstu pisanego, drukowanego bądź odręcznego, a następnie jego konwersji do postaci elektronicznej (w formie plików .txt, .doc lub .pdf), umożliwiającej dalszą edycję. Technologia ta znajduje szerokie zastosowanie m.in. w przedsiębiorstwach (rejestrowanie dokumentów i wniosków) i bibliotekach (archiwizacja zbiorów).

Prosty schemat działania systemu OCR:

Optical Character Recognition2

 

 

 

 

Najpierw dokument skanowany jest za pomocą skanera. Następnie przetwarzany przez komputer z odpowiednim oprogramowaniem. W efekcie końcowym wyświetlany jest edytowalny tekst. Metoda rozpoznawania różna jest w zależności od wykorzystanych algorytmów. Obecnie najlepsze programy OCR zapewniają skuteczność na poziomie 99%-99,5%, co oznacza że wciąż zachodzi konieczność manualnej weryfikacji rozpoznania niektórych słów.

Czytaj dalej

Witaj na blogu o OCR!

OCR blog

Technologie informatyczne są nieodłącznym elementem naszego życia. Jeszcze w 1946 roku uważano komputer ENIAC (Electronic Numerical Integrator And Computer) za szczyt rozwoju myśli technicznej. Wówczas ten amerykański wynalazek zajmował powierzchnię zbliżoną do rozmiarów boiska do piłki nożnej, a cała aparatura ważyła ok. 27 ton. Jego moc obliczeniowa była wiele razy niższa, od tej którą obecnie posiadają najprostsze kalkulatory.

Komputer ENIAC, 1946 rok:

ENIAC

Tymczasem to, co w połowie XX wieku pozostawało co najwyżej w sferze marzeń, dziś jest rzeczywistością. Bankowość internetowa, e-maile czy portale społecznościowe, to tylko kilka przykładów rozwiązań, z których większość z nas korzysta na co dzień. Celem niniejszego bloga jest przybliżenie czytelnikowi technologii, która choć nie uzyskała powszechnego rozgłosu, z roku na rok udowadnia, że jej wykorzystanie może znacząco przyczynić się do ułatwienia codziennych zadań, szczególnie w sferze pracy. Mowa tu o systemie Optical Character Recognition (OCR), zamieniającym w ciągu kilku sekund tekst na papierze, w tekst elektroniczny.

 

Dalej

Yet Another Social Plugin powered by TutsKid.com.