Tag Archive for reCAPTCHA

CAPTCHA kontra spam – czy OCR będzie kolejnym dynamitem?

captcha codes

Spam jest prawie tak stary jak Internet. Oprócz wirusów, trojanów, malware’u itp. jest największą plagą cyberprzestrzeni. Któż z nas nie dostał e-maila z reklamą cudownych tabletek na powiększenie męskiego… hardware’u :)? Od dekady jednym z najskuteczniejszych mechanizmów zabezpieczenia stron internetowych i forów dyskusyjnych jest wykorzystywanie (re)CAPTCHY. Jednak i ten mur udaje się rozbić, m.in. dzięki mechanizmom OCR – Optycznego Rozpoznawania Znaków.

Obecnie oprócz reklamowania szemranych produktów i usług, spam na stronach internetowych służy również m.in. do: manipulowania wynikami ankiet, masowego linkowania, rozprowadzania złośliwego kodu czy naruszania integralności kodu stron. Szacuje się, że aż 90% wiadomości wysyłanych w Internecie to spam.

Od dekady jednym ze skuteczniejszych mechanizmów służących do obrony przed spamem jest CAPTCHA oraz jej pochodne tj. reCAPTCHA. Pomysłowość osób rozsyłających spam sięga coraz dalej i nawet CAPTCHA niekiedy bywa zawodna. Zobaczmy jakie są 3 najczęstsze sposoby jej łamania:

Czytaj dalej

Google Drive i darmowy OCR

GoogleDrive oferuje OCR

Interesuje Cię OCR, ale nie będziesz skanować tak dużo, aby opłacalne było kupno specjalistycznego oprogramowania? „Wujek Google” ma dla Ciebie rozwiązanie. Oferuje Optyczne Rozpoznawanie Znaków przy okazji korzystania z Google Drive. Skanować można także używając aplikacji mobilnej na Androida. Brzmi nieźle? Zobaczmy jak to wygląda w praktyce.

Cały proces jest bardzo prosty. Umieszczając plik PDF lub zdjęcie (JPG, GIF, PNG) na Dysku Google możemy skorzystać z funkcji OCR. Wówczas zostanie on zeskanowany i przekonwertowany do formy tekstowej. Przy tym wszystko odbywa się w chmurze przy minimalnej ingerencji użytkownika końcowego. System obsługuje 34 języki, wśród których jest także polski, a z trudniejszych do odczytania także rosyjski, chiński (uproszczony) i kilka innych rodem z Azji.

Google Drive i OCR
Usługa ma jednak swoje limity. Pliki graficzne nie mogą przekraczać 2MB, a pliki PDF 10-u stron. Ponadto materiał poddawany skanowaniu powinien być dobrej jakości, szczególnie jeśli chodzi o rozdzielczość, jakość obrazu czy orientację. Do zadań firmowych to zdecydowanie za mało, jednakże dla zastosowań domowych powinno wystarczyć.

Czytaj dalej

Jak digitalizujemy książki nawet o tym nie wiedząc?

Logo reCAPTCHA

Jednym z najciekawszych i najbardziej pomysłowych rozwiązań na jakie się ostatnio natknąłem jest reCAPTCHA. Dzięki niej, miliony ludzi na świecie staje się swego rodzaju manualnym OCR-em, nawet o tym nie wiedząc. Jak to możliwe?

Rejestrując się na stronie lub na forum, zazwyczaj na koniec tego procesu witryna zmusza Cię do udowodnienia, że nie jesteś botem do rozpowszechniania spamu. Co robisz? W 90% przypadków przepisujesz kod/wyraz z wyświetlonego obrazka obrazka. Tak działa m.in. reCAPTCHA.

Jak to się ma do OCR-a? Nawet najlepsze systemy nie są w stanie rozpoznać 100% skanowanych wyrazów. Obecnie skuteczność tego typu programów kształtuje się na poziomie 90-98%, w zależności od wykorzystywanych algorytmów i jakości skanowanego tekstu. To oznacza, że przy tekście zawierającym 20 000 słów, wciąż od 400 do 2000 pozostaje do rozpoznania przez człowieka.

Błędne rozpoznanie systemu OCR

Czytaj dalej

Yet Another Social Plugin powered by TutsKid.com.