Tag Archive for czcionka

ZXX – sposób na przechytrzenie NSA

ZXX - manifesto

Wobec informacji ujawnionych przez Edwarda Snowdena o programie PRISM, nie jest niczym nowym, iż rozmaite organizacje rządowe zbierają o nas tyle informacji, ile tylko się da. Jednym to nie przeszkadza, drudzy natomiast biją na alarm, iż ograniczane są podstawowe prawa i przywileje obywateli. Nikt natomiast nie lubi być podglądany, szczególnie w Internecie.

Agencją, która w największym stopniu śledzi życie obywateli w cyberprzestrzeni jest NSA – National Security Agency. Były agent NSA, Sang Mun, który przez dwa lata pracował w Korei  i miał okazję z pierwszej ręki dowiedzieć się jak wydobywa się cenne dane, postanowił się temu procederowi sprzeciwić. Opracował specjalny rodzaj czcionek, nazwanych ZXX (od trzyliterowego kodu wykorzystywanego w Bibliotece Kongresu, którym oznaczane są książki o statusie: „brak treści językowej; nie dotyczy”), które są nie do rozpoznania, nawet przy zastosowaniu najbardziej zaawansowanych mechanizmów OCR.

ZXX - mix

Jak działa ZXX?

Spośród sześciu opracowanych czcionek ZXX, zeskanowane i rozpoznane mogą być tylko dwie. Pozostałe cztery: Camo, False, Noise i Xed uniemożliwiają programom Optical Character Recognition na odczytanie znaków z jakąkolwiek sensowną trafnością.

Czytaj dalej

5 największych przeszkód w OCR-owaniu

OCR dokumentów

Optical Character Recognition (OCR) to technologia bez wątpienia przydatna i pożyteczna. Nie jest jednak pozbawiona wad. O niedoskonałościach w rozpoznawaniu znaków napomknąłem już wcześniej. Teraz chciałbym przedstawić inne problemy, które negatywnie wpływają na rozpoznawanie znaków.

OCR świetnie sprawdza się w firmach – tam zazwyczaj skanowane wydruki są dobrej jakości i większość programów bez problemu rozpoznaje między 95 a 99% znaków. Dużo gorzej jest np. w przypadku bibliotek. Tam, niektóre ze zbiorów (często już wiekowych) nie stwarzają już tak dobrych warunków do digitalizacji tekstu. Książki bywają zniszczone, pisane archaicznym językiem i niespotykaną obecnie czcionką. To oczywiście dość ekstremalne przypadki, ale dobrze obrazują przeszkody jakie napotyka oprogramowanie.

Problemy w pełnotekstowym skanowaniu OCR

Przyjrzyjmy się co bywa największym problemem w pełnotekstowym skanowaniu.

Czytaj dalej

Yet Another Social Plugin powered by TutsKid.com.