<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>OCR w dokumentach &#187; czcionka</title>
	<atom:link href="/tag/czcionka/feed/" rel="self" type="application/rss+xml" />
	<link>http://ocrwdokumentach.pl</link>
	<description>Jedyny, polski blog o Optycznym Rozpoznawaniu Znaków</description>
	<lastBuildDate>Wed, 12 Aug 2015 10:43:17 +0000</lastBuildDate>
	<language>pl-PL</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	
	<item>
		<title>ZXX – sposób na przechytrzenie NSA</title>
		<link>http://ocrwdokumentach.pl/zxx-sposob-na-przechytrzenie-nsa/</link>
		<comments>http://ocrwdokumentach.pl/zxx-sposob-na-przechytrzenie-nsa/#comments</comments>
		<pubDate>Tue, 03 Sep 2013 08:00:18 +0000</pubDate>
		<dc:creator><![CDATA[Michał Rykiert]]></dc:creator>
				<category><![CDATA[Ciekawostki]]></category>
		<category><![CDATA[Zastosowanie OCR]]></category>
		<category><![CDATA[algorytm]]></category>
		<category><![CDATA[czcionka]]></category>
		<category><![CDATA[Edward Snowden]]></category>
		<category><![CDATA[National Security Agency]]></category>
		<category><![CDATA[NSA]]></category>
		<category><![CDATA[Optical Character Recognition]]></category>
		<category><![CDATA[rozpoznawanie]]></category>
		<category><![CDATA[Sang Mun]]></category>
		<category><![CDATA[whistle blower]]></category>
		<category><![CDATA[znaki]]></category>
		<category><![CDATA[ZXX]]></category>

		<guid isPermaLink="false">http://ocrwdokumentach.pl/?p=312</guid>
		<description><![CDATA[<p>Wobec informacji ujawnionych przez Edwarda Snowdena o programie PRISM, nie jest niczym nowym, iż rozmaite organizacje rządowe zbierają o nas tyle informacji, ile tylko się da. Jednym to nie przeszkadza,</p>
<p>Post <a rel="nofollow" href="/zxx-sposob-na-przechytrzenie-nsa/">ZXX – sposób na przechytrzenie NSA</a> pojawił się poraz pierwszy w <a rel="nofollow" href="/">OCR w dokumentach</a>.</p>
]]></description>
				<content:encoded><![CDATA[<p>Wobec informacji ujawnionych przez <strong>Edwarda Snowdena</strong> o programie <strong>PRISM</strong>, nie jest niczym nowym, iż rozmaite organizacje rządowe zbierają o nas tyle informacji, ile tylko się da. Jednym to nie przeszkadza, drudzy natomiast biją na alarm, iż ograniczane są podstawowe prawa i przywileje obywateli. Nikt natomiast nie lubi być podglądany, szczególnie w Internecie.</p>
<p>Agencją, która w największym stopniu śledzi życie obywateli w cyberprzestrzeni jest <strong>NSA</strong> – National Security Agency. <strong>Były agent</strong> NSA, Sang Mun, który przez dwa lata pracował w Korei  i miał okazję z pierwszej ręki dowiedzieć się jak wydobywa się cenne dane, postanowił się temu procederowi sprzeciwić. Opracował specjalny rodzaj czcionek, nazwanych ZXX (od trzyliterowego kodu wykorzystywanego w Bibliotece Kongresu, którym oznaczane są książki o statusie: „brak treści językowej; nie dotyczy”), które są <strong>nie do rozpoznania</strong>, nawet przy zastosowaniu najbardziej zaawansowanych mechanizmów OCR.</p>
<p><a href="/wp-content/uploads/2013/08/zxx-gif.gif"><img class="aligncenter size-full wp-image-317" alt="ZXX - mix" src="/wp-content/uploads/2013/08/zxx-gif.gif" width="394" height="197" /></a></p>
<h2>Jak działa ZXX?</h2>
<p>Spośród sześciu opracowanych czcionek ZXX, zeskanowane i rozpoznane mogą być tylko dwie. Pozostałe cztery: Camo, False, Noise i Xed uniemożliwiają programom Optical Character Recognition na odczytanie znaków z jakąkolwiek sensowną trafnością.</p>
<p><span id="more-312"></span></p>
<p>Cały trik polega na tym, iż do poszczególnych liter dodane są określone efekty, które z jednej strony nie pozwalają maszynie na poprawne rozpoznanie, a z drugiej nie są na tyle uciążliwe by nie mogły być odczytane przez człowieka. I tak:</p>
<p><img class="alignleft" style="font-size: 11px; line-height: 16.5px; margin: 5px;" alt="ZXX - Camo" src="/wp-content/uploads/2013/08/zxx1.png" width="80" height="102" /><strong>Czcionka Camo</strong> została skonstruowana w taki sposób, by zakamuflować „szkielet” tradycyjnego znaku. Dodane zostały różne owalne i nieregularne kształty, przypominające maskowanie na żołnierskich mundurach.</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p><img class="alignleft" style="margin: 5px;" alt="ZXX - False" src="/wp-content/uploads/2013/08/zxx2.png" width="80" height="102" /></p>
<p><strong>Czcionka False</strong> opiera się na zgoła innym założeniu. W tym przypadku w duże litery (fałszywe) wpisane są mniejsze (prawdziwe), co powoduje, że OCR odczytuje mniejszy znak, jako szum. Proste, lecz skuteczne.</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p><img class="alignleft" style="margin: 5px;" alt="ZXX - Noise" src="/wp-content/uploads/2013/08/zxx3.png" width="80" height="102" /></p>
<p><strong>Czcionka Noise</strong> zawiera szumy w postaci kwadratów, które okalają dany znak. Każdy z nich został przetestowany pod kątem tego, jaką ilość szumów należy dodać, aby zmylić program skanujący. Okazało się, że litera „m”, jest najlepiej rozpoznawana i wymagała dodania największej ilości szumów.</p>
<p>&nbsp;</p>
<p><img class="alignleft" style="margin: 5px;" alt="ZXX - Xed" src="/wp-content/uploads/2013/08/zxx4.png" width="80" height="102" /></p>
<p><strong>Czionka Xed</strong> zawiera „iksy” w każdej literze i cyfrze, rozciągające się na całą powierzchnię znaku.  Dzięki temu OCR ma ogromne problemy z rozpoznaniem kształtu. Xed jest najskuteczniejszą z wszystkich czcionek, a w dodatku bardzo łatwą do odczytania przez ludzkie oko.</p>
<p>&nbsp;</p>
<p>Zmiksowanie wszystkich czterech powyższych typów zapewni natomiast najlepszy możliwy efekt, zmniejszając tym samym <a title="Skuteczny OCR w obiegu dokumentów" href="http://www.webcon.pl/ocr-i-rejestracja-dokumentow-sharepoint" target="_blank">skuteczność OCR</a>-a do wartości na granicy błędu statystycznego.</p>
<p>Więcej informacji w filmiku poniżej:<br />
<iframe src="http://player.vimeo.com/video/42675696" height="306" width="500" allowfullscreen="" frameborder="0"></iframe></p>
<h2>Zastosowanie czcionek ZXX</h2>
<p>Jak podaje autor, celem wykorzystania czcionek jest u<strong>możliwienie swobodnego przepływu informacji w sieci</strong>, z dala od oczu „Wielkiego Brata”. ZXX może omijać firewalle, a także służyć tzw. „whistle blowerom”, czyli ludziom tj. Edward Snowden, którzy ujawniają niemoralne i niezgodne z prawem praktyki organizacji rządowych i korporacji.</p>
<p>Jednakże, głównym celem stworzenia ZXX przez Sang Muna, jest <strong>zwiększenie świadomości społecznej</strong> i poważna debata dotycząca prywatności w sieci. To swego rodzaju manifest nawołujący do sprzeciwu wobec naruszenia podstawowych praw obywatelskich.</p>
<p>Na koniec należy zwrócić uwagę na jeszcze jeden fakt. Zastosowanie ZXX ma sens tylko w <strong>przypadku plików graficznych</strong> i ew. kopii papierowych. Z tego względu, że z punktu widzenia programistycznego zwykłe „a” to taki sam ciąg zer i jedynek jak „a” w ZXX czy każdej innej czcionce. Dlatego też w przypadku np. wpisu na blogu nie wymagany jest OCR by rozpoznać wszystkie znaki, gdyż zawierają one uniwersalne kodowanie. Ponadto nie ulega wątpliwości, iż kwestią czasu jest aż NSA przystosuje algorytmy swojego OCR do nowych, mylących czcionek. Dlatego póki co, mimo wszystko warto uważać na to co się w sieci umieszcza.</p>
<p>Post <a rel="nofollow" href="/zxx-sposob-na-przechytrzenie-nsa/">ZXX – sposób na przechytrzenie NSA</a> pojawił się poraz pierwszy w <a rel="nofollow" href="/">OCR w dokumentach</a>.</p>
]]></content:encoded>
			<wfw:commentRss>http://ocrwdokumentach.pl/zxx-sposob-na-przechytrzenie-nsa/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>5 największych przeszkód w OCR-owaniu</title>
		<link>http://ocrwdokumentach.pl/5-najwiekszych-przeszkod-w-ocr-owaniu/</link>
		<comments>http://ocrwdokumentach.pl/5-najwiekszych-przeszkod-w-ocr-owaniu/#comments</comments>
		<pubDate>Fri, 21 Jun 2013 09:45:12 +0000</pubDate>
		<dc:creator><![CDATA[Michał Rykiert]]></dc:creator>
				<category><![CDATA[Jak działa OCR?]]></category>
		<category><![CDATA[Zastosowanie OCR]]></category>
		<category><![CDATA[biblioteka]]></category>
		<category><![CDATA[czcionka]]></category>
		<category><![CDATA[druk]]></category>
		<category><![CDATA[firma]]></category>
		<category><![CDATA[Optical Character Recognition]]></category>
		<category><![CDATA[Optyczne Rozpoznawanie Znaków]]></category>
		<category><![CDATA[problemy]]></category>
		<category><![CDATA[przedsiębiorstwo]]></category>
		<category><![CDATA[przeszkody]]></category>
		<category><![CDATA[skan]]></category>
		<category><![CDATA[skanowanie]]></category>
		<category><![CDATA[tekst]]></category>

		<guid isPermaLink="false">http://ocrwdokumentach.pl/?p=266</guid>
		<description><![CDATA[<p>Optical Character Recognition (OCR) to technologia bez wątpienia przydatna i pożyteczna. Nie jest jednak pozbawiona wad. O niedoskonałościach w rozpoznawaniu znaków napomknąłem już wcześniej. Teraz chciałbym przedstawić inne problemy, które</p>
<p>Post <a rel="nofollow" href="/5-najwiekszych-przeszkod-w-ocr-owaniu/">5 największych przeszkód w OCR-owaniu</a> pojawił się poraz pierwszy w <a rel="nofollow" href="/">OCR w dokumentach</a>.</p>
]]></description>
				<content:encoded><![CDATA[<p>Optical Character Recognition (OCR) to technologia bez wątpienia przydatna i pożyteczna. Nie jest jednak pozbawiona wad. O <a title="Jak wybrać dobre oprogramowanie OCR" href="/ocr-jak-wybrac-dobry-software/" target="_blank">niedoskonałościach w rozpoznawaniu</a> znaków napomknąłem już wcześniej. Teraz chciałbym przedstawić inne problemy, które negatywnie wpływają na rozpoznawanie znaków.</p>
<p>OCR świetnie sprawdza się w firmach – tam zazwyczaj skanowane wydruki są dobrej jakości i większość programów bez problemu rozpoznaje między 95 a 99% znaków. Dużo gorzej jest np. w przypadku bibliotek. Tam, niektóre ze zbiorów (często już wiekowych) nie stwarzają już tak dobrych warunków do digitalizacji tekstu. Książki bywają zniszczone, pisane archaicznym językiem i niespotykaną obecnie czcionką. To oczywiście dość ekstremalne przypadki, ale dobrze obrazują przeszkody jakie napotyka oprogramowanie.</p>
<p style="text-align: center;"><a href="/wp-content/uploads/2013/06/OCR-logo.jpg"><img class="size-full wp-image-267 aligncenter" title="Problemy w pełnotekstowym skanowaniu OCR" alt="Problemy w pełnotekstowym skanowaniu OCR" src="/wp-content/uploads/2013/06/OCR-logo.jpg" width="271" height="226" /></a></p>
<p>Przyjrzyjmy się co bywa największym problemem w pełnotekstowym skanowaniu.</p>
<p><span id="more-266"></span></p>
<p>1. Jednym z najczęstszych problemów jest <strong>słaba jakość druku źródłowego</strong>. W przypadku gdy liczba (gęstość) pikseli jest zbyt mała, programy zwyczajnie się gubią, dając albo niepoprawne wyniki, albo w ogóle nie rozpoznając znaków i poszczególnych słów. Jest to najczęstszy i uniwersalny problem dotyczący skanowania.</p>
<p>2. <strong>Brak jednolitości tekstu</strong> to kolejny czynnik, który zaniża skuteczność rozpoznawania. Korzystanie z różnych czcionek i różnych wielkości ujemnie wpływa na możliwość poprawnego zeskanowania tekstu. W miarę możliwości należy tego unikać, aby otrzymać jak najlepszy efekt.</p>
<p>3. <strong>Wyblakłe kolory i zbyt mały kontrast</strong>. Optymalnie byłoby, gdyby skanowany tekst miał czcionkę o głębokiej czerni. Niestety rzeczywistość jest mniej różowa i często okazuje się, że barwa poszczególnych liter nie jest wystarczająco wyrazista. Warto także zwrócić uwagę na fakt, iż użycie innych kolorów niż czarny,co również może być przeszkodą dla OCR-a.</p>
<p>4. <strong>Tekst</strong> nie powinien być także <strong>zbyt gęsty</strong>. Zbyt duże nagromadzenie tekstu na stronie (liter, paragrafów) może poskutkować niższą skutecznością.</p>
<p>5. <strong>Rozmiar czcionki</strong> również ma znaczenie. Minimalny próg, w zależności od rodzaju stosowanych algorytmów przez OCR, powinien wynosić między 6 a 8.</p>
<p>Co by nie mówić, technologia idzie do przodu. Programy do rozpoznawania znaków są coraz lepsze, tak jak i materiały skanowane na co dzień (choćby faktury czy umowy). Jestem ciekaw kiedy doczekamy</p>
<p>Na koniec ciekawostka. Znaczenie ma także rodzaj skanowanego papieru (materiału). Ze względu na nietypowy, jak na dzisiejsze czasy, skład papieru, skanowaniu nie poddaje się większości tekstów wydanych przed 1850 rokiem. Aby to zrobić konieczne są dodatkowe analizy oraz ustawienie niestandardowych parametrów dla OCR-a, dostosowanych do skanowanego materiału.</p>
<p>Post <a rel="nofollow" href="/5-najwiekszych-przeszkod-w-ocr-owaniu/">5 największych przeszkód w OCR-owaniu</a> pojawił się poraz pierwszy w <a rel="nofollow" href="/">OCR w dokumentach</a>.</p>
]]></content:encoded>
			<wfw:commentRss>http://ocrwdokumentach.pl/5-najwiekszych-przeszkod-w-ocr-owaniu/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
