<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>OCR w dokumentach &#187; archiwum</title>
	<atom:link href="/tag/archiwum/feed/" rel="self" type="application/rss+xml" />
	<link>http://ocrwdokumentach.pl</link>
	<description>Jedyny, polski blog o Optycznym Rozpoznawaniu Znaków</description>
	<lastBuildDate>Wed, 12 Aug 2015 10:43:17 +0000</lastBuildDate>
	<language>pl-PL</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	
	<item>
		<title>Jak digitalizujemy książki nawet o tym nie wiedząc?</title>
		<link>http://ocrwdokumentach.pl/jak-digitalizujemy-ksiazki-o-tym-nie-wiedzac/</link>
		<comments>http://ocrwdokumentach.pl/jak-digitalizujemy-ksiazki-o-tym-nie-wiedzac/#comments</comments>
		<pubDate>Fri, 11 Jan 2013 10:46:15 +0000</pubDate>
		<dc:creator><![CDATA[Michał Rykiert]]></dc:creator>
				<category><![CDATA[Jak działa OCR?]]></category>
		<category><![CDATA[Zastosowanie OCR]]></category>
		<category><![CDATA[archiwum]]></category>
		<category><![CDATA[CAPTCHA]]></category>
		<category><![CDATA[digitalizacja]]></category>
		<category><![CDATA[dokumenty]]></category>
		<category><![CDATA[internet]]></category>
		<category><![CDATA[książki]]></category>
		<category><![CDATA[Luis von Ahn]]></category>
		<category><![CDATA[Optical Character Recognition]]></category>
		<category><![CDATA[Pittsburgh]]></category>
		<category><![CDATA[reCAPTCHA]]></category>
		<category><![CDATA[skanowanie]]></category>
		<category><![CDATA[zabezpieczenie]]></category>

		<guid isPermaLink="false">http://ocrwdokumentach.pl/?p=109</guid>
		<description><![CDATA[<p>Jednym z najciekawszych i najbardziej pomysłowych rozwiązań na jakie się ostatnio natknąłem jest reCAPTCHA. Dzięki niej, miliony ludzi na świecie staje się swego rodzaju manualnym OCR-em, nawet o tym nie</p>
<p>Post <a rel="nofollow" href="/jak-digitalizujemy-ksiazki-o-tym-nie-wiedzac/">Jak digitalizujemy książki nawet o tym nie wiedząc?</a> pojawił się poraz pierwszy w <a rel="nofollow" href="/">OCR w dokumentach</a>.</p>
]]></description>
				<content:encoded><![CDATA[<p>Jednym z najciekawszych i najbardziej pomysłowych rozwiązań na jakie się ostatnio natknąłem jest<strong> reCAPTCHA</strong>. Dzięki niej, miliony ludzi na świecie staje się swego rodzaju manualnym OCR-em, nawet o tym nie wiedząc. Jak to możliwe?</p>
<p>Rejestrując się na stronie lub na forum, zazwyczaj na koniec tego procesu witryna zmusza Cię do udowodnienia, że nie jesteś botem do rozpowszechniania <strong>spamu</strong>. Co robisz? W 90% przypadków przepisujesz kod/wyraz z wyświetlonego obrazka obrazka. Tak działa m.in. reCAPTCHA.</p>
<p>Jak to się ma do <a title="System OCR" href="http://www.webcon.pl/ocr-i-rejestracja-dokumentow-sharepoint">OCR-a</a>? Nawet najlepsze systemy nie są w stanie rozpoznać 100% skanowanych wyrazów. Obecnie skuteczność tego typu programów kształtuje się na poziomie 90-98%, w zależności od wykorzystywanych algorytmów i jakości skanowanego tekstu. To oznacza, że przy tekście zawierającym 20 000 słów, wciąż od 400 do 2000 pozostaje do rozpoznania przez człowieka.</p>
<p><a href="/wp-content/uploads/2013/01/reCAPTCHA2.png"><img class="alignnone  wp-image-113" title="Błędne rozpoznanie systemu OCR" src="/wp-content/uploads/2013/01/reCAPTCHA2.png" alt="Błędne rozpoznanie systemu OCR" width="489" height="97" /></a></p>
<p><span id="more-109"></span></p>
<p>Tymczasem na <strong>Uniwersytecie Carnegie-Mellona w Pittsburghu</strong>, zastanawiano się jak szybko i małym nakładem sił można digitalizować książki i stare egzemplarze gazet. Tak powstał projekt reCAPTCHA. Mechanizm jest w gruncie rzeczy bardzo prosty. Użytkownik, by zakończyć np. rejestrację, musi przepisać dwa słowa podane przez program. W przypadku rozwiązania naukowców z Pittsburga, jedno z nich jest słowem kontrolnym (znanym przez system), natomiast drugie, to słowo nieprawidłowo rozpoznane przez moduł OCR.</p>
<p><a href="/wp-content/uploads/2013/01/reCAPTCHA.png"><img class="size-full wp-image-114 aligncenter" title="reCAPTCHA w praktyce" src="/wp-content/uploads/2013/01/reCAPTCHA.png" alt="reCAPTCHA w praktyce" width="341" height="185" /></a></p>
<p><strong>Kolejność wyrazów jest losowa</strong>, natomiast ich jakość zbliżona, dlatego internauta nigdy nie wie, które z nich stanowi zabezpieczenie. Jeśli dane słowo, przez różnych użytkowników, zostanie trzykrotnie jednakowo zweryfikowane, wówczas system przesyła je do źródła jako rozpoznane. W przypadku kiedy trzej pierwsi użytkownicy nie podali jednakowo brzmiących odpowiedzi, wówczas wyraz prezentowany jest większej ilości osób, a decyzja o jego ostatecznym brzmieniu podejmowana jest na podstawie najczęściej pojawiających się odpowiedzi. Skuteczność tej metody wynosi<strong> ponad 99,5%</strong>, co przy ilości rozpoznawanych słów jest wynikiem imponującym.</p>
<p>ReCAPTCHA funkcjonuje od 2009 roku i w pierwszych 12 miesiącach od wprowadzenia udało się zdigitalizować aż <strong>17 tysięcy książek</strong>. Szacuje się, że aż <strong>200 milionów kodów</strong> zabezpieczających CAPTCHA rozwiązywanych jest codziennie przez internautów na całym świecie. Proces ten zajmuje około 10 sekund, co daje sumarycznie niebagatelną ilość zrealizowanych <strong>150 tysięcy roboczogodzin</strong>, każdego dnia.</p>
<p>Geniusz reCAPTCHY leży w kilku czynnikach. Przede wszystkim jest to rozwiązanie podwójnie pożyteczne. Z jednej strony webmasterzy zabezpieczają swoje strony i fora internetowe przed spamem. Z drugiej, rozpoznawane są słowa, z którymi nie radzi sobie OCR. Natomiast najlepszy w tym wszystkim jest fakt, że odbywa się w to sposób niemalże <strong>niezauważalny i nie wymagający wysiłku</strong> dla pojedynczego użytkownika. A do tego wszystkiego, reCAPTCHE można zaimplementować bardzo łatwo i zupełnie <strong>za darmo</strong>. Czego chcieć więcej?</p>
<p>Nie wiem jak Wy, ale według mnie twórcy (<strong>Luis von Ahn</strong>, Ben Maurer, Colin McMillen, David Abraham i Manuel Blum) powinni na stałe wpisać się w kanon osób, które pożytecznie przyczyniły się dla społeczeństwa światowego. ReCAPTCHA codziennie pozwala na utrwalenie kilkudziesięciu książek, które w przeciwnym przypadku już nigdy mogłyby nie być dostępne dla szerszej publiki.</p>
<p>Post <a rel="nofollow" href="/jak-digitalizujemy-ksiazki-o-tym-nie-wiedzac/">Jak digitalizujemy książki nawet o tym nie wiedząc?</a> pojawił się poraz pierwszy w <a rel="nofollow" href="/">OCR w dokumentach</a>.</p>
]]></content:encoded>
			<wfw:commentRss>http://ocrwdokumentach.pl/jak-digitalizujemy-ksiazki-o-tym-nie-wiedzac/feed/</wfw:commentRss>
		<slash:comments>26</slash:comments>
		</item>
	</channel>
</rss>
