
Proces konwersji pliku graficznego do edytowalnego dokumentu podzielony jest na kilka etapów, za które odpowiadają różne zestawy algorytmów.
Pierwszym krokiem jest załadowanie obrazu dokumentu w postaci bitmapy. Następnie zeskanowany tekst jest analizowany na kilka różnych sposobów.
Na początku program OCR dokonuje analizy layoutu i dzieli stronę na poszczególne elementy. Dzięki temu możliwa jest identyfikacja miejsc, w których znajduje się tekst. Ten z kolei dzielony jest na coraz mniejsze elementy: akapity, wersy, słowa i znaki. Na tym etapie dokument zapamiętywany jest jako zbiór pojedynczych znaków.
Następnie znaki te rozpoznawane są przy użyciu poszczególnych algorytmów. Rodzaj i sposób ich wykorzystania zależy od producentów oprogramowania. Nie istnieje jedna, uniwersalna metoda, jednak można wyszczególnić kilka najbardziej popularnych technik: