Scan to OCR

Comment une machine peut-elle reconnaître du texte ?

Trouver le pourcentage de pixels noir pour détecter les blocs de texte ? Traiter chaque bloc séparément pour trouver quel alphabet il faut essayer de détecter dans quel bloc ?

Comment une machine peut-elle "lire" une page ?

Si elle reconnaît les caractères, elle ne reconnaît pas les mots. Elle lirait donc les caractères un par un dans un bloc donné, puis passerait au suivant sans interruption.Il y aurait une sorte de condensation de tous les caractères dans une sorte de ligne infinie sans pause. Puisque la machine ne comprendrait pas le sens des lettres, (elle les connaît sous forme d'Unicode), elle pourrait aussi lire chaque "code" unicode de chaque caractère à la suite. Graphiquement cela pourrait se traduire par une grille de caractères dans une fonte monospace, chacun étant dans un carré.