Scan to OCR : Différence entre versions
(→Chaine de numérisation de caractères) |
|||
(22 révisions intermédiaires par 3 utilisateurs non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
− | + | == De la numérisation d'un document à la reconnaissance de caractères (OCR). == | |
+ | "La numérisation des textes est un système de correspondances entre les caractères alphabétiques et des valeurs numériques que l’ordinateur peut manipuler. Tout texte peut ainsi être représenté par une suite de caractères codés sur lesquels il devient possible d’effectuer des opérations de comparaison ou de comptage. Cette première étape est le point de départ des premiers travaux de lexicométrie et a permis la constitution des premières bases de données textuelles. | ||
+ | Ensuite, il y a moyen d'opérer une recherche de chaîne de caractères dans le texte, d'activer des liens hypertextuels, d'annoter, de sonoriser des documents..." Jean Clément | ||
+ | <br> | ||
+ | La numérisation conditionne qu'une machine puisse décoder les valeurs numériques de la numérisation et puisse les afficher sur un support de lecture, ici l'écran. (mais peut aussi être un affichage sur du papier électronique ou la communication directe avec une imprimante) | ||
+ | |||
+ | [[Fichier:Numérisation.jpg|vignette|centré]] | ||
− | + | '''Exercice 1'''<br> | |
− | |||
− | |||
− | |||
− | + | Se mettre à la place d'une machine de lecture capable de numériser et déchiffrer un document. | |
# 1. choisir un extrait de livre (deux pages minimum) | # 1. choisir un extrait de livre (deux pages minimum) | ||
# 2. Décrire la page comme une image | # 2. Décrire la page comme une image | ||
− | # 3. Décrire/lire/reconnaître les caractères | + | # 3. Décrire/lire/reconnaître les caractères selon une méthode sytématique. (protocole) |
− | # 4. | + | # 4. Baliser le texte : donner un description sémiotique à l'intérieur d'un texte qui a perdu toute son "imagerie". (Hierarchisation des informations + aspects formels) |
− | + | ||
+ | ===Fonctionnement d'un scanner=== | ||
+ | Un scanner analyse le document en mesurant sa réflectance élément de surface par élément de surface. Les éléments reçoivent, simultanément ou séquenciellement, un rayon lumineux ; un ou plusieurs capteurs transforment la lumière réfléchie en un signal électrique qui est numérisé, constituant ainsi une image matricielle transférée à l'ordinateur, pour y être ensuite sauvegardé, traité ou analysé. (wikipedia) | ||
+ | Un capteur photosensible détecte la reflection de la lumière (signal analogique) qui est ensuite transformé en signal numérique.<br> | ||
− | + | [[Fichier:Scanner a plat fonctionnement.png|schéma d'un scanner à plat]] | |
− | -> | + | |
− | - | + | === Optical Character Recognition (OCR)=== |
+ | * ''1. Les premier systèmes de reconnaissance de caractères'' | ||
+ | "Les systèmes de reconnaissance optiques des caractères analysent des objets imprimés en considérant leurs caractères comme des images, reconnues une à une en fonction de leur singularité graphique [...] Au départ,les polices étaient conçues en fonction des capacités techniques de la machine, chaque glyphe occupant des zones spécifiques d'une grille sous-jacente. Cela permettait d'attribuer sans ambiguïté une identité unique aux lettres." (Johanna Druker)<br> | ||
+ | |||
+ | Une première technologie consistait en la reconnaissance des caractères à l'encre magnétique : le MICR. Les caractères MICR sont imprimés sur les documents dans une police MICR. L'encre utilisée dans l'impression est une encre ou un toner magnétisable (communément appelé encre magnétique), contenant généralement de l'oxyde de fer. Le document est encodé par un lecteur MICR. L'encre est d'abord magnétisée. Ensuite, les caractères sont passés sur une tête de lecture MICR, un périphérique similaire à la tête de lecture d’un magnétophone. Lorsque chaque caractère passe au-dessus de la tête, il génère un signal unique, facilement identifiable par le système. (wikipedia) | ||
+ | <gallery> | ||
+ | Ocra-grille.jpg|Specimen du caractère E-13B spécialement conçu pour de l'encre magnétique (MICR) développé par les banques dans les années 1950 (source: https://patents.google.com/patent/EP0651345A2/en) | ||
+ | Ocra.jpg|Specimen du caractère OCR A, caractère normalisé destiné à la reconnaissance optique (1968) (source: https://patents.google.com/patent/EP0651345A2/en) | ||
+ | </gallery> | ||
+ | |||
+ | * ''2. Système de fragmentation des glyphes en zones rectangulaires'' | ||
+ | * ''3. "Natural laguage processing" (machine learning)'' | ||
+ | |||
+ | === Chaine de numérisation de caractères === | ||
+ | * ''Scan Tailor'' | ||
+ | * ''Tesseract'' | ||
+ | [https://github.com/tesseract-ocr/tesseract/wiki Installation de Tesseract] | ||
+ | [http://pzwiki.wdka.nl/mw-mediadesign/index.php?title=Optical_character_recognition_with_Tesseract&redirect=no<br> Récits d'expériences]<br> | ||
+ | [https://guides.library.illinois.edu/c.php?g=347520&p=4121426 mode d'emploi tesseract] <br> | ||
+ | |||
+ | Attention : pour pouvoir installer Tessaract sur Windows il faut aller dans "Paramètres" puis "Sécurité de Windows" - ouvrir "le centre de sécurité windows defender" et tout désactivé dans "contrôle des applications et du navigateur". | ||
+ | |||
+ | Peut-être votre invite de commandes ne reconnaitra pas tout de suite tessaract comme une commande, il faut alors trouver le dossier où Tessaract est installé (normalement C:\Program Files\Tesseract-OCR) puis dans les propriétés systèmes cliquer sur "variables d’environnement" choisir "path" puis "nouvelle" - coller le chemin vers le dossier. | ||
+ | |||
+ | * Utiliser tesseract | ||
+ | commande de base | ||
+ | <pre> | ||
+ | tesseract image.tif output | ||
+ | </pre> | ||
+ | conversion d'un texte avec une langue spécifique | ||
+ | <pre> | ||
+ | tesseract image.tif output -l fra | ||
+ | </pre> | ||
+ | conversion de tout un dossier vers un fichier texte unique | ||
+ | <pre> | ||
+ | for i in *.tif; do tesseract $i stdout >> output.txt;done; | ||
+ | </pre> | ||
+ | conversion d'un texte avec sortie en html | ||
+ | <pre> | ||
+ | tesseract image.tif output -l fra hocr | ||
+ | </pre> | ||
+ | |||
+ | == Traitement des données textuelles == | ||
+ | Les commandes Cat: http://alexiadevisscher.be/doc/cat.html | ||
+ | === projets artistiques, recherches autour de l'ocr === | ||
+ | * "Pixels and caracters" : http://sicv.activearchives.org/mondo/ | ||
+ | * Re-typographe: http://www.revue-backoffice.com/numeros/01-faire-avec/david-valance-thomas-bouville-re-typographe + http://re-typograph.loria.fr/ | ||
+ | * Ounopo (xperimental publishing): https://issue.xpub.nl/05/ | ||
+ | |||
+ | Toutes les images du cours sur: https://cloud.pratiquesnumeriques.be/apps/gallery/#scan%20to%20ocr |
Version actuelle datée du 11 octobre 2019 à 13:29
Sommaire
De la numérisation d'un document à la reconnaissance de caractères (OCR).
"La numérisation des textes est un système de correspondances entre les caractères alphabétiques et des valeurs numériques que l’ordinateur peut manipuler. Tout texte peut ainsi être représenté par une suite de caractères codés sur lesquels il devient possible d’effectuer des opérations de comparaison ou de comptage. Cette première étape est le point de départ des premiers travaux de lexicométrie et a permis la constitution des premières bases de données textuelles.
Ensuite, il y a moyen d'opérer une recherche de chaîne de caractères dans le texte, d'activer des liens hypertextuels, d'annoter, de sonoriser des documents..." Jean Clément
La numérisation conditionne qu'une machine puisse décoder les valeurs numériques de la numérisation et puisse les afficher sur un support de lecture, ici l'écran. (mais peut aussi être un affichage sur du papier électronique ou la communication directe avec une imprimante)
Exercice 1
Se mettre à la place d'une machine de lecture capable de numériser et déchiffrer un document.
- 1. choisir un extrait de livre (deux pages minimum)
- 2. Décrire la page comme une image
- 3. Décrire/lire/reconnaître les caractères selon une méthode sytématique. (protocole)
- 4. Baliser le texte : donner un description sémiotique à l'intérieur d'un texte qui a perdu toute son "imagerie". (Hierarchisation des informations + aspects formels)
Fonctionnement d'un scanner
Un scanner analyse le document en mesurant sa réflectance élément de surface par élément de surface. Les éléments reçoivent, simultanément ou séquenciellement, un rayon lumineux ; un ou plusieurs capteurs transforment la lumière réfléchie en un signal électrique qui est numérisé, constituant ainsi une image matricielle transférée à l'ordinateur, pour y être ensuite sauvegardé, traité ou analysé. (wikipedia)
Un capteur photosensible détecte la reflection de la lumière (signal analogique) qui est ensuite transformé en signal numérique.
Optical Character Recognition (OCR)
- 1. Les premier systèmes de reconnaissance de caractères
"Les systèmes de reconnaissance optiques des caractères analysent des objets imprimés en considérant leurs caractères comme des images, reconnues une à une en fonction de leur singularité graphique [...] Au départ,les polices étaient conçues en fonction des capacités techniques de la machine, chaque glyphe occupant des zones spécifiques d'une grille sous-jacente. Cela permettait d'attribuer sans ambiguïté une identité unique aux lettres." (Johanna Druker)
Une première technologie consistait en la reconnaissance des caractères à l'encre magnétique : le MICR. Les caractères MICR sont imprimés sur les documents dans une police MICR. L'encre utilisée dans l'impression est une encre ou un toner magnétisable (communément appelé encre magnétique), contenant généralement de l'oxyde de fer. Le document est encodé par un lecteur MICR. L'encre est d'abord magnétisée. Ensuite, les caractères sont passés sur une tête de lecture MICR, un périphérique similaire à la tête de lecture d’un magnétophone. Lorsque chaque caractère passe au-dessus de la tête, il génère un signal unique, facilement identifiable par le système. (wikipedia)
Specimen du caractère E-13B spécialement conçu pour de l'encre magnétique (MICR) développé par les banques dans les années 1950 (source: https://patents.google.com/patent/EP0651345A2/en)
Specimen du caractère OCR A, caractère normalisé destiné à la reconnaissance optique (1968) (source: https://patents.google.com/patent/EP0651345A2/en)
- 2. Système de fragmentation des glyphes en zones rectangulaires
- 3. "Natural laguage processing" (machine learning)
Chaine de numérisation de caractères
- Scan Tailor
- Tesseract
Installation de Tesseract
Récits d'expériences
mode d'emploi tesseract
Attention : pour pouvoir installer Tessaract sur Windows il faut aller dans "Paramètres" puis "Sécurité de Windows" - ouvrir "le centre de sécurité windows defender" et tout désactivé dans "contrôle des applications et du navigateur".
Peut-être votre invite de commandes ne reconnaitra pas tout de suite tessaract comme une commande, il faut alors trouver le dossier où Tessaract est installé (normalement C:\Program Files\Tesseract-OCR) puis dans les propriétés systèmes cliquer sur "variables d’environnement" choisir "path" puis "nouvelle" - coller le chemin vers le dossier.
- Utiliser tesseract
commande de base
tesseract image.tif output
conversion d'un texte avec une langue spécifique
tesseract image.tif output -l fra
conversion de tout un dossier vers un fichier texte unique
for i in *.tif; do tesseract $i stdout >> output.txt;done;
conversion d'un texte avec sortie en html
tesseract image.tif output -l fra hocr
Traitement des données textuelles
Les commandes Cat: http://alexiadevisscher.be/doc/cat.html
projets artistiques, recherches autour de l'ocr
- "Pixels and caracters" : http://sicv.activearchives.org/mondo/
- Re-typographe: http://www.revue-backoffice.com/numeros/01-faire-avec/david-valance-thomas-bouville-re-typographe + http://re-typograph.loria.fr/
- Ounopo (xperimental publishing): https://issue.xpub.nl/05/
Toutes les images du cours sur: https://cloud.pratiquesnumeriques.be/apps/gallery/#scan%20to%20ocr