Scan to OCR : Différence entre versions
Ligne 6 : | Ligne 6 : | ||
Un scanner analyse le document en mesurant sa réflectance élément de surface par élément de surface. Les éléments reçoivent, simultanément ou séquenciellement, un rayon lumineux ; un ou plusieurs capteurs transforment la lumière réfléchie en un signal électrique qui est numérisé, constituant ainsi une image matricielle transférée à l'ordinateur, pour y être ensuite sauvegardé, traité ou analysé. (wikipedia) | Un scanner analyse le document en mesurant sa réflectance élément de surface par élément de surface. Les éléments reçoivent, simultanément ou séquenciellement, un rayon lumineux ; un ou plusieurs capteurs transforment la lumière réfléchie en un signal électrique qui est numérisé, constituant ainsi une image matricielle transférée à l'ordinateur, pour y être ensuite sauvegardé, traité ou analysé. (wikipedia) | ||
Un capteur photosensible détecte la reflection de la lumière (signal analogique) qui est ensuite transformé en signal numérique. | Un capteur photosensible détecte la reflection de la lumière (signal analogique) qui est ensuite transformé en signal numérique. | ||
− | [ | + | [[Fichier:Scanner a plat fonctionnement.png|schéma d'un scanner à plat]] |
+ | === Optical Character Recognition (OCR)=== | ||
+ | "Les systèmes de reconaissance optiques des caractères analysent des objets imprimés en consdiérant leurs caractères commes des images, reconues une ) une en fonction de leur singularité graphique [...] Au départ,les polices étaient concues en fonction des capacités techniques de la machine, chaque glyphe occupant des zones spécifiques d'une grille sous-jacente. Cela permettait d'attribuer sans ambiguité une identité unique aux lettres." | ||
+ | <gallery> | ||
+ | Exemple.jpg|Description 1 | ||
+ | Exemple.jpg|Description 2 | ||
+ | </gallery> | ||
# | # | ||
# 1. choisir un extrait de livre (deux pages minimum) | # 1. choisir un extrait de livre (deux pages minimum) |
Version du 3 octobre 2019 à 20:51
Les étapes de numérisation d'un document et de la reconnaissance de caractères (OCR).
"La numérisation des textes est un système de correspondances entre les caractères alphabétiques et des valeurs numériques que l’ordinateur peut manipuler. Tout texte peut ainsi être représenté par une suite de caractères codés sur lesquels il devient possible d’effectuer des opérations de comparaison ou de comptage. Cette première étape est le point de départ des premiers travaux de lexicométrie et a permis la constitution des premières bases de données textuelles. Ensuite, il y a moyen d'opérer une recherche de chaîne de caractères dans le texte, d'activer des liens hypertextuels, d'annoter, de sonoriser des documents..." Jean Clément
Fonctionnement d'un scanner
Un scanner analyse le document en mesurant sa réflectance élément de surface par élément de surface. Les éléments reçoivent, simultanément ou séquenciellement, un rayon lumineux ; un ou plusieurs capteurs transforment la lumière réfléchie en un signal électrique qui est numérisé, constituant ainsi une image matricielle transférée à l'ordinateur, pour y être ensuite sauvegardé, traité ou analysé. (wikipedia) Un capteur photosensible détecte la reflection de la lumière (signal analogique) qui est ensuite transformé en signal numérique.
Optical Character Recognition (OCR)
"Les systèmes de reconaissance optiques des caractères analysent des objets imprimés en consdiérant leurs caractères commes des images, reconues une ) une en fonction de leur singularité graphique [...] Au départ,les polices étaient concues en fonction des capacités techniques de la machine, chaque glyphe occupant des zones spécifiques d'une grille sous-jacente. Cela permettait d'attribuer sans ambiguité une identité unique aux lettres."
- Exemple.jpg
Description 1
- Exemple.jpg
Description 2
- 1. choisir un extrait de livre (deux pages minimum)
- 2. Décrire la page comme une image
- 3. Décrire/lire/reconnaître les caractères
- 4. Entre les deux: Baliser le texte (Standard Generalized Markup Language ancêtre de l'html): donner un description sémiotique in l'intérieur d'un texte qui a perdu toute son "imagerie".
- 5. La question des formats (PDF vs html et xml)
La numérisation conditionne qu'une machine puisse décoder les valeurs numériques de la numérisation et puisse les afficher sur un support de lecture, ici l'écran. (mais peut aussi être un affichage sur du papier électronique ou la communication directe avec une imprimante) -> lecture à l'écran (back office) - couleur ou noir et blanc? -> technologie de l'écrant RVB vs 1bit (les caractères ont-ils une couleur?)