OCR et traitement

Présentation des différents systèmes de lecture machinique

Entre "voir" le texte et "lire" le texte, imaginer des protocoles de représentation numérique de la lecture.
Présentation des protocoles de lecture sous une forme libre (print, video, son, performance,...) pour la semaine prochaine.

projets artistiques, recherches autour de l'ocr

"Pixels and caracters" : http://sicv.activearchives.org/mondo/
Re-typographe: http://www.revue-backoffice.com/numeros/01-faire-avec/david-valance-thomas-bouville-re-typographe + http://re-typograph.loria.fr/
Ounopo (xperimental publishing): https://issue.xpub.nl/05/

Toutes les images du cours sur: https://cloud.pratiquesnumeriques.be/apps/gallery/#scan%20to%20ocr

Traitement des données textuelles à partir de Tesseract

Sortie .txt et manipulations avec Bash (voir: http://alexiadevisscher.be/doc/cat.html)
.txt to .html: Baliser un texte manuellement en html
- petite histoire des balises (languages déclaratifs et d'instruction) et normes
Sortie html Travailler avec le balisage html proposé par tesseract