Session 02
Révision datée du 5 février 2019 à 10:52 par Lionel (discussion | contributions)
Session #02: bases de données
Introduction
Cette session porte sur la récupération, l'archivage, l'analyse de données numériques. Il s'agira pour chacun.e de développer une ou plusieurs méthodologie(s) permettant de mener un travail d'enquête et de mise(s) en forme(s) à partir d'un corpus choisi. Durant cette session, nous nous intéresserons à ce qui délimite un corpus, ce qui définit un spécimen, ce qui le transforme en document. Nous aborderons ensuite différents paradigmes de bases de données et les types de d'opérations (et les requêtes) possibles pour chacun d'eux. Enfin, il sera question d'accessibilité à la fois des documents et du processus de travail (quoi partager et comment?).
Étapes du projet
- choisir une source de données numériques.
- les données peuvent être de n'importe quel type de média (texte, vidéo, image, son)
- types de sources possibles: un site web / un blog / un journal en ligne, une base de données de textes / de vidéos / de sons, etc.
- exemples: http://wikileaks.org, https://www.gutenberg.org/, https://freesound.org/, http://youtube.com
- définir un corpus. Il s'agit d'appliquer des limites à la source choisie pour ne s'intéresser qu'à une partie des données diffusées.
- exemples: une fuite de wikileaks, une rubrique d'un site, un auteur sur le projet Gutenberg, une recherche Youtube, etc.