WAYBACK MACHINE
Sommaire
#SESSION 02 - BASES DE DONNÉES
● LE PROJET
Cette session porte sur la récupération, l’archivage, l’analyse de données numériques. Il s’agira pour chacun.e de développer une ou plusieurs méthodologie(s) permettant de mener un travail d’enquête et de mise(s) en forme(s) à partir d’un corpus choisi. Durant cette session, nous nous intéresserons à ce qui délimite un corpus, ce qui définit un spécimen, ce qui le transforme en document. Nous aborderons ensuite différents paradigmes de bases de données et les types de d’opérations (et les requêtes) possibles pour chacun d’eux. Enfin, il sera question d’accessibilité à la fois des documents et du processus de travail (quoi partager et comment?).
01 Choisir une source de donnée 02 Définir un corpus (une partie des données diffusées) 03 Extraire des spécimens : extraire des éléments et définir les limtes 04 Créer une fiche descriptive. Quelles propriétés des spécimens peuvent être intéressantes? 05 Choisir un type de base de données et définir une structure permettant d’encoder les fiches 06 Définir une méthode d’encodage des spécimens dans la base de données 07 Encoder tout ou une partie du corpus 08 Expérimenter des requêtes à envoyer à la base de données
01 - Première étape
● INFOS/ EXPLICATIONS :
→ https://web.archive.org = WAYBACK MACHINE
La Wayback Machine (littéralement « la machine à revenir en arrière ») est un site web mis à disposition par Internet Archive afin d’offrir un accès à des clichés instantanés de pages web stockés par l’organisme. Dès 1996, Internet Archive commence à capturer et enregistrer des pages web afin de les archiver. Puis, en 2001, l’équipe lance la Wayback Machine, qui offre une interface publique à cette base de données qui comporte à l’époque 10 milliards de page représentant 100 térabits de données. Les clichés sont disponibles de six à douze mois après leur capture. La fréquence des instantanés est variable et dépend de plusieurs facteurs dont le nombre de liens entrants vers la page concernée.
Ce site est un archivage du Web permettant aux internautes de consulter d’anciennes versions de sites. Actuellement, plus de 302 milliards de pages Web sauvegardées sont au compteur.
Ce mode de recherche permet de déterminer les dates précises à rechercher, ainsi que les types de documents modifiés (vidéos, pdf, etc.), ou encore d’afficher toutes les pages dupliquées (s’il y a eu 10 modifications dans la même journée par exemple, Wayback vous les montre toutes).
● Liens vers 2 articles:
→ Article sur Forbes.com [Jan 18, 2016, 10:59am] https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#1abacb2c82e0
→ Jack Schofield, « Internet archive allows you to travel back through the history of a website », The Guardian, 19 novembre 2007 https://www.theguardian.com/technology/2007/nov/19/archive.internet [Mon 19 Nov 2007 10.55 GMT]
● COMMENT UTILISER LA WAYBACK MACHINE SUR LE SITE INTERNET ARCHIVE ?
Vous vous êtes souvent demandé à quoi ressemblait un site web dans le passé ? Vous auriez rêvé de pouvoir visiter la page Microsoft.com à l’époque où Windows XP est sorti ? Et bien sachez que vous pouvez faire de vos rêves une réalité ! En effet, la Wayback Machine contient une immense collection de clichés de sites web réalisés dans le passé. Il ne vous reste plus qu’à apprendre à vous servir de ce formidable outil.
01 Visualiser des pages web archivées :
→→ Accédez à la liste des archives sauvegardées pour le site web qui vous intéresse.
Si vous connaissez déjà l’adresse URL du site en question, vous pouvez la taper dans le champ qui se trouve en haut de la page.
Vous pouvez également faire une recherche. Tapez des mots-clés puis faites Entrée. Cliquez sur le site web de votre choix dans la liste des résultats.
02 Choisissez une année/date :
→→ Par défaut, le résultat affiché est celui de l’année en cours. Vous pouvez voir un diagramme sur lequel sont indiquées les dates auxquelles la Wayback Machine a archivé cette page. Cliquez en dessous de l’année et vous verrez un calendrier qui répertorie tous les jours de cette année-là.
→→ Cliquez sur un jour particulier. Les dates qui restent en blanc ne sont pas accessibles. Cela signifie en effet que le programme n’a pas capturé un instantané du site ce jour-là.
Si vous cherchez à visualiser un site à une époque donnée, passez votre souris sur une des dates proposées et sélectionnez une heure. La page web s’affiche alors exactement telle qu’elle était alors.
03 Comparez :