« Scraping » : différence entre les versions

Dernière version du 27 février 2025 à 17:16

Qu'est-ce que c'est?

Le web scraping permet d'extraire des données du web, de manière plus ou moins automatisées. Concrètement cela permet de récupérer en temps réel des flux d'information, de télécharger automatiquement de grandes quantités de données (à partir de bibliothèques en ligne par exemple), de créer des robots qui "naviguent" sur le web à la recherche d'informations. Les techniques sont multiples et peuvent passer par des API, par des navigateurs automatisés ou, plus simplement par des requêtes http et des techniques d'analyse des pages html reccueillies (le "parsing").

Références

Cory Arcangel, "Working on my novel"

Un scraping "low tech"

Deux exemples sont disponibles sur le gitlab du cours. Le premier scanne une page web à la recherche d'une suite de mot pour en générer des affiches, le deuxième récupère toutes les images d'une recherche donnée. Ils utilisent tous deux les mêmes librairies Python: beautifulsoup et requests.

Voir ici: https://gitlab.com/erg-design-numerique/demos/scraping

@@ Ligne 31 : / Ligne 31 : @@
 == Un scraping "low tech" ==
+Deux exemples sont disponibles sur le gitlab du cours. Le premier scanne une page web à la recherche d'une suite de mot pour en générer des affiches, le deuxième récupère toutes les images d'une recherche donnée. Ils utilisent tous deux les mêmes librairies Python: beautifulsoup et requests.
+[[Fichier:Screenshot from 2025-02-27 18-14-32.png]]
+Voir ici: https://gitlab.com/erg-design-numerique/demos/scraping

Dernière version du 27 février 2025 à 17:16

Qu'est-ce que c'est?

Références

Cory Arcangel, "Working on my novel"

Michael Mandiberg, "Print Wikipedia"

Nicolas Maigret, "The Pirate Cinema"

Jonathan Puckey, "Skycatcher Wallpaper" & "Zeitgeist"

Michael Bielicky, Kamila B. Richter, Dirk Reinbold, "The Falling Time"

Julius Popp, Bit.Fall

Un scraping "low tech"