Scraping : Différence entre versions

De Design numérique
Aller à : navigation, rechercher
(Page créée avec « == Qu'est-ce que c'est? == Le web scraping permet d'extraire des données du web, de manière plus ou moins automatisées. Concrètement cela permet de récupérer en tem... »)
 
(Un scraping "low tech")
Ligne 31 : Ligne 31 :
  
 
== Un scraping "low tech" ==
 
== Un scraping "low tech" ==
 +
 +
Deux exemples sont disponibles sur le gitlab du cours. Le premier scanne une page web à la recherche d'une suite de mot pour en générer des affiches, le deuxième récupère toutes les images d'une recherche donnée. Ils utilisent tous deux les mêmes librairies Python: beautifulsoup et requests.
 +
 +
Voir ici: https://gitlab.com/erg-design-numerique/demos/scraping

Version du 27 février 2025 à 17:12

Qu'est-ce que c'est?

Le web scraping permet d'extraire des données du web, de manière plus ou moins automatisées. Concrètement cela permet de récupérer en temps réel des flux d'information, de télécharger automatiquement de grandes quantités de données (à partir de bibliothèques en ligne par exemple), de créer des robots qui "naviguent" sur le web à la recherche d'informations. Les techniques sont multiples et peuvent passer par des API, par des navigateurs automatisés ou, plus simplement par des requêtes http et des techniques d'analyse des pages html reccueillies (le "parsing").

Références

Cory Arcangel, "Working on my novel"

Working-on-my-novel-5.jpg


Michael Mandiberg, "Print Wikipedia"

PrintWikipedia-ASU-overStacks1.jpg


https://en.wikipedia.org/wiki/Print_Wikipedia

Nicolas Maigret, "The Pirate Cinema"

Pirate-cinema exhibition.jpg


https://disnovation.org/thepiratecinema/installation/

Jonathan Puckey, "Skycatcher Wallpaper" & "Zeitgeist"

https://jonathanpuckey.com/projects/skycatcher-wallpaper/ https://jonathanpuckey.com/projects/zeitgeist/

Michael Bielicky, Kamila B. Richter, Dirk Reinbold, "The Falling Time"

http://fallingtimes.net/

Julius Popp, Bit.Fall

https://vimeo.com/219497580

Un scraping "low tech"

Deux exemples sont disponibles sur le gitlab du cours. Le premier scanne une page web à la recherche d'une suite de mot pour en générer des affiches, le deuxième récupère toutes les images d'une recherche donnée. Ils utilisent tous deux les mêmes librairies Python: beautifulsoup et requests.

Voir ici: https://gitlab.com/erg-design-numerique/demos/scraping