Scraping

Qu'est-ce que c'est?

Le web scraping permet d'extraire des données du web, de manière plus ou moins automatisées. Concrètement cela permet de récupérer en temps réel des flux d'information, de télécharger automatiquement de grandes quantités de données (à partir de bibliothèques en ligne par exemple), de créer des robots qui "naviguent" sur le web à la recherche d'informations. Les techniques sont multiples et peuvent passer par des API, par des navigateurs automatisés ou, plus simplement par des requêtes http et des techniques d'analyse des pages html reccueillies (le "parsing").

Références

Cory Arcangel, "Working on my novel"

Un scraping "low tech"

Deux exemples sont disponibles sur le gitlab du cours. Le premier scanne une page web à la recherche d'une suite de mot pour en générer des affiches, le deuxième récupère toutes les images d'une recherche donnée. Ils utilisent tous deux les mêmes librairies Python: beautifulsoup et requests.

Voir ici: https://gitlab.com/erg-design-numerique/demos/scraping

Scraping

De Design numérique

Version datée du 27 février 2025 à 17:12 par Lionel (discussion | contributions) (→Un scraping "low tech")
(diff) ← Version précédente | Version actuelle (diff) | Version suivante → (diff)

Sommaire

Qu'est-ce que c'est?

Références

Cory Arcangel, "Working on my novel"

Michael Mandiberg, "Print Wikipedia"

Nicolas Maigret, "The Pirate Cinema"

Jonathan Puckey, "Skycatcher Wallpaper" & "Zeitgeist"

Michael Bielicky, Kamila B. Richter, Dirk Reinbold, "The Falling Time"

Julius Popp, Bit.Fall

Un scraping "low tech"

Scraping

De Design numérique

Version datée du 27 février 2025 à 17:12 par Lionel (discussion | contributions) (→Un scraping "low tech")(diff) ← Version précédente | Version actuelle (diff) | Version suivante → (diff)

Qu'est-ce que c'est?

Références

Cory Arcangel, "Working on my novel"

Michael Mandiberg, "Print Wikipedia"

Nicolas Maigret, "The Pirate Cinema"

Jonathan Puckey, "Skycatcher Wallpaper" & "Zeitgeist"

Michael Bielicky, Kamila B. Richter, Dirk Reinbold, "The Falling Time"

Julius Popp, Bit.Fall

Un scraping "low tech"

Version datée du 27 février 2025 à 17:12 par Lionel (discussion | contributions) (→Un scraping "low tech")
(diff) ← Version précédente | Version actuelle (diff) | Version suivante → (diff)