Aspirer un site Internet avec wget

Sous Linux, il existe un utilitaire très pratique qui permet notamment de récupérer des fichiers en lignes : wget.

Ludovic Pecate
2 min readApr 26, 2023

** English version: Download the content of a website using wget **

Exécutable en ligne de commande, wget permet aussi en lui fournissant des paramètres spécifiques d’aspirer un site Internet.

Image générative (DALL·E 3)

Aspirer une page Web

Pour aspirer une page et ses liens internes (uniquement ceux du domaine) et sans remonter dans les répertoires parents, il suffit d’exécuter la commande suivante dans la console :

wget -r -k -np http://www.example.com

Nous avons ici différents paramètres :

  • -r : téléchargement récursif (wget devra suivre les liens de la page)
  • -k : modifie les chemins des URLs pour que le site soit consultables localement
  • -np : ne pas aspirer les liens du répertoire parent

Source : Ubuntu-fr

Aspirer depuis une liste d’URL

Il est possible de spécifier dans un fichier une liste d’URL que wget ira récupérer :

wget -i fichier.txt

Le fichier doit contenir la liste des URL à raison d’une par ligne.

Afin de conserver l’arborescence, on peut ajouter le paramètre -x :

wget -x -i fichier.txt

Sous Windows

Sous Windows, il est possible, si vous utilisez Git Bash, d’installer une extension pour disposer de wget dans votre terminal :

Originally published at https://www.sliceo.com.

--

--

Ludovic Pecate
Ludovic Pecate

Written by Ludovic Pecate

French Web Developer during the day… and the night sometimes.

No responses yet