Aspirer un site Internet avec wget

Sous Linux, il existe un utilitaire très pratique qui permet notamment de récupérer des fichiers en lignes : wget.

2 min readApr 26, 2023

** English version: Download the content of a website using wget **

Exécutable en ligne de commande, wget permet aussi en lui fournissant des paramètres spécifiques d’aspirer un site Internet.

Aspirer une page Web

Pour aspirer une page et ses liens internes (uniquement ceux du domaine) et sans remonter dans les répertoires parents, il suffit d’exécuter la commande suivante dans la console :

wget -r -k -np http://www.example.com

Nous avons ici différents paramètres :

-r : téléchargement récursif (wget devra suivre les liens de la page)
-k : modifie les chemins des URLs pour que le site soit consultables localement
-np : ne pas aspirer les liens du répertoire parent

Source : Ubuntu-fr

Aspirer depuis une liste d’URL

Il est possible de spécifier dans un fichier une liste d’URL que wget ira récupérer :

wget -i fichier.txt

Le fichier doit contenir la liste des URL à raison d’une par ligne.

Afin de conserver l’arborescence, on peut ajouter le paramètre -x :

wget -x -i fichier.txt

Sous Windows

Sous Windows, il est possible, si vous utilisez Git Bash, d’installer une extension pour disposer de wget dans votre terminal :

Se rendre sur la page : https://gist.github.com/evanwill/0207876c3243bbb6863e65ec5dc3f058#wget
Suivre les instructions pour le téléchargement et télécharger le ZIP.
Copier wget.exe dans le répertoire mingw64\bin de l'installation de Git Bash : par exemple, C:\Users\\AppData\Local\Programs\Git\mingw64\bin

Originally published at https://www.sliceo.com.

Aspirer un site Internet avec wget

Sous Linux, il existe un utilitaire très pratique qui permet notamment de récupérer des fichiers en lignes : wget.

Aspirer une page Web

Aspirer depuis une liste d’URL

Sous Windows

Written by Ludovic Pecate

No responses yet