Aspirer un site Internet avec wget
Sous Linux, il existe un utilitaire très pratique qui permet notamment de récupérer des fichiers en lignes : wget.
** English version: Download the content of a website using wget **
Exécutable en ligne de commande, wget
permet aussi en lui fournissant des paramètres spécifiques d’aspirer un site Internet.
Aspirer une page Web
Pour aspirer une page et ses liens internes (uniquement ceux du domaine) et sans remonter dans les répertoires parents, il suffit d’exécuter la commande suivante dans la console :
wget -r -k -np http://www.example.com
Nous avons ici différents paramètres :
-r
: téléchargement récursif (wget
devra suivre les liens de la page)-k
: modifie les chemins des URLs pour que le site soit consultables localement-np
: ne pas aspirer les liens du répertoire parent
Source : Ubuntu-fr
Aspirer depuis une liste d’URL
Il est possible de spécifier dans un fichier une liste d’URL que wget
ira récupérer :
wget -i fichier.txt
Le fichier doit contenir la liste des URL à raison d’une par ligne.
Afin de conserver l’arborescence, on peut ajouter le paramètre -x :
wget -x -i fichier.txt
Sous Windows
Sous Windows, il est possible, si vous utilisez Git Bash, d’installer une extension pour disposer de wget
dans votre terminal :
- Se rendre sur la page : https://gist.github.com/evanwill/0207876c3243bbb6863e65ec5dc3f058#wget
- Suivre les instructions pour le téléchargement et télécharger le ZIP.
- Copier
wget.exe
dans le répertoiremingw64\bin
de l'installation de Git Bash : par exemple,C:\Users\\AppData\Local\Programs\Git\mingw64\bin
Originally published at https://www.sliceo.com.