19
0
Fork 0
wiki/HowtoWget.md

71 lines
2.9 KiB
Markdown
Raw Permalink Normal View History

2018-01-12 18:24:17 +01:00
---
title: Howto wget
2023-11-29 12:02:01 +01:00
categories: tips wget
2018-01-12 18:24:17 +01:00
...
* Page de manuel : <https://www.gnu.org/software/wget/manual/wget.html>
# HowTo Wget
2018-01-15 11:17:55 +01:00
Wget est un client supportant les protocoles HTTP, HTTPS et FTP pour récupérer du contenu distant sur Internet et ainsi que le téléchargement au travers des proxies HTTP.
2018-01-12 18:24:17 +01:00
## Utilisation de base
2018-01-15 11:17:55 +01:00
Exemples d'utilisation :
Récupérer un fichier en limitant la bande passante et le sauvegardant sous un nom différent :
2018-01-12 18:24:17 +01:00
~~~
2018-01-15 11:17:55 +01:00
$ wget --limit-rate=100K https://ftp.acc.umu.se/cdimage/release/current/amd64/iso-cd/debian-9.3.0-amd64-netinst.iso -O debian9.iso
2018-01-12 18:24:17 +01:00
~~~
2018-01-15 11:17:55 +01:00
Télécharger un fichier en mode silencieux avec l'affichage de son avancement :
~~~
$ wget -q --show-progress https://ftp.acc.umu.se/cdimage/release/current/amd64/iso-cd/debian-9.3.0-amd64-netinst.iso
~~~
Seulement pour télécharger les fichier dont l'extension est iso :
~~~
$ wget -r -A "*iso" https://ftp.acc.umu.se/cdimage/release/current/amd64/iso-cd/
~~~
Télécharger des fichiers en passant par un proxy :
2018-01-12 18:24:17 +01:00
~~~
$ wget --limit-rate=100K -A *.mpeg -r http://dc5video.debian.net/2005-07-09/
$ http_proxy=http://192.168.14.4:3128 wget -p -H www.thomascook.fr
~~~
2018-01-15 11:17:55 +01:00
2018-01-12 18:24:17 +01:00
Voici les différentes options possibles :
* `-c` : pour reprendre un téléchargement déjà commencé
* `-q` : Pour le mode silencieux
2018-01-15 11:17:55 +01:00
* `-O` : fichier de sortie
2018-01-12 18:24:17 +01:00
* `--show-progress` : Montre la progression du téléchargement
* `-4` : utilise la liaison ipv4
* `-6` : utilise la liaison ipv6
* `--limit-rate=100k` : pour limiter le téléchargement à 100 K**o**/s
* `--no-check-certificate` : Ne vérifie pas la validité des certificats
* `-r` : téléchargement récursif d'un site (mode « aspirateur »)
* `-l <niveau>` (défaut=5) : niveau de répertoires à explorer pour l'aspirateur (`-l 0` : aucun)
* `-a <regex>` : pour limiter à une expression régulière
2018-01-15 11:17:55 +01:00
* `-X /*/*/*/foo,/*/*/*/bar` : Exclu les sous-dossiers portant le nom foo et bar
* `--reject-regex <regex>` : Exclus l'accès aux urls qui match avec l'expression régulière
* `--accept-regex <regex>` : Inclus l'accès aux urls qui match avec l'expression régulière
* `-A` : filtre le contenu que l'on veut récupérer
* `-R "*-mac-*"` : filtre le contenu que l'on ne veut pas récupérer
* `-P <foo>`: pour spécifier le répertoire foo/ où mettre le contenu téléchargé
2018-01-12 18:24:17 +01:00
* `-p` : prendre tous les fichiers dont la page a besoin
2018-01-15 11:17:55 +01:00
* `-H` : active le teléchargement de « pages extérieures » au site demandé
* `-nc` : Ne télécharge pas le fichier s'il est déjà présent
* `-nd` : Ne représente pas l'arborescence de fichier
* `-i <fichier>` : Liste d'URL désignant les fichiers à télécharger
* `-e robots=off` : Ne respecte pas les directives incluse dans robots.txt
2024-01-31 11:23:15 +01:00
* `--no-parent` : Ne monte jamais dans le répertoire parent lors de la récupération récursive
* `--mirror` : Équivalent aux options `-r -N -l inf --no-remove-listing`
En général, on voudra utiliser l'option `--no-parent` avec les options `--mirror` ou `-r`.