[Linux] Problème bizarre avec wget -r
Jean-Marc Libs
jeanmarc.libs@::1
Sam 10 Avr 12:42:33 CEST 2010
Le site en question ne souhaite pas que l'on l'aspire ainsi et le fait
savoir par un fichier /robots.txt ou bien des instructions "nofollow" dans
le html (ici, je pense que c'est la deuxième hypothèse qui se vérifie, mais
j'ai pas pris le temps de vérifier).
Par défaut, wget respecte ces souhaits. Si tu veux forcer wget à ignorer ces
souhaits, il faut le dire explicitement, comme suit:
wget --execute robots=off -p -r -l 3 -k --domains=wiki.fasterxml.com
http://wiki.fasterxml.com/CategoryJackson
Jean-Marc Libs
2010/4/9 Olemis Lang (Simelix) <olemis+fr@::1 <olemis%2Bfr@::1>>
> Bonjour à tou(te)s !
>
> Svp, est-ce que quelqu'un pourrait m'aider à comprendre pourquoi
> est-ce que le wget récursif que je montre ci-dessous ne marche pas ?
>
> {{{
> #!sh
>
> $ sudo wget -p -r -l 3 -k --domains=wiki.fasterxml.com
> http://wiki.fasterxml.com/CategoryJackson
> --6:02:21-- <http://wiki.fasterxml.com/CategoryJackson%0A--6:02:21-->
> http://wiki.fasterxml.com/CategoryJackson
> => `wiki.fasterxml.com/CategoryJackson'
> Resolving wiki.fasterxml.com... 72.14.187.107
> Connecting to wiki.fasterxml.com|72.14.187.107|:80... connected.
> HTTP request sent, awaiting response... 200 OK
> Length: 15,477 (15K) [text/html]
>
> 100%[=======>] 15,477 2.87K/s ETA 00:00
>
> 6:02:28 (2.87 KB/s) - `wiki.fasterxml.com/CategoryJackson' saved
> [15477/15477]
>
>
> FINISHED --6:02:28--
> Downloaded: 15,477 bytes in 1 files
> }}}
>
> Merci d'avance !
>
> --
> Regards,
>
> Olemis.
>
> Blog ES: http://simelo-es.blogspot.com/
> Blog EN: http://simelo-en.blogspot.com/
>
> Featured article:
> Demanda sobre patente impide distribuir Microsoft Word -
>
> http://feedproxy.google.com/~r/simelo-es/~3/DwuBKpveLTg/demanda-sobre-patente-impide-distribuir.html<http://feedproxy.google.com/%7Er/simelo-es/%7E3/DwuBKpveLTg/demanda-sobre-patente-impide-distribuir.html>
>
-------------- section suivante --------------
Une pièce jointe HTML a été nettoyée...
URL: <https://strasbourg.linuxfr.org/pipermail/linux/attachments/20100410/6df7a7d2/attachment.html>
Plus d'informations sur la liste de diffusion linux