[Linux] Problème bizarre avec wget -r

Jean-Marc Libs jeanmarc.libs@::1
Sam 10 Avr 12:42:33 CEST 2010


Le site en question ne souhaite pas que l'on l'aspire ainsi et le fait
savoir par un fichier /robots.txt ou bien des instructions "nofollow" dans
le html (ici, je pense que c'est la deuxième hypothèse qui se vérifie, mais
j'ai pas pris le temps de vérifier).

Par défaut, wget respecte ces souhaits. Si tu veux forcer wget à ignorer ces
souhaits, il faut le dire explicitement, comme suit:

wget --execute robots=off -p -r -l 3 -k --domains=wiki.fasterxml.com
http://wiki.fasterxml.com/CategoryJackson

Jean-Marc Libs

2010/4/9 Olemis Lang (Simelix) <olemis+fr@::1 <olemis%2Bfr@::1>>

> Bonjour à tou(te)s !
>
> Svp, est-ce que quelqu'un pourrait m'aider à comprendre pourquoi
> est-ce que le wget récursif que je montre ci-dessous ne marche pas ?
>
> {{{
> #!sh
>
> $ sudo wget -p -r -l 3 -k --domains=wiki.fasterxml.com
> http://wiki.fasterxml.com/CategoryJackson
> --6:02:21-- <http://wiki.fasterxml.com/CategoryJackson%0A--6:02:21-->
> http://wiki.fasterxml.com/CategoryJackson
>           => `wiki.fasterxml.com/CategoryJackson'
> Resolving wiki.fasterxml.com... 72.14.187.107
> Connecting to wiki.fasterxml.com|72.14.187.107|:80... connected.
> HTTP request sent, awaiting response... 200 OK
> Length: 15,477 (15K) [text/html]
>
> 100%[=======>] 15,477         2.87K/s    ETA 00:00
>
> 6:02:28 (2.87 KB/s) - `wiki.fasterxml.com/CategoryJackson' saved
> [15477/15477]
>
>
> FINISHED --6:02:28--
> Downloaded: 15,477 bytes in 1 files
> }}}
>
> Merci d'avance !
>
> --
> Regards,
>
> Olemis.
>
> Blog ES: http://simelo-es.blogspot.com/
> Blog EN: http://simelo-en.blogspot.com/
>
> Featured article:
> Demanda sobre patente impide distribuir Microsoft Word -
>
> http://feedproxy.google.com/~r/simelo-es/~3/DwuBKpveLTg/demanda-sobre-patente-impide-distribuir.html<http://feedproxy.google.com/%7Er/simelo-es/%7E3/DwuBKpveLTg/demanda-sobre-patente-impide-distribuir.html>
>
-------------- section suivante --------------
Une pièce jointe HTML a été nettoyée...
URL: <https://strasbourg.linuxfr.org/pipermail/linux/attachments/20100410/6df7a7d2/attachment.html>


Plus d'informations sur la liste de diffusion linux