[Linux] Problème bizarre avec wget -r

Olemis Lang olemis@::1
Lun 12 Avr 14:02:22 CEST 2010


2010/4/10 Jean-Marc Libs <jeanmarc.libs@::1>:
> 2010/4/9 Olemis Lang (Simelix) <olemis+fr@::1>
>>
>> Bonjour à tou(te)s !
>>
>> Svp, est-ce que quelqu'un pourrait m'aider à comprendre pourquoi
>> est-ce que le wget récursif que je montre ci-dessous ne marche pas ?
>>
>> {{{
>> #!sh
>>
>> $ sudo wget -p -r -l 3 -k --domains=wiki.fasterxml.com
>> http://wiki.fasterxml.com/CategoryJackson
[...]
>>
>> 100%[=======>] 15,477         2.87K/s    ETA 00:00
>>
>> 6:02:28 (2.87 KB/s) - `wiki.fasterxml.com/CategoryJackson' saved
>> [15477/15477]
>>
>> FINISHED --6:02:28--
>> Downloaded: 15,477 bytes in 1 files
>> }}}
>>
>
> Le site en question ne souhaite pas que l'on l'aspire ainsi et le fait
> savoir par un fichier /robots.txt ou bien des instructions "nofollow" dans
> le html (ici, je pense que c'est la deuxième hypothèse qui se vérifie, mais
> j'ai pas pris le temps de vérifier).
>
> Par défaut, wget respecte ces souhaits. Si tu veux forcer wget à ignorer ces
> souhaits, il faut le dire explicitement, comme suit:
>
> wget --execute robots=off -p -r -l 3 -k --domains=wiki.fasterxml.com
> http://wiki.fasterxml.com/CategoryJackson
>

C'est ça !

{{{
#!html

<meta name="robots" content="index,nofollow">
}}}

Merci bcp !

-- 
Regards,

Olemis.

Blog ES: http://simelo-es.blogspot.com/
Blog EN: http://simelo-en.blogspot.com/

Featured article:
Demanda sobre patente impide distribuir Microsoft Word -
http://feedproxy.google.com/~r/simelo-es/~3/DwuBKpveLTg/demanda-sobre-patente-impide-distribuir.html


Plus d'informations sur la liste de diffusion linux