Re: wget;

From: mail@pp21.cz
Date: 28. 12. 2002, 14:26 CET


Ivan Zacek <zacekivan@volny.cz>:

>> Wget toho umí víc, stačí napsat "wget /?" Verzi pro Win (DOS) jsem
>> nikdy nepoužíval, nevím tedy, do jaké míry je to shodné.

> Po "wget /?" mi vypSAL "/? UnSuporTED SCHEME

Nevim, kdo ti psal ten parametr "/?", to je bezne schema u M$ programu,
spousta jinych, vcetne wgetu regauje na tohle:

wget -h

nebo taky na

wget --help

Zobrazi se ti jen zakledni help. Pokud hledas vic informaci, tak v *.zip
balicku s wgetem je adresar 'doc', kde je bud *.hlp soubor, nebo jeste
lepe totez v html. Pokud si to proctes, urcite se to naucis, jsou tam i
priklady.


> po "wget -r -l1 -p/wtc http://www.volny.cz/bezbar-doprava/WTC.html"
> nebylo nic.

Vadi mu tam lomitko v prepinaci '-p/wtc'. Prepinac '-p' nema zadne dalsi
argumenty, pouze rika, ze wget na stahnout aktualni stranku vcetne vsech
souboru nezbytnych pro korektni zobrazeni te html stranky. Bohuzel wget
neumi nasledovat soubory zapsane pomoci javascriptu (ruzna omnouseover
menu), url definovane v css (obvykle pozadi) a pak taky css soubory
vkladane pomoci @import.

> po "wget -r -l2 http://www.volny.cz/bezbar-doprava/WTC.html"
> udelal /www.volny.cz/ bezbar-doprava/ WTC.html, no a ja bych chtel aBY
> se vytvoril adresar a v nem wtc.html a z nej odkAzy i s obrazky.

Pokud to dobre chapu, tak chces, aby se ti sthnuly vsechny stranky, vcetne
obrazku, na ktere vedou odkazy z te tvoji WTC.html. Nejde ti to proto, ze
prepinac -r nasleduje odkazy jen v ramci jednoho webu, ale tvouje odkazy
vedou na jiny web (zpravy.idnes.cz). To co potrebujes se jmenuje
'--span-hosts', nebo take '-H'. Pak by to bylo asi takhle:

wget -r -l1 -p -H http://www.volny.cz/bezbar-doprava/WTC.html


Jak se na to tak divam, tak tobe jde o to, aby sis stahnul vsechny ty
fotky z idnes.cz.
Udelal bych to jinak.
Kdyz se kouknes na tu URL clanku, ktere jsou vlastne jen 'fotkou', a pak
kounes na skuzecnou adresu fotky, zjistis, ze ti staci vytvorit si seznam
odkazu primo na ty fotky, o ktere mas zajem a pak je najednou stahnout.
Nebudes tahat spoustu zbytecnyho balastu, a budes to mit rychleji.

Odkaz na stranku vypada takhle:
http://zpravy.idnes.cz/foto.asp?c=A010911_152055_zahranicni_has&foto=A0109
30_ITU_KOPIEAMAN(PKI_V.JPG&galerie=&skupina=

odkaz na fotku, kterou zobrazi zakhle:
http://imgs.idnes.cz/zahranicni/A010930_ITU_KOPIEAMAN(PKI_V.JPG

Takze ti vlastne staci z URL strynky vytahnout to zo je za '&foto=' a pred
'&galerie'. Pak pred to pridas jen http://imgs.idnes.cz/zahranicni/ ,
kazdej odkaz na obrazek das na jeden radek, ulozis to do obycejneho
textoveho souboru, rekneme treba 'list.txt' a ten pak predhodis wgetu, on
ti stahne jen ty fotky, bez tech zbytecnosti okolo.
Osobne bych si ten seznam upravil v excelu, pomoci funkci zleva()
a zprava().
Pak uz jen rict wgetu, kde ma soubor s odkazy:

wget -ilist.txt

A je hotovo.

-pp21-



This archive was generated by hypermail 2.1.2 : 28. 12. 2002, 14:27 CET