ubuntuusers.de

Kein Download von verlinkten Seiten mit wget

Status: Gelöst | Ubuntu-Version: Xubuntu 18.04 (Bionic Beaver)
Antworten |

Fried-rich

Anmeldungsdatum:
2. Mai 2013

Beiträge: 1148

Hallo,

im Wiki zu wget ist ein Bsp. wie man eine ganze Website inkl. einer bestimmten Verlinkungstiefe herunterladen kann, was vor ewigen Zeiten auch mal funktioniert hat - jetzt leider nicht mehr:

wget -r -k -E -l 8 http://example.com

Auch andere Bsp. aus dem Netz liefern immer nur die aktuelle Seite als Downloads, die Verlinkungen werden nicht heruntergeladen. Kann das mal jemand bei sich versuchen? Ist das nur bei mir so? Passiert auch auf meinem Raspberry Pi. Hab das mit einer Seite von der deutschen Wikipedia und dem wget-wiki hier versucht. In beiden das gleiche.

Friedrich

dingsbums

Anmeldungsdatum:
13. November 2010

Beiträge: 3782

Viele Webserver sperren so etwas per robots.txt. Bei de.wikipedia.org bekommst Du nur die index.html und die robots.txt. In dieser steht u.a.:

User-agent: wget
Disallow: /

Fried-rich

(Themenstarter)

Anmeldungsdatum:
2. Mai 2013

Beiträge: 1148

Mit

-e robots=off

geht es.

Fried-rich

(Themenstarter)

Anmeldungsdatum:
2. Mai 2013

Beiträge: 1148

Verstehe ich die Option -D richtig, dass da nur die links verfolgt werden die der angegebenen domain entsprechen? Wenn ich z. B. https://wiki.ubuntuusers.de/wget/#menu herunterladen will und als domain https://wiki.ubuntuusers.de/ zusammen mit -r und -l 2 ausführen, müsste die Seite sowie alle hier verlinkten seiten die mit der domain beginnen heruntergeladen werden. Nicht aber externe links.

Es wird aber nur die Seite geladen. Lasse ich -D weg oder lösche ich das http:// wird alles bis zur 1. linkeben heruntergeladen, auch externe links.

Antworten |