Hallo zusammen,
ich würde gerne eine Website vollständig runterladen und anschließend zu einer PDF-Datei erstellen. Es werden freie Bücher als HTML-Versionen zum lesen angeboten. Damit es verständlich ist, beschreibe ich kurz den Aufbau Hauptseite: http://WEBSITE/?vpath=bibo/ebook/HutZuMath_1/cont/HutZuMath.htm
Auf diese Seite sind alle Links, die zum Buch gehören im folgendem Format:
1 | <a href="?vpath=bibo/ebook/HutZuMath_1/cont/HutZuMath.htm/HutZuMath.bibliography%2Ehtm" target="_self">Inhalt</a> |
Wget soll nun allen Links folgen und diese herunterladen, wo der Buchname: "HutZuMath_1" enthalten ist. Alle anderen sollen ignoriert werden! Leider klappt es nicht mit dem -A Parameter:
wget -r -c --convert-links -A '*HutZuMath_1*' http://WEBSITE/?vpath=bibo/ebook/HutZuMath_1/cont/HutZuMath.htm
Er läd lediglich die Index-Seite herunter.
Arbeitet wget per Tiefensuche, sprich der Befehl folgt den Links immer erst soweit wie möglich, bevor der nächste Link kommt? Dann würde ich es gerne als Schleife haben und jede ermittelte Webseite umbenennen, sodass ich einen Laufindex ran hängen kann. Anschließend könnte ich nach dem Laufindex sortieren und daraus eine PDF-Datei erstellen. Geht so etwas?
Freue mich über Anregungen und Ratschläge.
Vielen Dank