Hallo, endlich hatte ich mal genug Ruhe, um mich mit wget zu befassen und es auf meine Forum-Inhalte anzusetzen. Also z.B.
wget -r -k -l 1 https://forumname/unterforum-f2/page3.html
Es läuft, und mit der Suchtiefe komme ich klar. Hier 1 Ebene tiefer, also wenn page3.html die Themen-Titel als Links zeigt, dann werden die Link-Inhalte abgerufen.
Aber drumherum erwische ich zuviel, statt zu wenig. Konkret nervt dabei Gezappel (statt einer lapidaren kleinen Fehlermeldung) durch nicht aufgefundene Avatarbilder, auf die ich gern ganz verzichten würde. Ich vermute, eine javascript-Funktion namens imgerr, die sich im Quellcode findet, schwingt hier ihr Tanzbein.
Also, in etwa sowas will ich gar nicht erst dabei haben:
<script type="text/javascript">diverse Anweisungen z.B. mit var, style_cookie_settings, popup(...), function imgerr(a){...}, die zum Nur-Lesen wahrscheinlich unnötig sind, aber stören </script>
Wenn ich das auskommentiere, kehrt Ruhe ein. Aber nur in der jeweiligen Datei. In all den dort verlinkten Themen (die Umwandlung in lokale Links per -k hat geklappt) zappelt es weiter. Meine verschiedenen Experimente mit
-R js
-R=js
-R „*.js“
--exclude-domains *.js
zeigten alle keine Wirkung (jedoch auch keine Fehlermeldung). Das Javascript-Zeug ist ja auch keine Datei (gegen die -R gedacht ist) und keine Domain … aber womit kann man es bei wget dann draußen vor halten?
Foren komplett speichern ist anspruchsvoll, aber ich möchte doch bloß die Inhalte meines Forums archivieren, also die Thementitel-Listen mit Autor und Datum, und die Themen-Ebene darunter, ohne die ganzen Forum-Funktionen drumherum.
Könnte man diese Daten selektiv speichern? Kann man Webseiten teilweise speichern, also hier quasi das Mittelstück, ohne Kopf- und Fußbereich?
Fehlt mir bloß das richtige Zauberwort? Oder hätte man für diese Selektierung doch mehr Möglichkeiten mit o.g. httrack ?