ubuntuusers.de

Wie kann man *.warc-Dateien sinnvoll entpacken?

Status: Gelöst | Ubuntu-Version: Ubuntu 22.04 (Jammy Jellyfish)
Antworten |

Reihner

Anmeldungsdatum:
14. Juni 2017

Beiträge: 168

Wohnort: Klendathu

Die meisten werden archive.org kennen. Darauf habe ich ältere, nicht mehr im Netz verfügbare Webseiten gefunden. Diese möchte ich offline verfügbar machen.

Nach einiger Suche scheine ich die "Rohdaten" im *.warc-Archiven gefunden zu haben. Leider bekomme ich es nicht hin diese "Archive" so zu entpacken das ich die gewünschte Webseite extrahieren kann.

  • Kann mir da jemand einen Tipp geben?

Dieser Beitrag baut auf einem älteren Beitrag von mir auf. Es ist aber nicht wirklich notwendig diesen gelesen zu haben

verdooft

Anmeldungsdatum:
15. September 2012

Beiträge: 4393

Was bringt denn

file datei

Hab eben mal eine example.warc geladen, da ist das JSON. Im Web gibts auch mindestens einen warc extractor.

https://github.com/recrm/ArchiveTools

noisefloor Team-Icon

Anmeldungsdatum:
6. Juni 2006

Beiträge: 29567

Hallo,

WARC ist scheinbar ein exotisches Format (siehe https://de.wikipedia.org/wiki/Web_ARChive), von daher solltest du dafür auch Entpacker finden.

Gruß, noisefloor

Reihner

(Themenstarter)

Anmeldungsdatum:
14. Juni 2017

Beiträge: 168

Wohnort: Klendathu

Es geht mir NICHT! darum die Dateien auszupacken, es geht darum aus den entpackten Einzielseiten die vollständige Webseite wieder aufzubauen. (Foren)Struktur, Unterordner, etc.

Thomas_Do Team-Icon

Moderator
Avatar von Thomas_Do

Anmeldungsdatum:
24. November 2009

Beiträge: 8808

Reihner schrieb:

Es geht mir NICHT! darum die Dateien auszupacken, es geht darum aus den entpackten Einzielseiten die vollständige Webseite wieder aufzubauen. (Foren)Struktur, Unterordner, etc.

Dann bitte statt Fettdruck plus Unterstreichung plus Ausrufezeichen lieber etwas mehr Info. Du kannst die Dateien entpacken? Womit (zum Nachvollziehen)? Wie sieht dann die Dateistruktur aus?

seahawk1986

Anmeldungsdatum:
27. Oktober 2006

Beiträge: 11245

Wohnort: München

Reihner schrieb:

Es geht mir NICHT! darum die Dateien auszupacken, es geht darum aus den entpackten Einzielseiten die vollständige Webseite wieder aufzubauen. (Foren)Struktur, Unterordner, etc.

Du kannst dir nur das ansehen, was archiviert wurde - je nachdem wie die Seite ursprünglich generiert wurde können da elementare Dinge fehlen, denn Server-seitige Logik(wie z.B. PHP-Skripte) bekommt man damit nicht wieder (und damit ist z.B. der Login in Foren praktisch unmöglich) - mit https://replayweb.page/ solltest du nutzen können, was in dem Archiv enthalten ist.

noisefloor Team-Icon

Anmeldungsdatum:
6. Juni 2006

Beiträge: 29567

Hallo,

also lt. der Erklärung bei Wikipedia zu WARC enthält das Archiv den Request (darin sollte die aufgerufene URL sein) und den Response (=alle zurück gelieferten Daten wie HTML, JS, CSS). Bei statischen oder quasistatischen Webseiten kannst du theoretisch daraus die Struktur rekonstruieren - wenn du alle zugehörigen WARC Dateien hast. Praktisch kann das aber alles von einfach über komplex bis unmöglich sein. Wenn die Seite selber dynamisch ist bzw. was (Stichwort: one page app) geht das gar nicht.

Gruß, noisefloor

Reihner

(Themenstarter)

Anmeldungsdatum:
14. Juni 2017

Beiträge: 168

Wohnort: Klendathu

Nach langer Suche habe ich eine, zumindest für mich, brauchbare Lösung gefunden.

  1. Ruby installieren.

  2. Wayback Machine Downloader über Ruby installieren (Wichtig: Die Wayback Machine Downloader von StrawberryMaster installieren, da die Original Wayback Machine Downloader scheinbar nicht mehr weiterentwickelt wird)

  3. Download beginnen

Tipps:

  • die Option "-t" nutzen. Da es, wenn archive.org neuere/defekte/tote/überarbeitet Snapshots hat, sonst zu Problem kommen kann.

Hinweise:

  • Auf Linux heruntergeladene Websites kann man, auf Grund von Sonderzeichen in der Ordnerstruktur (z.B. ?, :, =), nicht ohne weiteres auf andere Systeme (z.B. Windows) verschieben/kopieren.

  • So ein Download kann lange dauern. Bei mir waren es, für ~130.000 Webseiten áka ~5,5Gib, etwa 92.500 Sekunden.

Antworten |