sed von bis Textabschnitt extrahieren

« Vorherige1Nächste »

Status: Gelöst | Ubuntu-Version: Ubuntu 11.04 (Natty Narwhal)
Antworten |

bongobong

Anmeldungsdatum:
12. Dezember 2008

Beiträge: 1820

Wohnort: Hamburg

Zitieren

5. Juli 2011 11:29

Hallo,

ich würde gerne mit SED oder einem ähnlichen Tool aus einer HTML-Datei eine Tabelle extrahieren und in eine andere Datei speichern, also von "<table" bis "/table".

Leider konnte ich auf die schnelle nur finden, wie man einen Definierten Bereich entfernt, nicht aber in einer anderen Datei speichert.

Kann mir da jemand weiterhelfen?

Danke

theinlein

Anmeldungsdatum:
29. Dezember 2007

Beiträge: 1279

Zitieren

5. Juli 2011 11:33 (zuletzt bearbeitet: 5. Juli 2011 11:35)

... ich nehme für Abschnitte immer awk, der hat das übersichtlich drin

awk '/<table/,/\/table>/  { print $0; }'  meineHtml.html

ggf. willst du den Text in der Zeile vor '<table ...>' - falls es ihn geben sollte - noch abschneiden? ... oder den hinter '</table>' auch?

casati

Anmeldungsdatum:
26. November 2010

Beiträge: 296

Wohnort: Regensburg (Umland)

Zitieren

5. Juli 2011 11:35

Funktioniert Umlenkung von STDOUT nicht - bzw. bringt nicht das von Dir gewünschte Ergebnis?

Beste Grüße

bongobong

(Themenstarter)

Anmeldungsdatum:
12. Dezember 2008

Beiträge: 1820

Wohnort: Hamburg

Zitieren

5. Juli 2011 11:40 (zuletzt bearbeitet: 5. Juli 2011 12:08)

awk '/<table/,/\/table>/ { print $0; }' meineHtml.html

Danke, macht genau was ich will (wenn man Befehl in neue Datei leitet [>])

ggf. willst du den Text in der Zeile vor '<table ...>' - falls es ihn geben sollte - noch abschneiden? ... oder den hinter '</table>' auch?

In dem Fall glücklicherweise nicht nötig, wäre aber auch interessant wie xD. Aus dem Text muss ich allerdings noch den Bereich zwischen dem 1. <span blablup /span> entfernen. Da bin ich gerade noch am Suchen wie ich das mache, dass nicht alle "span" gelöscht werden.

user_unknown

Anmeldungsdatum:
10. August 2005

Beiträge: 17622

Wohnort: Berlin

Zitieren

5. Juli 2011 12:23

Mit sed -n (no printing by default) wird die Ausgabe von allem unterdrückt:

1	sed -n '/<table/,/\/table>/p' xy.html

..., nur von <table bis /table wird dann doch gePrinted. Umleitung in Datei wie bei AWK.

bongobong

(Themenstarter)

Anmeldungsdatum:
12. Dezember 2008

Beiträge: 1820

Wohnort: Hamburg

Zitieren

5. Juli 2011 15:15

user unknown schrieb:

Mit sed -n (no printing by default) wird die Ausgabe von allem unterdrückt:
1
sed -n '/<table/,/\/table>/p' xy.html
..., nur von <table bis /table wird dann doch gePrinted. Umleitung in Datei wie bei AWK.

Das ist natürlich sicherer, falls doch mal was hinter /table> stehen sollte.

bongobong

(Themenstarter)

Anmeldungsdatum:
12. Dezember 2008

Beiträge: 1820

Wohnort: Hamburg

Zitieren

6. Juli 2011 19:18

Das mit dem umwandeln ist gar nicht so einfach, zuerst suche ich dos2unix und unix2dos von sysutils aber das gibt es wohl nicht mehr. flip mein die Datei wäre eine Binärdatei und ignoriert sie. Aber ich habe es geschafft mit dem Tool recode, das hier fand ich ganz nett: JuergenF schrieb:

Als Bash-Alias gehts auch:

alias dos2unix='recode ibmpc..lat1'
alias unix2dos='recode lat1..ibmpc'

Jedenfalls sieht es nun so aus:

##Tabelle extrahieren
sed -n '/<table/,/\/table>/p' FILHP473.htm > FILHP473.htm_table

#In UNIX umwandeln
recode ibmpc..lat1 FILHP473.htm_table

#das ersten Span-Ende um ein NEUNL erweitern
sed -e "0,/<\/span>/s//<\/span>NEUNL/" FILHP473.htm_table > neu

#alle (Unix!)Zeilenumbrüche durch ALTNL ersetzen
sed ':a;N;$!ba;s/\n/ALTNL/g' FILHP473.htm_table > temp

#den gewünschten snap-Tag entfernen
sed -e "0,/<span.*\/span>/s///" temp > temp2

# "ALTNL" wieder in Zeilenumbrüche umwandeln
sed -e "s/ALTNL/\n/g" temp2 > FILHP473.htm_table

Werde ich natürlich noch optimieren, sed-Befehle verketten usw. aber es funktioniert.

Danke an alle !!!

track

Anmeldungsdatum:
26. Juni 2008

Beiträge: 7174

Wohnort: Wolfen (S-A)

Zitieren

7. Juli 2011 00:28 (zuletzt bearbeitet: 7. Juli 2011 01:04)

Vielleicht doch mal ein paar Bemerkungen dazu:

So eine HTML-Seite ist der Sache nach ja ein XML-Dokument, und dabei sind zeilenorientierte Tools einfach denkbar ungeeignet.
(Du siehst ja selbst, welche Verrenkungen Du machen musst, und ganz fehlerfrei kommt die Tabelle hinterher immer noch nicht heraus)
Nimm besser xmlstarlet (→ http://xmlstar.sourceforge.net/doc/UG/xmlstarlet-ug.html ) oder xpath, das arbeitet sauber nach Tags und nicht nach Zeilen.
Die Win..-Zeilenenden wirst Du auch mit einem einfachen sed 's/\r//' los. Dafür brauchst Du wirklich nicht recode installieren.
(falls du tatsächlich den Zeichensatz ändern willst, ist iconv dafür bereits installiert. Wenn Du dos2unix suchst, findest Du es über die Paketverwaltung)

Beispiele, wie man xmlstarlet und xpath verwenden kann, findest Du im Forum z.B. hier, hier und hier.
Vielleicht liefere ich später noch einen konkreten Vorschlag für Deine Tabelle nach. (ich weiß noch nicht, ob / wann ich dazu komme)

LG,

track

Edit: Ich sehe gerade auf deinem Parallelthread, dass Du dort in Salamitaktik noch weitere Stückchen wegschneiden willst.
Kannst Du denn nicht einmal verraten, was Du am Ende positiv übrig behalten willst ? - dann wird die Sache mit den XML-tools viel einfacher.

bongobong

(Themenstarter)

Anmeldungsdatum:
12. Dezember 2008

Beiträge: 1820

Wohnort: Hamburg

Zitieren

7. Juli 2011 03:07

Das ist kein Parallelthread, der hier war eigentlich fertig, ich hab das letzte nur im falschen geposted xD

Also hier ging es um das ausschneiden, in diesem hier um das ersetzen eines Musters über mehrere Zeilen: http://forum.ubuntuusers.de/topic/sed-bereich-ausschneiden-muster-entfernen/

« Vorherige1Nächste »

Antworten |

« Vorheriges Thema Nächstes Thema »