Izmir Übül schrieb:
Wie sind denn die Daten und Realzahlen formatiert?
Nein, ist schon einheitlich im Format TT.MM.JJ.
Und Realzahlen interessieren jetzt nicht mehr?
egrep -oh "[0-3][0-9]\.[0-1][0-9]\.[0-9][0-9]" quelle.html > resultat.txt
würde Datums rauspicken, und in eine Datei schreiben, jedoch auch alles außerhalb von Tables.
So:
sed -n "/<table/,/<\/table/p" quelle.html | egrep -oh "[0-3][0-9]\.[0-1][0-9]\.[0-9][0-9]" > resultat.txt
würde sed vorab alles herausfiltern, was zwischen <table und </table steht, allerdings ohne zu berücksichtigen, ob eines der oder beide Tags mit ←- auskommentiert ist.
Falls Hello Worlds Code bereits einen Filter auf HTML-Tabellen enthält bitte ich um Pardon. Wenn die Tabellen nie auskommentierte Tabellen enthalten ist der Code oben nicht schlecht.