hallo!,
ich benötige einen sed oneliner mit dem ich jegliche css-tags aus einer datei entfernen kann. es geht mir darum nur den content einer .html datei in eine textdatei zu 'extrahieren'.
das löschen der html-tags war mit "sed -e :a -e 's/<[^>]*>//g;/</N;//ba'" bisher relativ erfolgreich. evtl. müssen weitere (z.B. Javascript) ebenfalls entfernt werden.
ich habe mich auf cpan schonmal nach einem perlmodul umgesehen jedoch konnte ich kein passendes finden, lediglich welche die mir die html-tags löschen.
gruß nf