Hallo Leute,
ich hab folgendes Problem:
Ich hab einen HTML-Quellcode in dem ca 300 Links enthalten sind. Ich möchte diese separieren, damit ich am Ende ein txt-Dokument hab, in dem jede Zweile mit einem Link beginnt und danach endet. Folgender Befehl hat mir zumindest schonmal alle Zeilen heraussortiert, die einen Link enthalten:
cat sourcecode.txt | grep html > links.txt
Jetzt hab ich ein Dokument, in dem in jeder Zeile folgende Zeichenfolge steht:
</li><li data-large-img="http://www.beispiel1.com/content/usw/unf/beispiel1.jpg" data-medium-img="http://www.beispiel1.com/content/usw/unf/beispiel1_medium.jpg"
Da ist mir der Befehl sed in die Hände gefallen. Wenn ich den Teil </li><li data-large-img=" entfernen will, passiert leider gar nichts. Ich hab das versucht mit
sed s'/</li><li data-large-img="//g' links.txt > links2.txt
Also das funktioniert natürlich nicht. Und ich hab auch bisschen rumprobiert. Das einzige was geklappt hat, war das data-large-image noch wegzubekommen. Allerdings nie die </li><li selbst einzeln auskommentiert.
Wie kann ich das entfernen im gesamten Dokument? Ist dafür sed überhaupt hilfreich oder gibt es da noch bessere Tools? Freue mich über eure Hilfe!
PS: Ich hab das ganze auf dem ubuntu-basierten easypeasy linux 1.6 ausprobiert.