Hallo zusammen,
ich muss HTML Websites nach bestimmten Links durchsuchen und diese dann in eine Textdatei speichern um diese zu späterem Zeitpunkt einem Downloadmanager zu übergeben.
In der HTML Datei sind die Links dann im Format
1 | <a href="https://hoster.com/123456789" class="bbcode-link">... |
wobei ich dann in der entstehenden Textdatei stehen haben will
https://hoster.com/123456789
Mit
1 | egrep -o https://hoster.com/.* "page.html" >> "links.txt" |
erhalte ich allerdings die komplette Zeile hinter dem hoster.com.
Wie kann ich den Befehl abändern, dass er wirklich nur die URL nimmt?
PS: hoster.com ist wichtig, da in der HTML noch viele andere Links sind, die aber nicht mit aufgenommen werden sollen.