Mit der Hilfe von user_unknown sowie dem Skript
1 2 3 4 5 6 7 8 | #!/bin/sh xsel -b > /home/user/Downloads/autor_1.txt && sed -r "s#[^/]+/([^/]+)/.*#\1#" /home/user/Downloads/autor_1.txt > /home/user/Downloads/autor_2.txt && xsel -cb && sed -e "s#-# #g;" /home/user/Downloads/autor_2.txt > /home/user/Downloads/autor.txt && xsel -cb && xsel -bi < /home/user/Downloads/autor.txt && exit 0 |
ist es Möglich aus der Zeile
person objlink" itemprop="url" href="/Michael-Bartsch/!a48/"><h4 itemprop="name">Michael Bartsch</h4><h5 itemprop="jobTitle"> ...
Autorennamen in zwei Schritten zu extrahieren:
Michael-Bartsch
Michael Bartsch
Bei Doppelnamen mit Bindestrich, wie
/Alfred-Neumann-Altfrau/
/Alphra-Bertha-Krupp/
/Caesar-Brutus-Römer-Stich/
wird der erste statt der mittlere Bindestrich aus den Namen extrahiert.
Auch alle Versuche, aus dem Textteil
... >Michael Bartsch< ...
bzw. den Textteilen mit mehr als einem Bindestrich, wie z.B.
... >Caesar-Brutus-Römer-Stich< ...
gingen fehl.
Ich bitte um Hilfe!
Herzlichen Danke, Heinz