Hi!
Bastele mal wieder an xsane2speech, und bin wieder auf ein "Trennungsproblem" gestoßen.
Beim Bearbeiten von Vorlagen mit Tesseract entstehen manchmal Zeilenumbrüche mit Trennungszeichen, das getrennte Wort geht aber erst auf der übernächsten Zeile weiter, als etwas wie
unter Beteiligung der drei Par- teivorsitzenden von CDU, CSU und SPD.
frostschutz hatte mir damals hier mit sed
sed -r -e 'N;s/([[:lower:]]-\n([[:lower:]][^ ]* ?)/\1\2\n/;P;D'
weitergeholfen, um Worttrenunnugen zu eliminieren, denn Ansatz hab ich auch für andere Trennungsprobleme gut nutzen können, aber mit der Leerzeile hier komme ich damit nicht klar. Die Zwischenzeile besteht nur aus einem "Zeilenvorschub", aber etwas wie
sed -r -e 'N;s/([[:lower:]]-\n)\n/\1/;P;D'
funktioniert nicht, - vermutlich weil dann noch eine Zeile involviert ist?
Es sollen auch nur solche Leerzeilen raus, die nach einem Trennungsstrich stehen, nicht alle. Weiß jemand Rat?
so long
hank