Preisfrage zu regular expressions, Ich habe hier einen langen langen Text. Dieser hatte einen ziemlich miesen Blocksatz (jaja, die 80er) und wurde mittels OCR digitalisiert. Das Problem: Häufig treten solche: W örter a uf.
Durch den blöden Blocksatz sind die Wörter auseinandergerissen. Immerhin ist es "netterweise" so, dass bei 99,9% der Fälle immer der erste Buchstabe des Wortes betroffen ist - danach folgt ein Leerzeichen und dann der Rest des Wortes Jetzt könnnte ich hier für jedes Wort einen Befehle a la
1 | sed -i 's/K opf/Kopf/g' MeinText.txt |
abschicken, aber das wäre zu mühselig. Ich brauche daher 2 regular expressions:
1. Suche nach GROSSBUCHSTABE + Leerzeichen + beliebige Kleinbuchstaben folge [wie in: U buntu] ==⇒ Lösche das Leerzeichen.
2. Suche nach Leerzeichen + einzelner Kleinbuchstabe + Leerzeichen + beliebige Kleinbbuchstaben [wie in: das ist d oof] ==⇒ Lösche das zweite Leerzeichen.
Wer ist so schlau und weiss wie es geht, so dass ich (theoretisch) nur zwei "sed"-Befehle abschicken müsste um den Text grob zu fixen?