Hallo,
ich habe hier eine PDF mit Adressdaten, die Spaltenweise angeordnet sind, siehe Bild. Wie man den Metadaten entnehmen kann, wurde sie ursprünglich sogar mit LibreOffice Calc erstellt.
Ich kann die Daten zeilenweise mit pdftotext -raw entnehmen, doch dann fehlen mir die Spaltenzuordnungen. Wenn ich pdftotext -fixed 20 verwende, bekomme ich immerhin folgendes:
Pos.
Vorname
Nachname
Straße Ort Land
1 Petraa
Halmann
Im Grass 7
Aach Germany
2 Peter
Krame
Münsterplatz 27
Aachen
Germany
3 Werner
MayeStrandbuchen 4
Aachen
GermanyWie man sieht, wird die letzte Spalte "Land" nicht immer richtig getrennt ausgegeben. Noch chaotischer wird es bei Doppelnamen, oder wenn längere Adressen, wie z.B. französische vorkommen:
22 Katharine
Heinels
Im Waldbuchhaine 17 G Aachen
Germany
23 Manuela
HeinAlbert-Einstein-Straße 15A Aachen
Germany
149 Karl
Von Schliengens Geschw.-Scholl-Weg 13
Tremsdorf
Germany
196 Kurt
Annie-Christine 8 Avenue Du Petit Port
Aix Les Bains
France
496 Fábio
Pero
Rua Do Pombal Nº39 S.MateuAngra Do Heroísmo
Portugal
Das Problem ist ja, dass die Spalten nicht alle gleich breit sind. Ein Versuch per Cropping jede Spalte einzeln auszulesen mit z.B. pdftotext -W 1000 erzeugt eine Datei, wo nur FormFeed-Zeichen drin sind, genauso viele, wie die PDF Seiten hat. Möglicherweise verstehe ich da nicht die richtige Syntax.
Hat jemand da noch eine alternative Idee, wie ich die Daten Spaltenweise auslesen kann?
Bearbeitet von Thomas_Do:
Daten anonymisiert und dafür auch das Bild der Adressliste gelöscht.