Hallo,
ich habe hier eine PDF mit Adressdaten, die Spaltenweise angeordnet sind, siehe Bild. Wie man den Metadaten entnehmen kann, wurde sie ursprünglich sogar mit LibreOffice Calc erstellt.
Ich kann die Daten zeilenweise mit pdftotext -raw
entnehmen, doch dann fehlen mir die Spaltenzuordnungen. Wenn ich pdftotext -fixed 20
verwende, bekomme ich immerhin folgendes:
Pos. Vorname Nachname Straße Ort Land 1 Petraa Halmann Im Grass 7 Aach Germany 2 Peter Krame Münsterplatz 27 Aachen Germany 3 Werner MayeStrandbuchen 4 Aachen Germany
Wie man sieht, wird die letzte Spalte "Land" nicht immer richtig getrennt ausgegeben. Noch chaotischer wird es bei Doppelnamen, oder wenn längere Adressen, wie z.B. französische vorkommen:
22 Katharine Heinels Im Waldbuchhaine 17 G Aachen Germany 23 Manuela HeinAlbert-Einstein-Straße 15A Aachen Germany 149 Karl Von Schliengens Geschw.-Scholl-Weg 13 Tremsdorf Germany 196 Kurt Annie-Christine 8 Avenue Du Petit Port Aix Les Bains France 496 Fábio Pero Rua Do Pombal Nº39 S.MateuAngra Do Heroísmo Portugal
Das Problem ist ja, dass die Spalten nicht alle gleich breit sind. Ein Versuch per Cropping jede Spalte einzeln auszulesen mit z.B. pdftotext -W 1000
erzeugt eine Datei, wo nur FormFeed-Zeichen drin sind, genauso viele, wie die PDF Seiten hat. Möglicherweise verstehe ich da nicht die richtige Syntax.
Hat jemand da noch eine alternative Idee, wie ich die Daten Spaltenweise auslesen kann?
Bearbeitet von Thomas_Do:
Daten anonymisiert und dafür auch das Bild der Adressliste gelöscht.