ubuntuusers.de

pdfgrep

Status: Gelöst | Ubuntu-Version: Kein Ubuntu
Antworten |

Gerd_A

Anmeldungsdatum:
10. September 2020

Beiträge: 296

Guten Tag,

ich möchte PDF Dateien meiner Bank gerne mittls „pdfgrep“ nach bestimmten Kriterien durchsuchen, anzeigen und in eine eigene Datei umleiten lassen.

Dass funktioniert auch soweit, als dass ich den Suchbegriffangeben kann und die entsprechende Ausgabe erhalte, Jedoch ohne Euro-Beträge.

Es wird, seitens der PDF Datei, der Euro-Betrag (anscheinend) mit einem TAB gesondert ausgewiesen.

Mittels z.B.:

pdfgrep -iFA1 "ALDI SE" Kontoauszug_*.pdf

kann ich zwar die Beträge sehen, jedoch werden mir, durch den Parameter A1, auch Beträge die sich in der PDF-Datei unter dem Suchmuster befinden angezeigt, bzw. in meine separate Datei geschrieben.

Gibt es eine Möglichkeit mein Vorhaben umzusetzen?

Vielen Dank!

seahawk1986

Anmeldungsdatum:
27. Oktober 2006

Beiträge: 11261

Wohnort: München

Wie sehen denn die beiden Zeilen aus, die da für einen Treffer ausgegeben werden? Vermutlich muss man die nur weiter filtern.

rklm Team-Icon

Projektleitung

Anmeldungsdatum:
16. Oktober 2011

Beiträge: 13209

Gerd_A schrieb:

ich möchte PDF Dateien meiner Bank gerne mittls „pdfgrep“ nach bestimmten Kriterien durchsuchen, anzeigen und in eine eigene Datei umleiten lassen.

Extraktion von Texten aus PDF-Dateien ist notorisch schwierig, weil das eher ein Ausgabeformat als ein Dokumentenformat ist. Oft ist der Text nicht so angeordnet, wie er angezeigt wird, oder einzelne Wörter werden separat positioniert.

kann ich zwar die Beträge sehen, jedoch werden mir, durch den Parameter A1, auch Beträge die sich in der PDF-Datei unter dem Suchmuster befinden angezeigt, bzw. in meine separate Datei geschrieben.

Wenn Dir -A1 zu viel liefert, dann lass es doch weg. Ggf. musst Du auf eine Perl-Regex ausweichen. Ohne ein Beispiel wird das aber schwierig aus aus der Ferne zu lösen.

dirkolus

Anmeldungsdatum:
17. Mai 2011

Beiträge: 2178

Wohnort: dahoam

Gerd_A schrieb:

ich möchte PDF Dateien meiner Bank gerne mittls „pdfgrep“ nach bestimmten Kriterien durchsuchen, anzeigen und in eine eigene Datei umleiten lassen. [...] Gibt es eine Möglichkeit mein Vorhaben umzusetzen?

Hallo Gerd,

  • Viele Banken-Webportale bieten neben einem PDF-Kontoauszug mittlerweile auch einen CSV-Export ( ='Comma separated List" der Kontoumsätze), der sich einfacher filtern / bearbeiten lässt. Vielleicht auch Deine Bank?

Ansonsten muss man wohl zum Filtern der Ausgabe von pdfgrep (oder pdf2text / pdf2html oder anderen Tools) selbst etwas programmieren, ich bezweifle, dass es da etwas 'von der Stange' gibt.

Gerd_A

(Themenstarter)

Anmeldungsdatum:
10. September 2020

Beiträge: 296

Durch viel probieren bin ich jetzt eingermaßen zufrieden.

Mehrere Begriffe können in einer TXT-Datei definiert werden (pro Begriff eine Zeile) und mittels

der Option „-fTXT-Datei“ festgelegt.

Beispiel:

pdfgrep -FA1 -fTXTDatei *.pdf

Mit -FA[x] werden die x-Zeilen über dem Suchbegriff angezeigt.

Unter dem Link:

https://pdfgrep.org/pdfgrep.html

findet man die Syntax dazu.

Gerd_A

(Themenstarter)

Anmeldungsdatum:
10. September 2020

Beiträge: 296

dirkolus schrieb:

  • Viele Banken-Webportale bieten neben einem PDF-Kontoauszug mittlerweile auch einen CSV-Export ( ='Comma separated List" der Kontoumsätze), der sich einfacher filtern / bearbeiten lässt. Vielleicht auch Deine Bank?

Hallo dirkolus,

einen CSV Export wird mir seitens der Bank nicht angeboten.

Was auch nicht so tragisch ist, da ich dann die CSV-Datei erneut nach den Ausgaben (Firmen / Discounter usw. ) sortieren muss.

Mittels pdfgreb kann ich das ganze etwas mehr oder weniger abkürzen und automatisieren.

rklm Team-Icon

Projektleitung

Anmeldungsdatum:
16. Oktober 2011

Beiträge: 13209

Gerd_A schrieb:

Durch viel probieren bin ich jetzt eingermaßen zufrieden.

Fein! Dann bitte das Thema auf "gelöst" setzen.

Antworten |