Interessant! Wie wurde die Beispieldatei erstellt? Wenn ich das Ganze durch Tesseract "jage", bekomme ich ein PDF, das neben einer Bilddatei einen mehr oder weniger korrekten Text enthält (siehe Anhang). Also, OCR unter Linux kann den Text durchaus sicher erkennen.
Suche in pdf
Moderator
Anmeldungsdatum: Beiträge: 8743 |
|
||
Anmeldungsdatum: Beiträge: 9214 |
ja Danke - da stand ich wohl auf dem Schlauch. Zum Thema - ja, egal mit welchem Programm ich das .pdf öffne, das Ergebnis nach einem "copy+paste" ergibt keinen Sinn und ist unleserlich. Hmm, da fällt mir spontan nichts dazu ein - so was hatte ich mit eigenen PDFs noch nie. ☹ |
||
(Themenstarter)
Anmeldungsdatum: Beiträge: 74 |
Das Dokument kommt von meiner Bank ☺ Jetzt habe ich das vorher erwähnte "Master PDF Editor" ebenso ausprobiert - mit den Standard Einstellungen kann der Text ebenfalls nicht durchsucht werden. Also müsste man ebenso eine Texterkennung anwerfen. Es scheint also kein Weg an einer OCR vorbei zu führen. Da ich im Gegensatz dazu unter Windows mit Acrobat keine Fehler im Text habe (was bei einer OCR ja hin und wieder passen kann), scheint da noch ein andere Weg gegangen worden zu sein. |
||
Anmeldungsdatum: Beiträge: 915 |
und
Die Antworten dazu findet man in der von mir genannten Quelle im Unterpunkt 6.1 Einfach mal die einzeln Unterpunkte durchlesen. Da steht, rund um das Thema PDF, viel interessantes Zeugs drin. 😉 |
||
(Themenstarter)
Anmeldungsdatum: Beiträge: 74 |
Danke Dir, dass ist in der Tat eine sehr gute Quelle! |
||
Anmeldungsdatum: Beiträge: 915 |
Es freut mich, dass Dir weitergeholfen werden konnte. Bitte nicht vergessen, diesen Thread noch als gelöst zu markieren. Gruß |
||
(Themenstarter)
Anmeldungsdatum: Beiträge: 74 |
Jep, mache ich! Noch eine Zusatzinformation: ich habe auch PDFs v1.3, in der das Suchen und copy&paste funktioniert. Dies sind dann wohl Dateien, in denen der Text eingebettet ist. VG |
||
Moderator, Webteam
Anmeldungsdatum: Beiträge: 5459 |
In PDFs kann man allerlei Quark machen, und das Ergebnis sieht im Betrachter immer noch leserlich aus. Meine spontane Theorie waere, dass diese Verunstaltung Absicht ist um Copy & Paste zu verhindern. Ich sehe jedenfalls keinen Fehler in Inyoka oder bei ubuntuusers im Allgemeinen. |
||
Moderator
Anmeldungsdatum: Beiträge: 8743 |
Dagegen spricht aber, dass unter Windows Copy & Paste einwandfrei funktioniert.
Das sicher nicht. Aber da könnte schon ein Fehler oder mangelnde Fehlertoleranz in einer Linux-Bibliothek vorliegen. Um einen Bug-Report einzureichen müsste man aber erst einmal wissen, welcher Code verantwortlich ist. |
||
Anmeldungsdatum: Beiträge: 1 |
Ich hatte das gleiche Problem mit den neuen Kontoauszügen der Postbank seit Januar 2023 (pdf producer XEP 4.28.759). Ich nutze folgenden workaround: Umwandeln mit pdf2ps nach ps und anschließend wieder zurückwandeln mit ps2pdf nach pdf. Danach geht wieder copy+paste, 'pdfgrep' (zum Durchsuchen) etc. Anbei mein kleines Skript dazu 'fix_pdf_files.sh':
PS: Ich nutze Debian 11, aber das sollte keinen Unterschied machen. |