ubuntuusers.de

Suche in pdf

Status: Gelöst | Ubuntu-Version: Kubuntu 20.10 (Groovy Gorilla)
Antworten |

MrFrank

Anmeldungsdatum:
15. Mai 2020

Beiträge: 74

Hallo,

Eine Frage zur Suche in PDFs: ich habe einige PDFs in denen ich nicht suchen kann und die sich deswegen von baloo nicht sinnvoll indizieren lassen.

1
balooshow -x 

gibt beispielsweise für eine dieser Dateien diesen Output:

1370094633734 66310 319
        Mtime: 1597061334 2020-08-10T14:08:54
        Ctime: 1606596933 2020-11-28T21:55:33
        Cached properties:
                Autor: Unknown
                Titel: Untitled
                Dokument erstellt von: XEP 4.28.759
                Erstellungsdatum: 2020-08-07T15:20:57.000Z

Interne Information
Begriffe: 1s 405is4 Mapplication Mpdf T5 Tdocument X14-unknown X15-untitled X17-4.28.759 X17-xep X24-2020-08-07T15:20:57Z a aaagemeinen aas abgerechnete abnnqnmpptv abrechnung abrechnungw adi aepot aepotinhaberw aepotnummer aeutsche aevisenkurs ag ai aie aktiv am ammtpo an anderen andernfaaas andreas ank auf auftragsart august ausaagen ausgewiesen baeiben bank beaastete befreiti bemuhtk betrag binwendungen br bro ciaiaanummer cinanzdienstaeistungen cmb crank crankfurt db dem den der des deschaft deschaftsbedingungen deschaftsraumen deschaftsverkehr desprach desprachsteianehmer die diese dolrm dortigem durch eaegnummer eandeaswahrung ein einem emsvf emuqnf enthaatenen entsprechend entweder eratungsgesprach eratungsprotokoaa erpalbrof ersteaati etwaige evoaamachtigter fa faaaenden fhnen fhr fkckobdfptboba fnaand fnformationen fono fpfk fremde fur gebuchtk gefuhrten genehmigtk geregeatk gesondert gesteaat getatigtk giat gutschrift haben hat hommissionsgeschaft hontonummer hundenservice hurs hurswert ieipzigk ieistungsempfanger ieistungsempfangersk ihm im imn in ist istk itte kapaan keine kew kominaa krk krkw l marktpreisauftrag mbw mips mit mitgaiedstaat mn mqmuo mrivatmandat mrovisionen mskmukomom nach nicht ninuop nlo nm nmkmukomom nmm nmmmm nn npsssonmmo nskqmsimm nsqims nswoq nt ntm oder oecht oestausfuhrung okpsnivu olo omom omommumt opn opnlovmkpkmnm oqh orse ovmuusn pchausstagl peaobp peite pie pitz pnr ponderbedingungen poweit ppesen prqtp pt pteuerabzug pteuerbescheinigung pteuerschuadnerschaft pumme pupporti q richten rmsatzsteuer rns rnser rnternehmer rpa rpalhanada rpnortonnmru rptd s schneaastmogaich schriftaich seinen seraußerungsveraust serfugung serkauf serwahrart sind sindi smoso sofern sumrv tahrung teaefon teiaausfuhrung tertpapierbezeichnung tertpapiere tertpapieren tertpapiergeschafte tertpapierrechnung tertsteaaung thk tk toaabo tommmmmmmn u uberprufen uchung um umsatzsteueraicher umsatzsteuerpfaichtig und unknown unsere unter untitled up usnsn vnm von vorklkkvk weaches wir wird wu wurde wurdek zeit zum zur 
Dateinamen-Begriffe: F07b F08 F2020 F231290886183usd Fpdf Fwertpapierabrechnung 
XAttr Begriffe: 
creationDate: 2020-08-07T15:20:57Z
author: unknown
title: untitled
generator: 4.28.759 xep

Es werden also keine sinnvollen Begriffe gefunden. Wenn ich die Datei jedoch in Acrobat unter Windows öffne, kann ich ganz normal suchen. Wie gesagt trifft dies nur für einige Dateien zu.

Irgendwelche Ideen?

Grüße Frank

Frieder108

Avatar von Frieder108

Anmeldungsdatum:
7. März 2010

Beiträge: 9555

Guten Morgen - eine Erklärung hab ich nicht, aber eine Frage:

Wenn ich die Datei jedoch in Acrobat unter Windows öffne, kann ich ganz normal suchen.

wurden diese PDFs mit dem Acrobat erstellt und kannst du sie mit Okular ganz normal öffnen?

Doc_Symbiosis

Avatar von Doc_Symbiosis

Anmeldungsdatum:
11. Oktober 2006

Beiträge: 4452

Wohnort: Göttingen

Ich frage mich auch, ob in dem PDF vielleicht keine eingebetteter Text vorhanden ist und Acrobat mittlerweile OCR macht, falls das nicht der Fall ist.

Kannst Du unter Linux wohl Textpassagen mit der Maus markieren? Das wäre schonmal ein Hinweis, ob eingebetteter Text vorhanden ist.

MrFrank

(Themenstarter)

Anmeldungsdatum:
15. Mai 2020

Beiträge: 74

Die Anzeige in Okular funktioniert einwandfrei. Auch kann ich in Okular den Text markieren, jedoch scheint im Okular auch OCR angewendet zu sein: Ich kann zB das Wort "Verwendungszweck" markieren (siehe Anhang). Wenn ich jedoch copy&paste machen, bekomme ich "serwendungszweckL".

Bilder

Frieder108

Avatar von Frieder108

Anmeldungsdatum:
7. März 2010

Beiträge: 9555

MrFrank schrieb:

Wenn ich jedoch copy&paste machen, bekomme ich "serwendungszweckL".

Kannst du so eine PDF mal hier anhängen oder ist das zu privat?

MrFrank

(Themenstarter)

Anmeldungsdatum:
15. Mai 2020

Beiträge: 74

Im Anhang ein anderes unverfängliches Dokument, bei dem die selben Probleme auftreten. Wenn ich einen Text markiere und dann copy&paste mache, erhalte ich etwas anderes. Hoffe dies ist soweit nachvollziehbar...

Frieder108

Avatar von Frieder108

Anmeldungsdatum:
7. März 2010

Beiträge: 9555

Du musst den Anhang auch hochladen. 😉

Edit//

ist mir auch schon passiert - erst kommt ja "Anhang hinzufügen" - nachdem du hinzugefügt hast, musst du auf "Anhang hochladen" klicken → wenn du das vergisst (ist mir wie erwähnt, auch schon passiert), dann musst du einen neuen Beitrag schreiben, über "bearbeiten" bekommst du das nicht mehr in den ursprünglichen Beitrag → scheint wohl ne kleine Macke der Forensoftware zu sein.

MrFrank

(Themenstarter)

Anmeldungsdatum:
15. Mai 2020

Beiträge: 74

Frieder108 schrieb:

Du musst den Anhang auch hochladen. 😉

Ach verdammt ☺ Nachdem Auswählen der Datei vergesse ich immer noch auf den Knopf zu drücken ...

Beispiel.pdf (30.3 KiB)
Download Beispiel.pdf

Frieder108

Avatar von Frieder108

Anmeldungsdatum:
7. März 2010

Beiträge: 9555

Hmm, ich kann es nicht herunterladen und mit bspw. Okular öffnen - geht nur über einen neuen Tab im Firefox - wenn ich da den Text kopiere und in ein Textdokument einfüge, sieht es tatsächlich seltsam aus (siehe Bild).

Mir fällt aktuell aber auch nicht ein, wie das mit dem Download geht - ich dachte immer, das geht automatisch, wenn man ein .pdf anhängt.

Bilder

MrFrank

(Themenstarter)

Anmeldungsdatum:
15. Mai 2020

Beiträge: 74

Du kannst es nicht lokal speichern (und damit natürlich nicht mit Okular öffnen)? Merkwürdig ...

Also wenn ich den aktuellen Kenntnisstand mal zusammenfasse:

  • Es gibt PDFs mit eingebetteten Texten und welche, wo dies nicht der Fall ist (hier scheint jetzt letzteres vorzuliegen - wie kann das überprüft werden?)

  • Wenn der Text nicht eingebettet ist, wird anderweitig versucht darauf zuzugreifen, was unter Windows funktioniert (Anhang Screenshot), aber nicht unter Linux

Bilder

Frieder108

Avatar von Frieder108

Anmeldungsdatum:
7. März 2010

Beiträge: 9555

MrFrank schrieb:

Du kannst es nicht lokal speichern (und damit natürlich nicht mit Okular öffnen)? Merkwürdig ...

nicht erschrecken, ich werd das Thema mal melden - evtl. kann ein Moderator erklären, warum man deine .pdf nicht runter laden kann.

Also wenn ich den aktuellen Kenntnisstand mal zusammenfasse:

  • Es gibt PDFs mit eingebetteten Texten und welche, wo dies nicht der Fall ist (hier scheint jetzt letzteres vorzuliegen - wie kann das überprüft werden?)

  • Wenn der Text nicht eingebettet ist, wird anderweitig versucht darauf zuzugreifen, was unter Windows funktioniert (Anhang Screenshot), aber nicht unter Linux

Wie erwähnt, die Testmöglichkeit fehlt mir jetzt natürlich - aber mal so viel → ich nutze ebenfalls Kubuntu 20.10 und der Okular ist mein Standardprogramm für PDFs - als Reserve hab ich aber noch den Master PDF Editor, der kommt immer dann zum Einsatz, wenn Okular nicht das macht, was ich will.

kutteldaddeldu Team-Icon

Anmeldungsdatum:
1. Juli 2008

Beiträge: 3586

Frieder108 schrieb:

nicht erschrecken, ich werd das Thema mal melden - evtl. kann ein Moderator erklären, warum man deine .pdf nicht runter laden kann.

Ich kann sie herunterladen. Ich habe aber das gleiche Problem wie MrFrank – die Texterkennung funktioniert nicht korrekt:

~: pdfgrep Gesamtkosten 9206264-Beispiel-1.pdf
~: 
~: pdfgrep esamtkosten 9206264-Beispiel-1.pdf
                                            zu fffK desamtkosten und Auswirkung der hosten auf die oendite
                                               _ei den voraussicÜtäicÜen desamtkosten Üandeät es sicÜ um eine pcÜätzung der zu erwartenden hosten unter den genannten AnnaÜJ
                                               die dem im oaÜmen der wieämarktdefinition empfoÜäenen AnäageÜorizont des mroduktes entspricÜtK aie voraussicÜtäicÜen desamtkosten

Bournless

Anmeldungsdatum:
4. Mai 2019

Beiträge: 915

Hallo zusammen.

@Frieder108 Mach mal einen Rechts-klick auf den Link von MrFrank und dann Ziel speichern unter.

@MrFrank Ich denke mal, dass das Verhalten mit der PDF-Version zu tun hat. Die gepostete PDF-Datei ist in der (veralteten) Version 1.3.

... Enthielten PDF-Dokumente bis zur PDF-Version 1.3 lediglich Layout- aber keine Strukturinformationen, so wurde es in der PDF-Version 1.4 erstmals möglich, mit Hilfe spezieller Markierungen, den sogenannten Tags, den logischen Dokumentaufbau zu beschreiben. Tags verbessern nicht nur die Lesbarkeit von PDF-Dokumenten für Screenreader, sie sorgen auch bei einer Umwandlung von PDF in andere Dokumentenformate für bessere Konvertierungsergebnisse. ...

Quellenangabe

Zur Gegenprobe ermittle die PDF-Version eines anderen PDF-Dokuments, wo es klappt. (PDF mit Okular öffnen und dann Datei->Eigenschaften.)

Gruß
Bournless

noisefloor Team-Icon

Anmeldungsdatum:
6. Juni 2006

Beiträge: 29567

Hallo,

@Frieder108: bei mir öffnet sich das PDF auch im Firefox - aber aus dem PDF-Betrachter des Firefox heraus kann man es auch normal speichern. Ansonsten geht auch Rechtsklick auf den Link auf's PDF und dann "Ziel speichern untern...".

Gruß, noisefloor

MrFrank

(Themenstarter)

Anmeldungsdatum:
15. Mai 2020

Beiträge: 74

Bournless schrieb:

@MrFrank Ich denke mal, dass das Verhalten mit der PDF-Version zu tun hat. Die gepostete PDF-Datei ist in der (veralteten) Version 1.3.

... Enthielten PDF-Dokumente bis zur PDF-Version 1.3 lediglich Layout- aber keine Strukturinformationen, so wurde es in der PDF-Version 1.4 erstmals möglich, mit Hilfe spezieller Markierungen, den sogenannten Tags, den logischen Dokumentaufbau zu beschreiben. Tags verbessern nicht nur die Lesbarkeit von PDF-Dokumenten für Screenreader, sie sorgen auch bei einer Umwandlung von PDF in andere Dokumentenformate für bessere Konvertierungsergebnisse. ...

Quellenangabe

Zur Gegenprobe ermittle die PDF-Version eines anderen PDF-Dokuments, wo es klappt. (PDF mit Okular öffnen und dann Datei->Eigenschaften.)

Gruß
Bournless

Hallo Bournless,

in der Tat habe ich eine v1.5 Datei, mit der es funktioniert. Ob das als "Beweis" nun ausreicht, weiß ich nicht 😉 Dh also im Umkehrschluss, dass Acrobat mit den veralteten Dateien besser umgehen kann. Frage wäre noch, weshalb? Noch als Info: Ich habe unter Windows die Datei mit Edge anstelle Acrobat geöffnet und hier kann der Text ebenfalls nicht korrekt erkannt werden.

VG
Frank

Antworten |