MrFrank
Anmeldungsdatum: 15. Mai 2020
Beiträge: 74
|
Hallo, Eine Frage zur Suche in PDFs:
ich habe einige PDFs in denen ich nicht suchen kann und die sich deswegen von baloo nicht sinnvoll indizieren lassen.
gibt beispielsweise für eine dieser Dateien diesen Output:
1370094633734 66310 319
Mtime: 1597061334 2020-08-10T14:08:54
Ctime: 1606596933 2020-11-28T21:55:33
Cached properties:
Autor: Unknown
Titel: Untitled
Dokument erstellt von: XEP 4.28.759
Erstellungsdatum: 2020-08-07T15:20:57.000Z
Interne Information
Begriffe: 1s 405is4 Mapplication Mpdf T5 Tdocument X14-unknown X15-untitled X17-4.28.759 X17-xep X24-2020-08-07T15:20:57Z a aaagemeinen aas abgerechnete abnnqnmpptv abrechnung abrechnungw adi aepot aepotinhaberw aepotnummer aeutsche aevisenkurs ag ai aie aktiv am ammtpo an anderen andernfaaas andreas ank auf auftragsart august ausaagen ausgewiesen baeiben bank beaastete befreiti bemuhtk betrag binwendungen br bro ciaiaanummer cinanzdienstaeistungen cmb crank crankfurt db dem den der des deschaft deschaftsbedingungen deschaftsraumen deschaftsverkehr desprach desprachsteianehmer die diese dolrm dortigem durch eaegnummer eandeaswahrung ein einem emsvf emuqnf enthaatenen entsprechend entweder eratungsgesprach eratungsprotokoaa erpalbrof ersteaati etwaige evoaamachtigter fa faaaenden fhnen fhr fkckobdfptboba fnaand fnformationen fono fpfk fremde fur gebuchtk gefuhrten genehmigtk geregeatk gesondert gesteaat getatigtk giat gutschrift haben hat hommissionsgeschaft hontonummer hundenservice hurs hurswert ieipzigk ieistungsempfanger ieistungsempfangersk ihm im imn in ist istk itte kapaan keine kew kominaa krk krkw l marktpreisauftrag mbw mips mit mitgaiedstaat mn mqmuo mrivatmandat mrovisionen mskmukomom nach nicht ninuop nlo nm nmkmukomom nmm nmmmm nn npsssonmmo nskqmsimm nsqims nswoq nt ntm oder oecht oestausfuhrung okpsnivu olo omom omommumt opn opnlovmkpkmnm oqh orse ovmuusn pchausstagl peaobp peite pie pitz pnr ponderbedingungen poweit ppesen prqtp pt pteuerabzug pteuerbescheinigung pteuerschuadnerschaft pumme pupporti q richten rmsatzsteuer rns rnser rnternehmer rpa rpalhanada rpnortonnmru rptd s schneaastmogaich schriftaich seinen seraußerungsveraust serfugung serkauf serwahrart sind sindi smoso sofern sumrv tahrung teaefon teiaausfuhrung tertpapierbezeichnung tertpapiere tertpapieren tertpapiergeschafte tertpapierrechnung tertsteaaung thk tk toaabo tommmmmmmn u uberprufen uchung um umsatzsteueraicher umsatzsteuerpfaichtig und unknown unsere unter untitled up usnsn vnm von vorklkkvk weaches wir wird wu wurde wurdek zeit zum zur
Dateinamen-Begriffe: F07b F08 F2020 F231290886183usd Fpdf Fwertpapierabrechnung
XAttr Begriffe:
creationDate: 2020-08-07T15:20:57Z
author: unknown
title: untitled
generator: 4.28.759 xep
Es werden also keine sinnvollen Begriffe gefunden.
Wenn ich die Datei jedoch in Acrobat unter Windows öffne, kann ich ganz normal suchen.
Wie gesagt trifft dies nur für einige Dateien zu. Irgendwelche Ideen? Grüße
Frank
|
Frieder108
Anmeldungsdatum: 7. März 2010
Beiträge: 9214
|
Guten Morgen - eine Erklärung hab ich nicht, aber eine Frage:
Wenn ich die Datei jedoch in Acrobat unter Windows öffne, kann ich ganz normal suchen.
wurden diese PDFs mit dem Acrobat erstellt und kannst du sie mit Okular ganz normal öffnen?
|
Doc_Symbiosis
Anmeldungsdatum: 11. Oktober 2006
Beiträge: 4425
Wohnort: Göttingen
|
Ich frage mich auch, ob in dem PDF vielleicht keine eingebetteter Text vorhanden ist und Acrobat mittlerweile OCR macht, falls das nicht der Fall ist. Kannst Du unter Linux wohl Textpassagen mit der Maus markieren? Das wäre schonmal ein Hinweis, ob eingebetteter Text vorhanden ist.
|
MrFrank
(Themenstarter)
Anmeldungsdatum: 15. Mai 2020
Beiträge: 74
|
Die Anzeige in Okular funktioniert einwandfrei.
Auch kann ich in Okular den Text markieren, jedoch scheint im Okular auch OCR angewendet zu sein:
Ich kann zB das Wort "Verwendungszweck" markieren (siehe Anhang). Wenn ich jedoch copy&paste machen, bekomme ich "serwendungszweckL".
- Bilder
|
Frieder108
Anmeldungsdatum: 7. März 2010
Beiträge: 9214
|
MrFrank schrieb: Wenn ich jedoch copy&paste machen, bekomme ich "serwendungszweckL".
Kannst du so eine PDF mal hier anhängen oder ist das zu privat?
|
MrFrank
(Themenstarter)
Anmeldungsdatum: 15. Mai 2020
Beiträge: 74
|
Im Anhang ein anderes unverfängliches Dokument, bei dem die selben Probleme auftreten.
Wenn ich einen Text markiere und dann copy&paste mache, erhalte ich etwas anderes.
Hoffe dies ist soweit nachvollziehbar...
|
Frieder108
Anmeldungsdatum: 7. März 2010
Beiträge: 9214
|
Du musst den Anhang auch hochladen. 😉 Edit// ist mir auch schon passiert - erst kommt ja "Anhang hinzufügen" - nachdem du hinzugefügt hast, musst du auf "Anhang hochladen" klicken → wenn du das vergisst (ist mir wie erwähnt, auch schon passiert), dann musst du einen neuen Beitrag schreiben, über "bearbeiten" bekommst du das nicht mehr in den ursprünglichen Beitrag → scheint wohl ne kleine Macke der Forensoftware zu sein.
|
MrFrank
(Themenstarter)
Anmeldungsdatum: 15. Mai 2020
Beiträge: 74
|
Frieder108 schrieb: Du musst den Anhang auch hochladen. 😉
Ach verdammt ☺
Nachdem Auswählen der Datei vergesse ich immer noch auf den Knopf zu drücken ...
- Beispiel.pdf (30.3 KiB)
- Download Beispiel.pdf
|
Frieder108
Anmeldungsdatum: 7. März 2010
Beiträge: 9214
|
Hmm, ich kann es nicht herunterladen und mit bspw. Okular öffnen - geht nur über einen neuen Tab im Firefox - wenn ich da den Text kopiere und in ein Textdokument einfüge, sieht es tatsächlich seltsam aus (siehe Bild). Mir fällt aktuell aber auch nicht ein, wie das mit dem Download geht - ich dachte immer, das geht automatisch, wenn man ein .pdf anhängt.
- Bilder
|
MrFrank
(Themenstarter)
Anmeldungsdatum: 15. Mai 2020
Beiträge: 74
|
Du kannst es nicht lokal speichern (und damit natürlich nicht mit Okular öffnen)? Merkwürdig ... Also wenn ich den aktuellen Kenntnisstand mal zusammenfasse:
Es gibt PDFs mit eingebetteten Texten und welche, wo dies nicht der Fall ist (hier scheint jetzt letzteres vorzuliegen - wie kann das überprüft werden?) Wenn der Text nicht eingebettet ist, wird anderweitig versucht darauf zuzugreifen, was unter Windows funktioniert (Anhang Screenshot), aber nicht unter Linux
- Bilder
|
Frieder108
Anmeldungsdatum: 7. März 2010
Beiträge: 9214
|
MrFrank schrieb: Du kannst es nicht lokal speichern (und damit natürlich nicht mit Okular öffnen)? Merkwürdig ...
nicht erschrecken, ich werd das Thema mal melden - evtl. kann ein Moderator erklären, warum man deine .pdf nicht runter laden kann. Also wenn ich den aktuellen Kenntnisstand mal zusammenfasse:
Es gibt PDFs mit eingebetteten Texten und welche, wo dies nicht der Fall ist (hier scheint jetzt letzteres vorzuliegen - wie kann das überprüft werden?) Wenn der Text nicht eingebettet ist, wird anderweitig versucht darauf zuzugreifen, was unter Windows funktioniert (Anhang Screenshot), aber nicht unter Linux
Wie erwähnt, die Testmöglichkeit fehlt mir jetzt natürlich - aber mal so viel → ich nutze ebenfalls Kubuntu 20.10 und der Okular ist mein Standardprogramm für PDFs - als Reserve hab ich aber noch den Master PDF Editor, der kommt immer dann zum Einsatz, wenn Okular nicht das macht, was ich will.
|
kutteldaddeldu
Anmeldungsdatum: 1. Juli 2008
Beiträge: 3586
|
Frieder108 schrieb:
nicht erschrecken, ich werd das Thema mal melden - evtl. kann ein Moderator erklären, warum man deine .pdf nicht runter laden kann.
Ich kann sie herunterladen. Ich habe aber das gleiche Problem wie MrFrank – die Texterkennung funktioniert nicht korrekt: ~: pdfgrep Gesamtkosten 9206264-Beispiel-1.pdf
~:
~: pdfgrep esamtkosten 9206264-Beispiel-1.pdf
zu fffK desamtkosten und Auswirkung der hosten auf die oendite
_ei den voraussicÜtäicÜen desamtkosten Üandeät es sicÜ um eine pcÜätzung der zu erwartenden hosten unter den genannten AnnaÜJ
die dem im oaÜmen der wieämarktdefinition empfoÜäenen AnäageÜorizont des mroduktes entspricÜtK aie voraussicÜtäicÜen desamtkosten
|
Bournless
Anmeldungsdatum: 4. Mai 2019
Beiträge: 915
|
Hallo zusammen. @Frieder108
Mach mal einen Rechts-klick auf den Link von MrFrank und dann Ziel speichern unter. @MrFrank
Ich denke mal, dass das Verhalten mit der PDF-Version zu tun hat. Die gepostete PDF-Datei ist in der (veralteten) Version 1.3.
... Enthielten PDF-Dokumente bis zur PDF-Version 1.3 lediglich Layout- aber keine Strukturinformationen, so wurde es in der PDF-Version 1.4 erstmals möglich, mit Hilfe spezieller Markierungen, den sogenannten Tags, den logischen Dokumentaufbau zu beschreiben. Tags verbessern nicht nur die Lesbarkeit von PDF-Dokumenten für Screenreader, sie sorgen auch bei einer Umwandlung von PDF in andere Dokumentenformate für bessere Konvertierungsergebnisse. ...
Quellenangabe Zur Gegenprobe ermittle die PDF-Version eines anderen PDF-Dokuments, wo es klappt.
(PDF mit Okular öffnen und dann Datei->Eigenschaften.) Gruß Bournless
|
noisefloor
Ehemaliger
Anmeldungsdatum: 6. Juni 2006
Beiträge: 29453
Wohnort: WW
|
Hallo, @Frieder108: bei mir öffnet sich das PDF auch im Firefox - aber aus dem PDF-Betrachter des Firefox heraus kann man es auch normal speichern. Ansonsten geht auch Rechtsklick auf den Link auf's PDF und dann "Ziel speichern untern...". Gruß, noisefloor
|
MrFrank
(Themenstarter)
Anmeldungsdatum: 15. Mai 2020
Beiträge: 74
|
Bournless schrieb: @MrFrank
Ich denke mal, dass das Verhalten mit der PDF-Version zu tun hat. Die gepostete PDF-Datei ist in der (veralteten) Version 1.3.
... Enthielten PDF-Dokumente bis zur PDF-Version 1.3 lediglich Layout- aber keine Strukturinformationen, so wurde es in der PDF-Version 1.4 erstmals möglich, mit Hilfe spezieller Markierungen, den sogenannten Tags, den logischen Dokumentaufbau zu beschreiben. Tags verbessern nicht nur die Lesbarkeit von PDF-Dokumenten für Screenreader, sie sorgen auch bei einer Umwandlung von PDF in andere Dokumentenformate für bessere Konvertierungsergebnisse. ...
Quellenangabe Zur Gegenprobe ermittle die PDF-Version eines anderen PDF-Dokuments, wo es klappt.
(PDF mit Okular öffnen und dann Datei->Eigenschaften.) Gruß Bournless
Hallo Bournless, in der Tat habe ich eine v1.5 Datei, mit der es funktioniert. Ob das als "Beweis" nun ausreicht, weiß ich nicht 😉
Dh also im Umkehrschluss, dass Acrobat mit den veralteten Dateien besser umgehen kann. Frage wäre noch, weshalb? Noch als Info: Ich habe unter Windows die Datei mit Edge anstelle Acrobat geöffnet und hier kann der Text ebenfalls nicht korrekt erkannt werden. VG Frank
|