ubuntuusers.de

Problem beim Suchen mit dem Evince PDF-reader

Status: Ungelöst | Ubuntu-Version: Ubuntu 14.04 (Trusty Tahr)
Antworten |

jolexin

Avatar von jolexin

Anmeldungsdatum:
22. Dezember 2009

Beiträge: 325

Wohnort: München

Seit Juli 2014 lassen sich meine Kontoauszüge, die ich monatlich als pdf-Datei erhalte, nicht mehr so wie früher verarbeiten. Ich habe den Inhalt der pdf-Kontauszüge mit Evince mithilfe der Zeichenreihen-Suche nach bestimmten Transaktionen durchsucht. Bei den pdf-Dateien ab Juli 2014 finde ich nichts mehr, obwohl die gesuchte Zeichenreihe in der pdf-Datei (d.h. im Kontauszug) vorkommt. Ich habe bei meiner Bank angefragt. Die technischen Kundenberater haben versichert, es sei am pdf-Format nichts geändert worden. Wir haben festgestellt, dass die Suche mit dem aktuellen Adobe Acrobat Reader V11 in allen pdf-Dateien weiterhin so funktioniert, wie gewünscht. Der Acrobat-Reader lässt sich in Ubuntu leider nicht mehr installieren.

Schlussfolgerung: Der Ubuntu-pdf-reader Evince 3.10.3 hat wohl einen Defekt. Er lautet: in vielen (älteren) pdf-Dateien funktioniert die Suche nach Zeichenreihen, in vielen (neueren) leider nicht. Haben andere Ubuntu-Nutzer das auch bemerkt?

Falls ich hier tatsächlich einen Defekt bemerkt habe, ...

(1) wo melde ich (wie!) den Fehler bei den Ubuntu-Entwicklern?

(1a) Eine zusätzliche Schwierigkeit: ich will ja nicht mein einziges Beweismittel - meine Kontoauszüge - posten!

(2) Gibt es eine sofortige Abhilfe?

DimMyPrp

Avatar von DimMyPrp

Anmeldungsdatum:
12. April 2014

Beiträge: Zähle...

Wohnort: Nürnberg

Mit PDF-Kontoauszügen habe ich auch oft Probleme, weil diese oft in irgend einer Form geschützt sind. Das bearbeiten dieser Dateien (vereinigen, Seiten entfernen, etc.) funktioniert oft nicht. Eine Abhilfe ist, die jeweilige PDF zuvor aus Evince heraus als PDF drucken und dann die Kopie zu verwenden.

Ich persönlich würde daher nochmal folgendes versuchen: In Evince den Kontoauszug als PDF drucken und testen, ob die neue "virtuell als PDF gedruckte" PDF-Datei nun durchsuchbar ist.

wolfgang-p

Anmeldungsdatum:
1. März 2008

Beiträge: 664

Wohnort: Wedel

Moin,

was dem Adobe-Reader betrifft: Unter Ubuntu 14.04 habe ich folgenden Reader installieren können:

AdbeRdr9.4.2-1_i386linux_deu

Der funktioniert prima.

Gruß
Wolfgang

jolexin

(Themenstarter)
Avatar von jolexin

Anmeldungsdatum:
22. Dezember 2009

Beiträge: 325

Wohnort: München

wolfgang-p schrieb:

was dem Adobe-Reader betrifft: Unter Ubuntu 14.04 habe ich folgenden Reader installieren können:

AdbeRdr9.4.2-1_i386linux_deu

Der funktioniert prima.

Super, doch wo finde ich ihn? Habe mit Synaptic und im Ubuntu SW Center vergeblich geguckt. Auch nicht bei Adobe zu finden, weil Linux als Betriebssystem nicht zur Auswahl steht.

DimMyPrp schrieb:

Ich persönlich würde daher nochmal folgendes versuchen: In Evince den Kontoauszug als PDF drucken und testen, ob die neue "virtuell als PDF gedruckte" PDF-Datei nun durchsuchbar ist.

Das ändert leider nichts an meinem Problem. Auch in der mit evince gedruckten pdf-Datei finde ich nichts.

wolfgang-p

Anmeldungsdatum:
1. März 2008

Beiträge: 664

Wohnort: Wedel

Moin,

Download versuche mal hier:

http://www.computerbase.de/downloads/office/adobe-reader/

Ich habe den schon vor längerer Zeit runter geladen und hüte die deb-Datei sorgsam.

Gruß
Wolfgang

jolexin

(Themenstarter)
Avatar von jolexin

Anmeldungsdatum:
22. Dezember 2009

Beiträge: 325

Wohnort: München

Auch mit Acrobat Reader V9 funktioniert die Suche in neueren Kontoauszügen (pdf Dateien) nicht. Beim Lesen der folgenden Ausführungen bitte daran denken, dass der aktuelle Adobe Reader V11, welcher nur unter Windows installierbar ist, so, wie gewünscht, suchen kann.

Allerdings hat mir die Altversion 9 zu folgender Einsicht verholfen:

Die Schriftarten früherer und neuerer Kontoauszüge unterscheiden sich! Die früheren wurden mit Helvetica und Courier erzeugt, die neueren mit ArialMT und Arial BoldMT. Zum Beweis siehe folgende beiden Kommando-Ergebnisse:

$ pdffonts alter-auszug.pdf # der letzte Kontoauszug mit freien Schriftarten 
name                                 type              encoding         emb sub uni object ID
------------------------------------ ----------------- ---------------- --- --- --- ---------
Helvetica                            Type 1            WinAnsi          no  no  no       2  0
Courier                              Type 1            WinAnsi          no  no  no       3  0

$ pdffonts neuer-auszug.pdf # der erste Kontoauszug mit unfreier Schriftart ArialMT
name                                 type              encoding         emb sub uni object ID
------------------------------------ ----------------- ---------------- --- --- --- ---------
Arial-BoldMT                         TrueType          WinAnsi          no  no  yes      7  0
ArialMT                              TrueType          WinAnsi          no  no  yes     10  0

Aus den Datei-Eigenschaften, Register "Schriften" entnehme ich außerdem,

(A) dass Helvetica und und Courier sogenannte freie Schriftarten sind - im Unterschied zu ArialMT

(B) dass Evince bzw AcrobatReader Schriftarten durch andere ersetzen! In meinen Beispielen sehe ich folgende Ersetzungen:

Geg.Schrift 	ersetzt Evince durch 	ersetzt Acroread9 durch

Helvetica  	Nimbus Sans L 		Adobe Sans MM
Courier		Nimbus Mono L		bleibt Courier
ArialMT 	DejaVu Sans		nichts ("unknown")
Arial BoldMT	Liberation Sans Bold	nichts ("unknown") 

In der Anzeige sehe ich für die Schriftart "unknown" nur Punkte.

Meine Schlussfolgerung:

Dass das Suchen in manchen pdf-Dateien nicht funktioniert, hängt bestimmt mit den Schriftarten und deren Ersetzung zusammen!

Daraus ergeben sich 3 Fragen:

(1) Wenn Evince z.B. Arial MT durch Nimbus Mono L ersetzt, warum klappt die Suche nicht?

(2) Gibt es eine Möglichkeit, die Ersetzungsregeln meines Evince oder meines Acrobat9 zu ändern?

(3) Müsste ich Schriftarten installieren? Wie kann ich feststellen, welche mir fehlen?

In WIki finde ich nichts zu meinen Fragen.

jolexin

(Themenstarter)
Avatar von jolexin

Anmeldungsdatum:
22. Dezember 2009

Beiträge: 325

Wohnort: München

Leider habe ich seit längerem keinen Vorschlag zu meinem pdf-Reader-Problem erhalten. Deshalb will ich die Schriften ArialMT und Arial-BoldMT installieren. Aber wie?

Ich habe den Wiki-Artikel Schriften gelesen, die Verzeichnisse ~/.local/share/fonts/truetype und /usr/local/share/fonts/truetype erzeugt.

Die Anleitung sagt nun z.B.:

1
cp -R /PFAD/ZUM/TTF-ORDNER/* ~/.local/share/fonts/truetype 

Leider sagt mir der Artikel nicht, woher ich die ttf-Dateien beziehen soll. Was ist „Pfad zum ttf-Ordner?“

Würde mich sehr über Eure Unterstützung freuen!

raldox

Anmeldungsdatum:
3. März 2012

Beiträge: 189

hallo jolexin ich habe genau das gleiche problem mit meinen kontoauszügen in evince 3.10.3.;

so würde ich gerne wissen, ob du inzwischen eine lösung gefunden hast?

jolexin

(Themenstarter)
Avatar von jolexin

Anmeldungsdatum:
22. Dezember 2009

Beiträge: 325

Wohnort: München

Leider nein! Meine "Lösung": dowmnload von csv Dateien und aneinanderfügen.

coram

Anmeldungsdatum:
17. Januar 2015

Beiträge: 645

Wohnort: Freiburg

Nachdem auch ich seit einigen Monaten meine Kontoauszüge nicht mehr mit Evince (oder anderen PDF-Readern für Linux) durchsuchen kann, nutze ich zu diesem Zweck den unter Wine installierten Adobe Reader XI. Damit die Installation klappt, müssen zusätzlich einige winetricks angewandt werden; eine Anleitung hierfür gibt es auf http://knud.aquarius.uberspace.de/wordpress/linux-adobe-reader-xi-installieren/

Gruß

coram

Bearbeitet von XM-Franz:

Linksyntax korrigiert.

woruemue

Avatar von woruemue

Anmeldungsdatum:
10. März 2011

Beiträge: Zähle...

Wohnort: Raum Köln / Bonn

Ich bin in gleicher Weise genervt von dem geschilderten Problem, bzw. war es, denn es gibt es einen Workaround, auf den ich zufällig gestoßen bin:

Alle von der Postbank automatisch zugestellten mtl. Kontoauszüge (Files PB_KAZ_...) nutzen die erwähnten Schriftarten und produzieren die Probleme beim Suchen. ABER bei manuellem Download der Kontobewegungen (Files PB_Umsatzauskunft_...) wird mit ‚FrutigerLT-Light‘ eine andere Schriftart eingesetzt mit dem angenehmen Effekt, daß in diesen PDFs die Suche funktioniert.

Das Problem der nicht funktionierenden Suche bei den Schriften ‚ArialMT‘ und ‚Arial BoldMT‘ hat m. E. nichts mit der Verfügbarkeit oder Nichtverfügbarkeit der Schriften und Ihrer Ersetzung zu tun (dazu siehe Thema „Fontconfig“, z. B. Schriften). Das Problem liegt vermutlich in einer Inkompatibilität der Schriften gegenüber dem UTF-8-Zeichensatz, in dem der am Bildschirm eingegebene Suchstring ja wohl vorliegt (s.

1
locale

).

Bearbeitet von XM-Franz:

Linksyntax korrigiert.

egi@lubuntu

Avatar von egi@lubuntu

Anmeldungsdatum:
25. November 2015

Beiträge: 71

Auch ich habe das Problem, dass ich meine (Postbank)-Kontoauszüge nicht mehr durchsuchen kann. Das Problem geht aber über evince hinaus und betrifft auch anderen Ubuntu/Linux-Tools. Ich habe immer mit pdfgrep gesucht, das funktioniert leider auch nicht mehr. pdftotext liefert je nach -enc-Parameter mehr oder weniger unleserlichen Text.

Ich habe mir die Fonts in den älteren Dokumenten angesehen, die noch durchsuchbar sind. Auch dort werden nicht eingebettete Fonts durch andere ersetzt. Auch dort ist die Codierung WinAnsi. Apropos Win... unter Windows 10 kann ich die pdf-Dokumente problemlos durchsuchen

Leider gibt es da kein pdfgrep. Außerdem ist Lubuntu inzw. meine Hauptplattform und ich möchte nicht jedes Mal Win 10 starten, nur um was zu suchen.

Für eine Idee wo man weiter suchen kann oder für eine Lösung wäre ich sehr dankbar.

raldox

Anmeldungsdatum:
3. März 2012

Beiträge: 189

ich kann auch meine (Postbank)Kontoauszuege nicht durchsuchen, habe ubuntu 14.04 und den Dokumentenbetrachter 3.10.3 Die Schriften sind unter Eigenschaften als ArialMT, ArialBoldMT usw angegeben und werden ersetzt durch Arial Negreta, DejaVu sans usw. aus den msttcorefonts. Die Codierung ist WinAnsi. Obwohl der Dokumentenbetrachter die Schriften ersetzt hat kann er aber nichts durchsuchen !?!?! Mit pdfgrep kann ich dateien im Ordner nach einem Suchwort durchsuchen lassen und es zeigt mir dann alle Dateinamen an, das ist schonmal ganz schön, aber ich kann nicht die stelle sehen, also nicht zB welche Zahl bei dem Suchwort "Gehalt" steht. Der einfache Trick, die pdf datei nochmal mit Strg+P neu anzulegen geht auch nicht, jetzt sind zwar andre Schriften, aber immer noch WinAnsi und kein Strg+F. Es müsste doch irgendeine Möglichkeit geben so ein pdf zu durchsuchen, oder?

egi@lubuntu

Avatar von egi@lubuntu

Anmeldungsdatum:
25. November 2015

Beiträge: 71

hallo raldox,

bist Du sicher, dass pdfgrep die Dateien richtig durchsucht? Ich habe das versucht und es klappt nicht. Teilwörter sind manchmal zu finden. Aber wenn ich z.B. nach meinem Namen suche, der definitiv in den Kontoauszügen steht, finde ich ihn mit pdfgrep nicht.

Zum Thema Kontext kann ich Dir Parameter für pdfgrep empfehlen:

1
pdfgrep -i -n -C 50 Gehalt *.pdf
  • -n zeigt zum Dateinamen die Seite an auf der das Suchwort gefunden wurde.

  • -C 50 zeigt 50 Zeichen Kontext zum Suchwort an. Wenn Du statt 50 das Wort line verwendest, wird die ganze Zeile angezeigt.

  • -i ignoriert Groß-/Kleinschreibung

  • weiter Parameter findest Du unter man pdfgrep

Gruß egi

raldox

Anmeldungsdatum:
3. März 2012

Beiträge: 189

Danke für den Hinweis: pdfgrep findet tatsächlich auch nur Teilwörter. Und diese Teilwörter findet Dokumentenbetrachter eben auch. Es treten solche Sachen auf, dass pdfgrep dann statt "Reprodukt" nur "eprodukt" findet, mit -C 50 wird dann "oeprodukt" angezeigt, also scheint R durch o ersetzt. Nützt also alles nichts.

Antworten |