Hallo, ich durchsuche viele pdf-Dateien mit pdfgrep. Das dauert aber jeweils sehr lange. Daher suche ich ein Programm aus dem Ubuntu Repository, in dem ich viele OCR-gewandelte pdf-Dateien verwalten kann, welches den Text in den pdf-Dateien indiziert, so dass ich sehr schnell nach Suchbegriffen suchen kann - und zwar mit einer Such-Syntax, d. h. mit Operatoren. Denn nur nach einzelnen Begriffen zu suchen wäre nicht ausreichend. Wisst Ihr da ein Programm?
Text aus pdf-Dateien indizieren
Anmeldungsdatum: Beiträge: 133 |
|
||||||
Anmeldungsdatum: Beiträge: 12067 |
Hallo! Baloo der KDE-Community kann das, ist allerdings etwas unpassend für einen Ubuntu-Unterbau. Du könntest aber mal nachprüfen, ob der tracker-miner (?) von Gnome das nicht auch kann. |
||||||
Anmeldungsdatum: Beiträge: 2209 |
Du hast doch den tracker schon drauf ... 😎
Vielleich nochmal explizit aufwecken? https://wiki.ubuntuusers.de/Desktopsuchmaschinen/ Die haben aber alle ihre Vor-/Nachteile, unbedingt vorher informieren! P.S. poppler und tracker sind nicht gerade "Hightech". |
||||||
Anmeldungsdatum: Beiträge: 38 Wohnort: Köln |
Ich könnte mir vorstellen, dass paperwork genau diese Anforderungen erfüllt. //wiki.ubuntuusers.de/Paperwork/: Ich verwende dieses Programm schon länger für Dokumentenmanagment, seit 20.04 ist dies auch aus den Quellen installierbar. |
||||||
(Themenstarter)
Anmeldungsdatum: Beiträge: 133 |
Hab Paperwork installiert, ging problemlos über "Ubuntu Software". Die pdf-Dateien konnte ich auch einfach importieren. Nur sind die ganzen pdf-Datein bereits OCR-gewandelt, teilweise aufwendig wg. Fraktur-Schrift. Aber das Paperwork scheint die vorhandene OCR-Wandlung nicht zu nutzen. Weiß jemand, ob ich das irgendwie einstellen kann? |
||||||
Anmeldungsdatum: Beiträge: 2209 |
Der Vorschlag mit Paperworks ist sicher gut gemeint, hat aber mit deiner Ausgangsfragestellung nichts zu tun. https://wiki.ubuntuusers.de/Paperwork/ Das ist ein eigenständiger Workflow, Scannen, OCR, Indizieren, Suchen. PDF kann im Prinzip jede Desktopsuchmaschine, wie gut ist halt eine andere Frage. ☹ balloo ist KDE und tracker Gnome, aber ... P.S. Möglicherweise kann Paperworks die PDF "umwandeln/aufsprengen", dazu würde ich dann aber einen neuen Thread aufmachen. Kenne das Programm nicht! |
||||||
Anmeldungsdatum: Beiträge: 38 Wohnort: Köln |
Paperwork verwendet tesseract für die Texterkennung, tesseract muss daher installiert sein. Paperwork nimmt beim Einscannen von Texten oder auch beim Import von pdf-Dateien die Texterkennung vor, die Sprache kann jeweils ausgewählt werden. Ich bin nicht der Meinung, dass der Vorschlag mit Paperwork an der Ausgangsfrage vorbeigeht, die Frage lautete ja "...suche ich ein Programm aus dem Ubuntu Repository, in dem ich viele OCR-gewandelte pdf-Dateien verwalten kann...". Paperwork ist ein einfaches Dokumentenmanagementprogramm, das importierte pdf mit Schlagworten versieht und indiziert. Damit wird eine Suche nach Inhalten in einem Wust von pdf-Dateien (zum Beispiel Rechnungen) massiv vereinfacht. Bedeutet aber auch, insofern gebe ich hakel2022 recht, dass jede pdf beim Import zumindest mit den Schlagworten versehen werden muss. Möglicherweise wäre aber auch Recoll ein Versuch wert. |
||||||
Anmeldungsdatum: Beiträge: 2209 |
@nocairns - das sollte keine Kritik an dich sein! Ich habe deinen Vorschlag als Alternative aufgefaßt.
Du meinst, die Dokumente müssen manuell mit Schlagworten "Tags" versehen werden ? Vorteil formatunabhängig, Nachteil "saumäßige" Arbeit.
Darunter verstehe ich keine Tags, aber alles ist relativ ... P.S. Bei Dokumenten sind mir PDF einfach sympathisch als Format. |
||||||
(Themenstarter)
Anmeldungsdatum: Beiträge: 133 |
Ich meine, dass ich meine Vielzahl an OCR-gewandelten Dateien wie eine Datenbank durchsuchen kann, z. B. suche ich nach "300g & Stahl* not Holz" oder ähnlich, eben mit Operatoren. ALLE Wörter sollen indiziert werden, es soll nicht nochmal OCR-gewandelt werden, da die OCR-Erkennung schon passiert und sehr gut ist, zudem seehr umfangreich war. |
||||||
Anmeldungsdatum: Beiträge: 2209 |
Funktioniert tracker nicht? Ist die Suchfunktion im Nautilus bei Gnome. ... war nie so dolle ... 🐸 |
||||||
(Themenstarter)
Anmeldungsdatum: Beiträge: 133 |
tracker findet super schnell Begriffe in meinen pdf-Dateien. Das ist sehr gut. Aber ich kann bisher nur nach ganzen Wörtern suchen. Nützlich wäre z. B. eine Suchsyntax, womit man flexibler ist: Stuhl (max. 3 Wörter Abstand) Tisch oder Stuhl AND Tisch oder Ma(u|r)s zum finden von Mars und auch Maus usw. geht das auch und wo finde ich dazu die möglichen Operatoren? |
||||||
Anmeldungsdatum: Beiträge: 11176 Wohnort: München |
Tracker bietet SPARQL Abfragen an - vgl. https://manpages.ubuntu.com/manpages/focal/man1/tracker-sparql.1.html - grundlegend kann das mit der Tracker-Version aus Ubuntu 20.04 so aussehen (vgl. https://wiki.gnome.org/Projects/Tracker/Documentation/Examples/SPARQL/FTS):
Man kann auch reguläre Ausdrücke nutzen, um den indizierten Text aus einem Dokument zu filtern:
Die Unterstützung für Reguläre Ausdrücke scheint allerdings sehr beschränkt, so dass ich mir überlegen würde das mit einem anderen Programm nachzuverarbeiten, nachdem man die initiale Eingrenzung vorgenommen hat (z.B. für Abstände zwischen Wortne) - wenn man das hübsch programmatisch machen will, würde ich direkt über das DBus-Interface von
|
||||||
(Themenstarter)
Anmeldungsdatum: Beiträge: 133 |
Hallo seahawk1986, das ist sehr gut, vielen Dank. Mit regulären Ausdrücken müsste ich klar kommen. |