OCR-Software gesucht › Programme › Ubuntu verwenden › Forum › ubuntuusers.de

OCR-Software gesucht

« Vorherige 123 Nächste »

Status: Ungelöst | Ubuntu-Version: Lubuntu 14.04 (Trusty Tahr)
Antworten |

thdeitmer Anmeldungsdatum: 15. Januar 2015 Beiträge: 36	Zitieren 16. Januar 2015 16:37 so, das Script verbessert sich auf meinem PC: - die Remove-Zeile hab ich am Ende hinzugefügt und funktioniert tadellos - den Sane-Net-Host-Befehl hab ich gelöscht, das Ergebnis bleibt gleich. Wofür ist der denn überhaupt? - dann hab ich Abfragen für den Ziel-Dateinamen und für die Duplex-Entscheidung eingebaut - wegen den Fehlermeldungen hab ich mal nach SNMP gegoogelt und folgende Lösung gefunden: man muss php5-snmp mit apt-get remove entfernen und danach nur snmp mit apt-get install hinzufügen Jetzt läuft das Script fast fehlerfrei durch. Beim OCR kommt noch was mit PixReadStreamPnm-Error und dieser Ghostscript-Fehler ist noch da. Beides scheint aber keine Auswirkung auf das Ergebnis zu haben. Nochmals vielen herzlichen Dank für das Script. Ich bin mächtig zufrieden damit. 👍
thdeitmer Anmeldungsdatum: 15. Januar 2015 Beiträge: 36	Zitieren 17. Januar 2015 06:22 schrecklich! Ich kann nicht schlafen! Was bedeutet in dem Script der erste Teil? Dieses mit den Hardwarethreads? Und an einer anderen Stelle steht, dass man besser mit hoher DPI scannen sollte und nach dem OCR wieder runterrechnen muss. Die hohe DPI ist 300 in dem Script, aber wo wird das wieder runtergesetzt?
MPW Anmeldungsdatum: 4. Januar 2009 Beiträge: 3729	Zitieren 17. Januar 2015 16:42 (zuletzt bearbeitet: 17. Januar 2015 16:45) thdeitmer schrieb: Was bedeutet in dem Script der erste Teil? Dieses mit den Hardwarethreads? Um die Texterkennung auf modernen Prozessoren zu beschleunigen, wird parallel an mehreren Seiten gearbeitet. Dazu ermittelt der Befehl die Anzahl der CPU-Cores in deinem System. Bei modernen Intel/AMD-Prozessoren sollten das 4-8 sein. Bei etwas älteren 2. Bei ganz alten nur einer. So viele Seiten werden dann weiter unten mit dem xargs-Befehl parallel bearbeitet und am Ende zusammengefügt. Dazu wird tesseract pro Seite einzeln aufgerufen, das erledigt das xargs-Kommando und mit -P wird die Anzahl der parallel zu verarbeitenden Seiten festgelegt. Das funktioniert alles automatisch. Und an einer anderen Stelle steht, dass man besser mit hoher DPI scannen sollte und nach dem OCR wieder runterrechnen muss. Die hohe DPI ist 300 in dem Script, aber wo wird das wieder runtergesetzt? Ghostscript komprimiert das am Ende. Ich glaub runtergerechnet wird es gar nicht, aber recht stark komprimiert. Ich hatte damals damit viel experimentiert und mir hat diese Qualitätseinstellung gefallen. Ich glaub das erzeugt so 300 KB pro DinA4-Seite, wenn ich das richtig im Kopf hab.
thdeitmer Anmeldungsdatum: 15. Januar 2015 Beiträge: 36	Zitieren 17. Januar 2015 20:06 tja, da bin ich schon wieder mit meinen Problemen 😐 mein 10 Jahre alter Medion-PC mit Pentium D Prozessor hat von Threads und Cores noch nicht viel gehört. Ich denke mal, diese Einstellung ist wenig nützlich in meinem System. Schadet aber auch nicht, und deshalb lasse ich es einfach so wie es ist. Ich hab vorhin mal einen 10-Seiten-Stapel eingescannt. Bis zum Ende der Bearbeitung sind etwa 5 Minuten vergangen. In einer Firma wäre das nicht akzeptabel, aber bei mir zu Hause wohl. Liegt ja schließlich auch am Scanner, und nicht am Script. Eine einzelne DIN-A-4-Seite ist ca. 60 kB groß. Das ist bei meinem Gesamtvolumen durchaus akzeptabel. Das nächste Problem auf dem Weg zum perfekten Dokumentenmanagement ist aber die Findbarkeit der Dateien. Ich hab mir auf der Festplatte ein paar Verzeichnisse eingerichtet (Einkommen, Ausgaben, Haus, Auto, Familie, Versicherungen, usw.). Dort schiebe ich nun meine Dokumente rein. Jedes einzelne PDF kann ich (mit dem Dokumentenbetrachter von Lubuntu) öffnen und nach den erkannten Texten durchsuchen. Das klappt auch wunderbar. Aber über die Suchfunktion des Lubuntu-Dateimanagers (PCManFM) kann ich die Texte innerhalb der Dateien nicht durchsuchen und deshalb auch nicht finden. Das ist schlecht. Gibt's eine andere Möglichkeit, oder mache ich irgendwas falsch?
MPW Anmeldungsdatum: 4. Januar 2009 Beiträge: 3729	Zitieren 18. Januar 2015 05:18 Guck dich mal unter Desktopsuchmaschinen um.
thdeitmer Anmeldungsdatum: 15. Januar 2015 Beiträge: 36	Zitieren 19. Januar 2015 08:01 ja, das ist eine gute Anlaufstelle. Da hatte ich mich schon mal umgesehen. Aufgrund der Programmbeschreibungen hatte ich mich für Recoll entschieden. Aber die Entscheidung war irgendwie nicht so gut. Die Indexierung läuft nicht im Hintergrund, nicht mal automatisch. Man muss sie manuell anschmeißen und dann läuft sie (bei mir jedenfalls) wohl eine ganze Stunde lang. Ich brauch was anderes. Irgendwas im Hintergrund, ohne weitere Aufmerksamkeit zu erregen. Und ständig verfügbar, ohne großartige extra Programmstarts. Das wär was! Könnte Tracker wohl sowas sein? Muss ich die Tage mal ausprobieren. Im Moment bin ich lahmgelegt. Mein PC ist abgeraucht. Kein Piep, kein Ton, kein Licht. Ganz plötzlich. Geht heute morgen erstmal zum Onkel Doktor. Ich hoffe, das Schätzchen kommt bald wieder gesund nach Hause 😢
Cruiz Anmeldungsdatum: 6. März 2014 Beiträge: 5557 Wohnort: Freiburg i. Brsg.	Zitieren 19. Januar 2015 10:00 Eine Desktopsuchmaschine ist ja eine der leistungsintensiveren Teile einer Desktopumgebung. Lubuntu, als leichtgewichtiges Derivat, hat so etwas naturgemäß nicht im Angebot und ich bezweifel jetzt einfach mal, dass LXDE mit einer der großen Suchprogramme nahtlos zusammen arbeitet. Je nach Hardwareleistung sollte man sich evtl. überlegen auf eine Desktopumgebung mit integrierter Suche zu wechseln. Wenn die Hardware zu schwach für etwas anderes als LXDE ist, dürfte das aber auch die Frage nach einer Desktopsuche erledigen.
Harry_Hirsch Anmeldungsdatum: 19. August 2011 Beiträge: 80	Zitieren 19. Januar 2015 10:23 @MPW Um die Texterkennung auf modernen Prozessoren zu beschleunigen, wird parallel an mehreren Seiten gearbeitet. Dazu ermittelt der Befehl die Anzahl der CPU-Cores in deinem System. Ich habe einen etwa 2 Jahre alten Dual-Core-Laptop von HP. Wenn z.B. recoll läuft, dann werden die Cores abwechselnd belastet: Ein Core läuft jeweils ca. 10 Sekunden bei 100%, dann ist der andere dran, wobei der "nicht beschäftigte" so bei ca. 10% rumgurkt. Das soll zum einen wohl die gleichmäßige Alterung garantieren und zum anderen eine zu große Überhitzung vermeiden, oder? Warum laufen dann aber nicht beide Cores bei 50% Last? Manche Programme lasten beide Cores voll aus wie z.b. "convert" von Imagemagick. @thdeitmer Ich benutze recoll und bin ziemlich zufrieden damit, auch wenn ich bei mir vor einer Woche die automatische Indizierung ausgeschaltet habe, weil mir die Prozessorbelastung zu groß wurde: Gelegentlich längere hohe Prozessorlast durch Recoll http://forum.ubuntuusers.de/topic/gelegentlich-laengere-hohe-prozessorlast-durch/ Hier habe ich ein bischen was zur Einrichtung von Recoll geschrieben: Tipps für Desktopsuchmaschinen Beitrag 9. Oktober 2014 12:49 http://forum.ubuntuusers.de/post/7038178/ Wichtig ist, dass man nur die wirklich wichtigen Verzeichnisse in den Index aufnimmt (Einstellungen->Index-Einstellungen->Start-Verzeichnisse) und nur die Dateien indizieren lässt, die man wirklich braucht (z.B. .doc, .html, .txt, .pdf) bzw. eine "Negativ-Datei-Liste" erstellt: Einstellungen->Index-Einstellungen->Lokale Parameter->Auszulassende Namen (mit Endungen wie .js, .css, .c, .h, .jpg, .jpeg etc.), um die Indizierungsdauer deutlich zu reduzieren. Die Hintergrundindizierung/automatische Indizierung wird über Einstellungen->Zeitplan für Indizierung->Start der Echtzeit-Indizierung gestartet. Das ist aber wohl nur bei ein paar tausend bis vielleicht 30.000 zu indizierenden Dateien (je nach Rechner) empfehlenswert, weil sich die Prozessorlast im Laufe der Zeit (Ansammlung von Dateien) schnell steigern kann. Bei meinem letzten Laptop (im letzten Sommer ca. 2,5 Jahre alt) hat das Desktopsuchprogramm Docfetcher und Windows 7 vermutlich zu dessen schnellem Ende beigetragen + meine zu Anfangs unachtsame Behandlung (Laptop auf Bettdecke gestellt ⇒ ziemlich Überhitzung mit Deformierung des Gehäuses war damit garantiert). Ansonsten ist ein 10 Jahre alter Rechner, der vielleicht täglich benutzt wurde, wirklich an seiner Haltbarkeitsgrenze angelangt. Ist ja keine Waschmaschine. 😉 Ich würde auf jeden Fall einen PC und keinen Laptop empfehlen wegen der Überhitzungsgefahr aufgrund des geringen Platzes, vor allem wenn der nächste PC auch wieder längere Zeit halten soll. Ich hatte bis Sommer 2009 einen 300 MHz Celeron-PC einer großen deutschen Elektronikmarktkette laufen, mit Windows 98, den ich 1999 gekauft hatte.
Cruiz Anmeldungsdatum: 6. März 2014 Beiträge: 5557 Wohnort: Freiburg i. Brsg.	Zitieren 19. Januar 2015 11:42 Hallo Harry Hirsch, erzähl hier doch keine Ammenmärchen von Anno Dunnemal. Ein Laptop wird wegen der Desktopsuche kaum überhitzen, es sei denn man stellt sich wirklich dämlich an. Eine moderne Desktopsuche wie Tracker oder Baloo, die auf halbwegs aktueller Hardware läuft (meine Systeme sind alle min. 4 Jahre alt oder sehr leistungsschwach) dürfte sich kaum bemerkbar machen. Geschweige denn das System auslasten und somit auch nur in die Nähe von Überhitzung kommmen. Richtig ist aber, dass man mit einem 10 Jahre alten PC (hatte ich vorhin überlesen) an die Grenzen der Möglichkeiten kommt. Klar, kann man so einen Rechner noch nutzen, aber eben nicht mehr für alles. Von der Stromrechnung mal ganz zu schweigen.
thdeitmer Anmeldungsdatum: 15. Januar 2015 Beiträge: 36	Zitieren 19. Januar 2015 13:07 Hallo Leute, vielen Dank für die Hilfe und zahlreichen Denkanstöße. Tja, sorry. Mein System ist wirklich alt. Das ist so. Aber das Teil war damals teuer. Und aus meiner Sicht noch lange nicht abgeschrieben. Darf ich kurz ausholen und eine Anekdote von Anno Tuk erzählen? Es begab sich im Jahre 1998 oder 1999. Damals hatte ich noch einen PC, vielleicht ein Pentium II, mit Windows 98 und Office 97 vorinstalliert. Darin enthalten war ein kleines unauffälliges und kaum beachtetes Programm namens "Imaging". Wenn man damit seine Dokumente einscannt, wurden sie automatisch im Hintergrund mit OCR verwurstet und als TIFF gespeichert. Hat man echt nix von mitbekommen. Und wenn man dann im damals üblichen Dateiexplorer einen Begriff über die Suchfunktion eingegeben hat, wurde das gescannte Dokument tatsächlich auf anhieb gefunden. Damals hielt ich das noch für Zauberei und Spielerei, hatte noch keine große Verwendung für sowas. Aber heutzutage in Lubuntu oder von mir aus auch vor 10 Jahren auf einem Pentium D sollte das doch auch noch funktionieren, oder? OK, wahrscheinlich hab ich Recoll nicht richtig eingestellt. Sobald das Gerät wieder zu Hause ist, korrigiere ich die Einstellungen. Es reicht ja, nur das Dokumentenverzeichnis zu indexieren. Da sind meine gescannten Archive und ein paar selbst geschriebene Office-Dokumente. Damit sollte Recoll doch wohl ferig werden. Mehr brauch ich ja gar nicht. Emails, Musik und Bilder etc., das braucht alles gar nicht da rein. Vielleicht könnt Ihr mir noch eine kurze Empfehlung bezüglich der Programmwahl geben. Es stand geschrieben, dass Recoll ein Leichtgewicht wäre. Deshalb hab ich mich dafür entschieden. Da es aber etwas unhandlich war (zugegeben wegen meinen falschen Einstellungen), würde ich mir auch gerne mal Tracker ansehen. Das läuft doch eher unscheinbar im Hintergrund. Habt Ihr Erfahrungen damit? Könnt Ihr mir das empfehlen? Aber wie gesagt: zur Zeit ist mein Senior-PC noch im Krankenhaus. Hab bis jetzt noch nichts gehört. Ich hoffe, ich werde ihn kurzfristig zurückbekommen. Viele Grüße
MPW Anmeldungsdatum: 4. Januar 2009 Beiträge: 3729	Zitieren 19. Januar 2015 14:08 (zuletzt bearbeitet: 19. Januar 2015 14:09) Harry Hirsch schrieb: Ich habe einen etwa 2 Jahre alten Dual-Core-Laptop von HP. Wenn z.B. recoll läuft, dann werden die Cores abwechselnd belastet: Ein Core läuft jeweils ca. 10 Sekunden bei 100%, dann ist der andere dran, wobei der "nicht beschäftigte" so bei ca. 10% rumgurkt. Das soll zum einen wohl die gleichmäßige Alterung garantieren und zum anderen eine zu große Überhitzung vermeiden, oder? Hier geht es nur um Überhitzung. Prozessoren verschleißen eigentlich nicht, solange man sie nicht übertaktet. Meiner Erfahrung nach gehen immer zuerst Netzteile und Mainboards kaputt. Warum laufen dann aber nicht beide Cores bei 50% Last? Manche Programme lasten beide Cores voll aus wie z.b. "convert" von Imagemagick. Ganz einfach: Weil das nicht geht. Und weil es auch ineffizient wäre. Auch wenn CPU-Hersteller seit Jahren mit ihren Mehrkernern werben, kann über 95% der Software nicht damit umgehen. Wenn man zwei Prozessoren gleichzeitig auslasten möchte, muss man die zu erledigende Aufgabe beim Programmieren der Software so aufteilen, dass sie unabhängig voneinander erledigt werden kann. Das geht in den allermeisten Anwendungsgebieten überhaupt nicht. Beim Scannen mit Tesseract wäre es theoretisch möglich, aber es geht doch auch so, indem man die Seiten einzeln aufteilt. Außerdem ist es verbrauchstechnisch effizienter einen Kern auszulasten und den anderen abzuschalten, als beide bei 50% zu haben. thdeitmer schrieb: [...] Mein System ist wirklich alt. Das ist so. Aber das Teil war damals teuer. Und aus meiner Sicht noch lange nicht abgeschrieben. Rechne nicht nur in Geld, sondern auch die Zeit, die du verschwendest, während du wartest, weil die CPU langsam ist und rechne auch die Stromverbrauch mit ein. Grüße MPW
Harry_Hirsch Anmeldungsdatum: 19. August 2011 Beiträge: 80	Zitieren 19. Januar 2015 15:31 MrGerardCruiz schrieb: Hallo Harry Hirsch, erzähl hier doch keine Ammenmärchen von Anno Dunnemal. Ein Laptop wird wegen der Desktopsuche kaum überhitzen, es sei denn man stellt sich wirklich dämlich an. Ich hatte ja auch nicht geschrieben, dass mein Laptop wegen des Desktopsuchprogramms überhitzte, sondern wegen der Verdeckung der Belüftungsschlitze durch meine Bettdecke. Dadurch wurde vermutlich das Plastik-Gehäuse (über dem Trafo?) verbogen, was ich erst später merkte. Und ich habe geschrieben, dass das Programm vermutlich zu dessen schnellem Ende beigetragen hat. Das wollte ich noch in meinen Thread bezüglich der Recoll-Belastung schreiben: Das seltsame ist, dass bei der ersten Indizierung alle Dokumente sehr schnell verarbeitet wurden (nach der Reduzierung auf die wichtigsten Dateien), auch mehrere MB große Pdf-Dateien. Inzwischen (bis vor ca. vier Wochen) aber war es so, dass anscheinend schon ein abgespeichertes Dokument und die darauffolgende Aktivierung von Recoll durch den Recoll-Dämon ausreichte, um Recoll ca. 45 Sekunden beschäftigt zu halten (ein Core jeweils auf 100%) - wegen einem Html- oder Pdf-Dokument von vielleicht 200-400kB. Ich habe es immer dadurch gemerkt, dass der Lüfter im Laptop auf einmal anfing auf Hochtouren zu laufen. Dann war aber meistens schon die Recoll-Indizierung wieder vorbei, wenn ich auf die Systemüberwachung schaute. Ich sah nur noch die maximale Belastung auf der wegwandernden Grafik. Genauso lief es auch bei Docfetcher (unter Win 7) ab: 30-40 Sekunden (nur noch geschätzt, weil seit über einem halben Jahr nicht mehr gesehen) volle Leistung (beide Cores? ich weiß es nicht mehr genau) für ein einfaches gerade abgespeichertes Html-Dokument mit nachfolgender entsprechender Lüftertätigkeit.
Harry_Hirsch Anmeldungsdatum: 19. August 2011 Beiträge: 80	Zitieren 19. Januar 2015 15:41 (zuletzt bearbeitet: 19. Januar 2015 15:41) Hi thdeitmer, Vielleicht könnt Ihr mir noch eine kurze Empfehlung bezüglich der Programmwahl geben. Es stand geschrieben, dass Recoll ein Leichtgewicht wäre. Deshalb hab ich mich dafür entschieden. Da es aber etwas unhandlich war (zugegeben wegen meinen falschen Einstellungen), würde ich mir auch gerne mal Tracker ansehen. Das läuft doch eher unscheinbar im Hintergrund. Habt Ihr Erfahrungen damit? Könnt Ihr mir das empfehlen? Da kann ich Dir auch einen Beitrag von mir zu dem Thema empfehlen bzw. Tracker nicht: Tracker in Nautilus integrieren http://forum.ubuntuusers.de/post/7033233/
thdeitmer Anmeldungsdatum: 15. Januar 2015 Beiträge: 36	Zitieren 27. Januar 2015 08:07 kurzer Zwischenstand: meine altehrwürdige Hardware ist Schrott. Recoll scheint den PC in den Hitzetod geschickt zu haben. Das Netzteil wurde getauscht und er startet immer noch nicht richtig, beziehungsweise er friert nach wenigen Sekunden ein - auch im BIOS. Ist wohl nix mehr zu machen 😢 Die Festplatte ist aber noch ok und ich hab sie in einen alten Ersatzrechner eingebaut. Nun bin ich mit einem AMD K8 (Sempron) unterwegs. Also nicht wirklich ein Schritt nach vorne. ☹ Das erste, was ich hier gemacht habe, ist ein Temperatur-Programm (psensor) installiert. 😉 Als nächstes versuche ich mal, den alten Stand wieder herzustellen (also dieses schöne Script mit tesseract usw.). Aber ich werde statt Recoll doch wohl Tracker probieren. Ich hoffe, der alte Knecht wirds mir danken. Außerdem möchte ich mein Dokumentenarchivverzeichnis direkt in der Cloud synchronisieren. Nur als Sicherheitsmaßnahme, falls die Festplatte auch mal abraucht. Gibts da irgendwelche Empfehlungen (kostenlos viel Speicher mit Linux-Sync-Software)? Viele Grüße
MPW Anmeldungsdatum: 4. Januar 2009 Beiträge: 3729	Zitieren 27. Januar 2015 18:57 Zum sichern empfehle ich Crashplan. Aber bitte mach doch den Foren-Regeln entsprechend ein neues Thema auf.

« Vorherige 123 Nächste »

Antworten |

« Vorheriges Thema Nächstes Thema »