Heinrich_Schwietering
Wikiteam
Anmeldungsdatum: 12. November 2005
Beiträge: 11290
Wohnort: Bremen
|
Hi! Warum die Textebene nicht immer perfekt sind weiß ich auch nicht, ggf. liegt es an schiefen Vorlagen, nicht immer richtig erkannten Spalten o.ä. Gedacht sind diese PDFs wohl auch eher, um sie "durchsuchbar" für einzelne Wörter zu machen (und das klappt ja auch ganz gut), weniger, um komplett den Text zu extrahieren. Wenn dir daran liegt, versuch es auch mal mit xsane2speech, auch wenn du keine Sprachausgabe brauchst. Dort hab ich etliche "Autokorrekturen" eingebaut (z.B würde damit Jimmy nicht zu Iimmy , wie in deinem Beispiel), und es werden recht zuverlässig Trennungen an Zeilenenden eliminiert. Die Texte bleiben auf Wunsch erhalten, und wenn du einfach angibst, weiteren Text anhängen zu wollen, kommt es auch zu keiner Wiedergabe, die Texte werden mit einer "-read"-Erweiterung im angegebenen Speicherverzeichnis abgelegt. Cuneiform-Linux kann mit der text -Option den Text auch absatzweise bearbeiten, sodass du nicht so viele Zeilenumbrüche hast. so long hank
|
luigi17
(Themenstarter)
Anmeldungsdatum: 9. August 2008
Beiträge: 1798
Wohnort: Weserbergland
|
Heinrich Schwietering schrieb: versuch es auch mal mit xsane2speech
Das geht noch nicht. Ich habe 3 Versuche mit *.html, ohne Erweiterung und *.txt gemacht, alle liefern eine 0 B-Datei.
Die Einstellungen habe ich in angehängten Fotos dargestellt. Die xsane2speech-log-Datei liefert:
Start ~~~+++~~~~+++~~~ Sa 20 Sep 2014 12:47:26 CEST
MAIN: espeak set for /usr/local/bin/select.sh
convert.im6: no decode delegate for this image format `/tmp/magick-LX65OHk1' @ error/constitute.c/ReadImage/544.
convert.im6: no images defined `/tmp/OCRResult.tif' @ error/convert.c/ConvertImageCommand/3044.
MAIN: tesseract -l deu used
sed: can't read /tmp/OCRResult.txt: No such file or directory
sed: can't read /tmp/OCRResult.txt: No such file or directory
sed: can't read /tmp/OCRResult.txt: No such file or directory
sed: can't read /tmp/OCRResult.txt: No such file or directory
sed: can't read /tmp/OCRResult.txt: No such file or directory
sed: can't read /tmp/OCRResult.txt: No such file or directory
/usr/local/bin/xsane2speech.sh: line 230: : No such file or directory
rm: cannot remove ‘/tmp/OCRResult.tif’: No such file or directory
mv: invalid option -- 'r'
Try 'mv --help' for more information.
Unknown option -read.txt
Run 'gedit --help' to see a full list of available command line options.
MAIN: gedit used for spellchecking
rm: invalid option -- 'e'
Try 'rm --help' for more information.
MAIN: eSpeak with options used for utterance
/usr/local/bin/xsane2speech.sh: line 275: /usr/local/bin/select.sh: No such file or directory
mv: invalid option -- 'r'
Try 'mv --help' for more information.
MAIN: text saved as .txt
MAIN: END ~~~+++~~~~+++~~~ Sa 20 Sep 2014 12:47:53 CEST
Start ~~~+++~~~~+++~~~ Sa 20 Sep 2014 12:49:11 CEST
MAIN: espeak set for /usr/local/bin/select.sh
convert.im6: no decode delegate for this image format `/tmp/magick-ahbSpvVl' @ error/constitute.c/ReadImage/544.
convert.im6: no images defined `/tmp/OCRResult.tif' @ error/convert.c/ConvertImageCommand/3044.
MAIN: tesseract -l deu used
sed: can't read /tmp/OCRResult.txt: No such file or directory
sed: can't read /tmp/OCRResult.txt: No such file or directory
sed: can't read /tmp/OCRResult.txt: No such file or directory
sed: can't read /tmp/OCRResult.txt: No such file or directory
sed: can't read /tmp/OCRResult.txt: No such file or directory
sed: can't read /tmp/OCRResult.txt: No such file or directory
/usr/local/bin/xsane2speech.sh: line 230: : No such file or directory
rm: cannot remove ‘/tmp/OCRResult.tif’: No such file or directory
mv: invalid option -- 'r'
Try 'mv --help' for more information.
rm: invalid option -- 'e'
Try 'rm --help' for more information.
MAIN: eSpeak with options used for utterance
/usr/local/bin/xsane2speech.sh: line 275: /usr/local/bin/select.sh: No such file or directory
mv: invalid option -- 'r'
Try 'mv --help' for more information.
MAIN: text saved as .txt
MAIN: END ~~~+++~~~~+++~~~ Sa 20 Sep 2014 12:49:30 CEST
Start ~~~+++~~~~+++~~~ Sa 20 Sep 2014 12:50:18 CEST
MAIN: espeak set for /usr/local/bin/select.sh
convert.im6: no decode delegate for this image format `/tmp/magick-b9AgogaC' @ error/constitute.c/ReadImage/544.
convert.im6: no images defined `/tmp/OCRResult.tif' @ error/convert.c/ConvertImageCommand/3044.
MAIN: tesseract -l deu used
sed: can't read /tmp/OCRResult.txt: No such file or directory
sed: can't read /tmp/OCRResult.txt: No such file or directory
sed: can't read /tmp/OCRResult.txt: No such file or directory
sed: can't read /tmp/OCRResult.txt: No such file or directory
sed: can't read /tmp/OCRResult.txt: No such file or directory
sed: can't read /tmp/OCRResult.txt: No such file or directory
/usr/local/bin/xsane2speech.sh: line 230: : No such file or directory
rm: cannot remove ‘/tmp/OCRResult.tif’: No such file or directory
mv: invalid option -- 'r'
Try 'mv --help' for more information.
rm: invalid option -- 'e'
Try 'rm --help' for more information.
MAIN: eSpeak with options used for utterance
/usr/local/bin/xsane2speech.sh: line 275: /usr/local/bin/select.sh: No such file or directory
mv: invalid option -- 'r'
Try 'mv --help' for more information.
MAIN: text saved as .txt
MAIN: END ~~~+++~~~~+++~~~ Sa 20 Sep 2014 12:50:35 CEST
- Bilder
|
Heinrich_Schwietering
Wikiteam
Anmeldungsdatum: 12. November 2005
Beiträge: 11290
Wohnort: Bremen
|
Hi! Hm, sieht vom Ergebnis erstmal so aus, als ob unzulässige Leerzeichen im Aufruf sind? Kann es in dem Bild zur Konfiguration nicht wirklich erkennen, aber derartige Fehler tauchen bei mir auf, wenn ich da irgendwo ein Leerzeichen zuviel habe, ggf. auch am Ende (alle xsane2IRGENDWAS-Skripte reagieren da sehr empfindlich drauf) Nachtrag: -c hocr macht bei xsane2speech keinen Sinn, das sollte auf alle fälle raus so long hank
|
luigi17
(Themenstarter)
Anmeldungsdatum: 9. August 2008
Beiträge: 1798
Wohnort: Weserbergland
|
Glaub nicht:
/usr/local/bin/xsane2speech.sh -l deu -c hocr
|
Heinrich_Schwietering
Wikiteam
Anmeldungsdatum: 12. November 2005
Beiträge: 11290
Wohnort: Bremen
|
Hi! c -hocr geht für xsane2speech nicht, siehe mein Nachtrag oben. so long hank
|
luigi17
(Themenstarter)
Anmeldungsdatum: 9. August 2008
Beiträge: 1798
Wohnort: Weserbergland
|
Weiterhin keine Änderung, also immer noch 0 B. Es sieht auch nicht so aus, als ob eine Texterkennung durchgeführt wird, dafür ist das nächste Popup zu schnell da. Popups: Sollen weitere Textpassagen angehängt werden?
Nein gewählt. Rechtschreibprüfung
Nein gewählt. Yad: Die Texterkennung ist abgeschlossen.
OK Wie soll die Ausgabe erfolgen? Abbruch | als.mp3 | direkt | direkt ohne Wechsel
direkt ohne Wechsel gewählt Soll eine .mp3-Datei erstellt werden?
Nein Text aufbewahren?
Nein
|
Heinrich_Schwietering
Wikiteam
Anmeldungsdatum: 12. November 2005
Beiträge: 11290
Wohnort: Bremen
|
Hi! Naja, wenn du den Text nicht aufbewahren willst wird er gelöscht... Was sagt das Log? so long hank
|
luigi17
(Themenstarter)
Anmeldungsdatum: 9. August 2008
Beiträge: 1798
Wohnort: Weserbergland
|
Auch mit "aufbewahren" 0 B.
Start ~~~+++~~~~+++~~~ Sa 20 Sep 2014 15:09:35 CEST
MAIN: espeak set for /usr/local/bin/select.sh
convert.im6: no decode delegate for this image format `/tmp/magick-HFMJ1J5H' @ error/constitute.c/ReadImage/544.
convert.im6: no images defined `/tmp/OCRResult.tif' @ error/convert.c/ConvertImageCommand/3044.
MAIN: tesseract -l deu used
sed: can't read /tmp/OCRResult.txt: No such file or directory
sed: can't read /tmp/OCRResult.txt: No such file or directory
sed: can't read /tmp/OCRResult.txt: No such file or directory
sed: can't read /tmp/OCRResult.txt: No such file or directory
sed: can't read /tmp/OCRResult.txt: No such file or directory
sed: can't read /tmp/OCRResult.txt: No such file or directory
/usr/local/bin/xsane2speech.sh: line 230: : No such file or directory
rm: cannot remove ‘/tmp/OCRResult.tif’: No such file or directory
mv: invalid option -- 'r'
Try 'mv --help' for more information.
rm: invalid option -- 'e'
Try 'rm --help' for more information.
MAIN: eSpeak with options used for utterance
/usr/local/bin/xsane2speech.sh: line 275: /usr/local/bin/select.sh: No such file or directory
mv: invalid option -- 'r'
Try 'mv --help' for more information.
MAIN: text saved as .txt
MAIN: END ~~~+++~~~~+++~~~ Sa 20 Sep 2014 15:09:52 CEST
|
Heinrich_Schwietering
Wikiteam
Anmeldungsdatum: 12. November 2005
Beiträge: 11290
Wohnort: Bremen
|
Hi! Hm, kann ich auf die Ferne erstmal nicht lösen - convert scheint Probleme zu haben, die XSane-Temporärdatei zu konvertieren. Ich habe jetzt die Version aus dem Wiki per Copy'n'Paste nochmal rauskopiert (meine "private" hab ich etwas weiterentwicklt), und hier noch mal getestet - und es funktioniert alles einwandfrei. Dann hab ich am Ende des Aufrufs eine Leerstelle hinzugefügt, und siehe da - das Log zeigt genau die Fehlermeldung, die du eben gepostet hast... Also Schau bitte noch mal genau, ob nicht am Ende hinter -l deu bei dir nicht doch ein Leerzeichen steht. so long hank
|
luigi17
(Themenstarter)
Anmeldungsdatum: 9. August 2008
Beiträge: 1798
Wohnort: Weserbergland
|
Heinrich Schwietering schrieb: Schau bitte noch mal genau, ob nicht am Ende hinter -l deu bei dir nicht doch ein Leerzeichen steht.
Ja dahinter war noch ein Leerzeichen! Allerdings gab es nach der Korrektur ein Dauer-Speech, das ich nur mit Neustart wegbekommen konnte. Ein neuer Scan ergab jetzt eine Text-Datei von 3 B. Log:
Start ~~~+++~~~~+++~~~ Sa 20 Sep 2014 16:00:03 CEST
MAIN: espeak set for /usr/local/bin/select.sh
MAIN: File exists, Charset is empty
MAIN: tesseract -l deu used
MAIN: eSpeak with options used for utterance
/usr/local/bin/xsane2speech.sh: line 275: /usr/local/bin/select.sh: No such file or directory
MAIN: text saved as /home/rainer/Temp/xyz.txt
MAIN: END ~~~+++~~~~+++~~~ Sa 20 Sep 2014 16:00:20 CEST Edit: Kann es sein, daß die Texterkennung nicht klappt, weil das Buch um 90° verdreht gescannt wird?
|
Heinrich_Schwietering
Wikiteam
Anmeldungsdatum: 12. November 2005
Beiträge: 11290
Wohnort: Bremen
|
Hi! Naja, wenn du nicht etwas wie in xsane2djvu beschrieben zur automatischen Drehung eingebaut hast, gibts kein vernünftiges Ergebnis; Ohne "Nachhilfe" kann auch tesseract das nicht richtig hindrehen. Was mich aber wundert ist, warum trotzdem die Fehlermeldung zum nicht existierenden Skript auftaucht: /usr/local/bin/xsane2speech.sh: line 275: /usr/local/bin/select.sh: No such file or directory
Skript nicht ausführbar gemacht? oder woanders hin kopiert? so long hank
|
luigi17
(Themenstarter)
Anmeldungsdatum: 9. August 2008
Beiträge: 1798
Wohnort: Weserbergland
|
Hier das Bild mit Datei-Manager:
- Bilder
|
Heinrich_Schwietering
Wikiteam
Anmeldungsdatum: 12. November 2005
Beiträge: 11290
Wohnort: Bremen
|
Hi! Nein, das select.sh meinte ich... so long hank
|
luigi17
(Themenstarter)
Anmeldungsdatum: 9. August 2008
Beiträge: 1798
Wohnort: Weserbergland
|
Ups! Das gibts da tatsächlich noch nicht. Hole ich gleich nach... Edit: Noch kein Erfolg. Log:
Start ~~~+++~~~~+++~~~ Sa 20 Sep 2014 16:00:03 CEST
MAIN: espeak set for /usr/local/bin/select.sh
MAIN: File exists, Charset is empty
MAIN: tesseract -l deu used
MAIN: eSpeak with options used for utterance
/usr/local/bin/xsane2speech.sh: line 275: /usr/local/bin/select.sh: No such file or directory
MAIN: text saved as /home/rainer/Temp/xyz.txt
MAIN: END ~~~+++~~~~+++~~~ Sa 20 Sep 2014 16:00:20 CEST
Start ~~~+++~~~~+++~~~ Sa 20 Sep 2014 16:07:03 CEST
MAIN: espeak set for /usr/local/bin/select.sh
MAIN: tesseract -l deu used
MAIN: eSpeak with options used for utterance
/usr/local/bin/xsane2speech.sh: line 275: /usr/local/bin/select.sh: No such file or directory
MAIN: text saved as /home/rainer/Temp/abc.txt
MAIN: END ~~~+++~~~~+++~~~ Sa 20 Sep 2014 16:07:19 CEST
Start ~~~+++~~~~+++~~~ Sa 20 Sep 2014 16:24:14 CEST
MAIN: espeak set for /usr/local/bin/select.sh
MAIN: File exists, Charset is ASCII text
MAIN: tesseract -l deu used
MAIN: eSpeak with options used for utterance
waiting for espeak
waiting for espeak
waiting for espeak
waiting for espeak
waiting for espeak
waiting for espeak
MAIN: text saved as /home/rainer/Temp/abc.txt
MAIN: END ~~~+++~~~~+++~~~ Sa 20 Sep 2014 16:24:26 CEST
waiting for espeak
waiting for espeak
waiting for espeak
waiting for espeak
waiting for espeak
waiting for espeak
waiting for espeak
waiting for espeak
waiting for espeak
waiting for espeak
Start ~~~+++~~~~+++~~~ Sa 20 Sep 2014 16:26:16 CEST
MAIN: espeak set for /usr/local/bin/select.sh
MAIN: tesseract -l deu used
MAIN: gedit used for spellchecking
MAIN: eSpeak with options used for utterance
MAIN: text saved as /home/rainer/Temp/abc.txt
MAIN: END ~~~+++~~~~+++~~~ Sa 20 Sep 2014 16:27:51 CEST
Also das select.sh ist in /usr/local/bin/...
|
luigi17
(Themenstarter)
Anmeldungsdatum: 9. August 2008
Beiträge: 1798
Wohnort: Weserbergland
|
Hab noch mal die Variante mit Betrachter gemacht. Als TEXT in Graustufen ist das Ergebnis nicht lesbar. Siehe Bild 6. Außerdem gibt es noch Bild 7 für die Einstellungen...
- Bilder
|