ubuntuusers.de

xsane2tess: Kann Bildddatei nicht lesen

Status: Gelöst | Ubuntu-Version: Ubuntu 10.10 (Maverick Meerkat)
Antworten |

alex42

Anmeldungsdatum:
6. Juni 2007

Beiträge: 124

Hallo,

ich habe nach der Anleitung im Wiki tesseract-ocr xsane2tess eingerichtet. Leider kann tesseract die Bilddateien anscheinend nicht lesen. In der Log-Datei ist folgendes vermerkt:

Tesseract Open Source OCR Engine
name_to_image_type:Error:Unrecognized image type:/home/alex/tmp/xsane-conversion-hpaio:_usb_Officejet__Pro__8500__A909a_serial=MY96K430MF.tif.tiff
IMAGE::read_header:Error:Can't read this image type:/home/alex/tmp/xsane-conversion-hpaio:_usb_Officejet__Pro__8500__A909a_serial=MY96K430MF.tif.tiff
tesseract:Error:Read of file failed:/home/alex/tmp/xsane-conversion-hpaio:_usb_Officejet__Pro__8500__A909a_serial=MY96K430MF.tif.tiff
/usr/local/bin/xsane2tess: Zeile 78:  8788 Segmentation fault      tesseract "$TIF_FILE".tiff "$TXT_FILE" -l "$TES_LANG" 1>&2
cat: /home/alex/tmp/xsane-conversion-hpaio:_usb_Officejet__Pro__8500__A909a_serial=MY96K430MF.txt: No such file or directory
rm: Entfernen von „/home/alex/tmp/xsane-conversion-hpaio:_usb_Officejet__Pro__8500__A909a_serial=MY96K430MF.tif“ nicht möglich: No such file or directory

Ich kann die Bilder manuell mit Gimp umwandeln und dann mit tesseract lesen lassen. Es wäre aber schön, wenn es auch direkt gehen würde. Hat jemand eine Idee? Vielleicht ein Fehler im Scipt?

alex42

(Themenstarter)

Anmeldungsdatum:
6. Juni 2007

Beiträge: 124

Ich habe ein wenig weiter herumprobiert und herausgefunden, dass tesseract anscheinend Probleme hat, wenn die unkomprimierte tiff-Datei die Dateiendung tiff und nicht tif hat. D.h. wenn ich die Datei mit

1
convert /datei.tiff -compress none /dateineu.tif 1>&2

(so wie im Script vorgesehen, nur mit einem f als Endung) konvertiere, kann ich die Bilddatei in Text umwandeln.

dr.gonzo

Avatar von dr.gonzo

Anmeldungsdatum:
17. Oktober 2004

Beiträge: 252

Ist denn nach Ausführung des Skripts im tmp-Ordner eine umgewandelte tif-Datei vorhanden? Kann man diese beispielsweise mit Gimp öffnen, oder ist diese Datei leer?

Und irgendwas stimmt mit der doppelten .tif.tiff-Endung nicht, vielleicht liegt hier auch der Fehler.

alex42

(Themenstarter)

Anmeldungsdatum:
6. Juni 2007

Beiträge: 124

Nach der Ausführung des Skripts liegt eine große (37,7 MB) tiff-Datei im tmp-Ordner, die sich nicht öffnen läßt. (xsane-conversion-hpaio:_usb_OfficejetPro8500A909a_serial=MY96K430MF.tif.tiff)

dr.gonzo

Avatar von dr.gonzo

Anmeldungsdatum:
17. Oktober 2004

Beiträge: 252

Und was passiert, wenn Du in den Zeilen 75 und 78 im Skript jeweils das ".tiff" wegläßt?

Also so:

1
2
3
4
5
# converting image into TIFF (ImageMagick)
convert "$FILE_PATH" -compress none  "$TIF_FILE" 1>&2

# start OCR (tesseract expands output with *.txt)
tesseract "$TIF_FILE" "$TXT_FILE" -l "$TES_LANG" 1>&2

alex42

(Themenstarter)

Anmeldungsdatum:
6. Juni 2007

Beiträge: 124

Wenn ich in den angegebenen Zeilen das ".tiff" weglasse, erhalte ich keine Bilddatei mehr im tmp-Ordner. In der Log-Datei ist folgendes vermerkt:

Tesseract Open Source OCR Engine
/home/alex/tmp/xsane-conversion-hpaio:_usb_Officejet__Pro__8500__A909a_serial=MY96K430MF.tif: Not a TIFF or MDI file, bad magic number 13136 (0x3350).
tesseract:Error:Read of file failed:/home/alex/tmp/xsane-conversion-hpaio:_usb_Officejet__Pro__8500__A909a_serial=MY96K430MF.tif
/usr/local/bin/xsane2tess: Zeile 78: 15934 Segmentation fault      tesseract "$TIF_FILE" "$TXT_FILE" -l "$TES_LANG" 1>&2
cat: /home/alex/tmp/xsane-conversion-hpaio:_usb_Officejet__Pro__8500__A909a_serial=MY96K430MF.txt: No such file or directory

alex42

(Themenstarter)

Anmeldungsdatum:
6. Juni 2007

Beiträge: 124

Ich muss meinen vorherigen Post korrigieren. Die große Bilddatei läßt sich mit Gimp öffnen, nur nicht mit dem Bildbetrachter. Dies funktioniert wiederum wenn ich das ".tif.tiff" entferne.

alex42

(Themenstarter)

Anmeldungsdatum:
6. Juni 2007

Beiträge: 124

Ich habe eine Lösung gefunden. Im Mandriva-Forum hatte jemand dasselbe Problem und hat das Skript umgeschrieben:

http://forum.mandriva.com/viewtopic.php?t=132705

Kann mir jemand, der sich besser auskennt, sagen, ob ich das veränderte Skript in das Wiki integrieren soll? Oder ist davon abzuraten, da es vielleicht mit anderen (älteren) Ubuntu-Versionen nicht funktioniert?

Heinrich_Schwietering Team-Icon

Wikiteam
Avatar von Heinrich_Schwietering

Anmeldungsdatum:
12. November 2005

Beiträge: 11335

Wohnort: Bremen

Hi!

Anscheinend ist die neue Version, die ich letztens eingestellt hatte, doch nur für tesseract-ocr 3.00 geeignet, und nicht abwärtskompatibel... Sorry, da muss ich das nochmal nachbessern...

Ich teste das nochmal auf Herz und Nieren, mit 10.10. und 10.04, und tesseract-2.04 und tesseract-3.00, wenn dann alles klar ist, kann es in Wiki.

so long
hank

Heinrich_Schwietering Team-Icon

Wikiteam
Avatar von Heinrich_Schwietering

Anmeldungsdatum:
12. November 2005

Beiträge: 11335

Wohnort: Bremen

Hi!

Es funktioniert unter hardy, lucid und maverick, mit tesseract 2.04 und 3.00. Kann also imho ins Wiki.

so long
hank

Antworten |