res55
Anmeldungsdatum: 22. April 2009
Beiträge: 579
Wohnort: Schweiz
|
Ich arbeite auf Kubuntu 20.04 mit gImageReader 3.3.1 () und tesseract 4.1.1
und hatte das Frakturmodell mit diesem Befehl installiert sudo apt-get install tesseract-ocr-script-frak Jetzt lese ich das angehängte Bild und erhalte den angehängten Text, der zu schlecht ist, um verwendet zu werden. Ist das wirklich die erwartete Qualität oder habe ich einen Fehler bei der Einrichtung oder Installation gemacht? Bitte gib mir einen Hinweis auf eine Lösung. Gruss Res
|
voxxell99
Anmeldungsdatum: 23. September 2009
Beiträge: 3903
Wohnort: da, wo andere Urlaub machen. :)
|
Kommen die Anhänge noch....? 😉
|
alterpinguin
Anmeldungsdatum: 24. Mai 2014
Beiträge: 786
|
ich würde nach meinen tesseract Erfahrung sagen, dass Deine Infos nichts zur Lösung beitragen, denn auch mit den "normalen" Zeichenerkennungstrainingsdaten gibt es je nach gescannter Auflösung und Sauberkeit Probleme. Je nach Vorlage musste ich eigentlich immer dafür sorgen, dass die gescannte Schrift nicht zu klein und nicht zu groß war und die Kontraste natürlich stimmten. Fraktur hab ich da mal aus einem Taschenbuch eingelesen – Hinweis Taschenbuch, weil Du damit eigentlich sofort die Info über die Seitengröße und die Auflösung bekommst und die Fraktur daraus war damals ohne größere Probleme machbar. Einzig der Gilb der Seiten verlangte etwas Justieren des Kontrastes.
Und...! ich habe keine Erfahrung welche Vorteile andere "professionelle" Programme bringen und wie weit bei denen die Grundeinstellungen und das Erkennungstraining vorhanden ist um eine breite (fast alles) Bandbreite an Textvorlagen einzulesen.
|
res55
(Themenstarter)
Anmeldungsdatum: 22. April 2009
Beiträge: 579
Wohnort: Schweiz
|
voxxell99 schrieb: Kommen die Anhänge noch....? 😉
sorry, hatte ich vergessen. anbei.
- outputA-6.txt (10.6 KiB)
- Download outputA-6.txt
- Bilder
|
seahawk1986
Anmeldungsdatum: 27. Oktober 2006
Beiträge: 11179
Wohnort: München
|
Hast du mal modernere Ansätze wie das GT4HistOCR Modell für Tesseract versucht? https://madoc.bib.uni-mannheim.de/57424/1/2020-10-16-WS-HD.pdf
|
von.wert
Anmeldungsdatum: 23. Dezember 2020
Beiträge: 9625
|
res55 schrieb:
Ist das wirklich die erwartete Qualität
Ist schon eine Antiqua oder Grotesk nicht wie die andere (Überlege mal, wie lange es gedauert hat, bis OCR überhaupt halbwegs brauchbar geworden ist!), so ist es eine Fraktur zur anderen erst recht nicht und hat vermutlich eher ähnliche OCR-Erkennungsraten wie Zierschriften. Professionelle Module kosten richtig Geld. Ich würd's abtippen. 😀
|
res55
(Themenstarter)
Anmeldungsdatum: 22. April 2009
Beiträge: 579
Wohnort: Schweiz
|
seahawk1986 schrieb: Hast du mal modernere Ansätze wie das GT4HistOCR Modell für Tesseract versucht? https://madoc.bib.uni-mannheim.de/57424/1/2020-10-16-WS-HD.pdf
scheint ein sehr fortgeschrittener Ansatz zu sein. Aber mir fehlt jede Orientierung, wie ich das für mich nutzen könnte. Es geht über mein Verständnis. Vielleicht fehlt mir ein Tutorial oder Handbuch?
|
res55
(Themenstarter)
Anmeldungsdatum: 22. April 2009
Beiträge: 579
Wohnort: Schweiz
|
Inzwischen habe ich mir die Kommando-Zeile vorgenommen,um zu sehen, wie weit ich damit komme und eingegeben: tesseract -l Fraktur outputA-6.jpg outputA-6.pdf Daraufhin gab es eine wesentlich bessere Erkennung, die hoffen lässt. Siehe anbei. Jetzt müsste doch nur noch ein Abgleich mit dt. Wörterbüchern gemacht werden, um die ähnlichen f und s auseinander zu halten und schon kann man damit etwas anfangen. Geht das mit tesseract?
- outputA-6.pdf.txt (2.1 KiB)
- Download outputA-6.pdf.txt
|
res55
(Themenstarter)
Anmeldungsdatum: 22. April 2009
Beiträge: 579
Wohnort: Schweiz
|
ja, ich habs schliesslich rausgefunden: Wenn ich das Model deu_frak nehme, dann funktioniert es recht gut: tesseract -l deu_frak outputA-6.jpg output-6.deu_frak siehe Anlage.
- output-6.deu_frak.txt (2.0 KiB)
- Download output-6.deu_frak.txt
|
seahawk1986
Anmeldungsdatum: 27. Oktober 2006
Beiträge: 11179
Wohnort: München
|
res55 schrieb: seahawk1986 schrieb: Hast du mal modernere Ansätze wie das GT4HistOCR Modell für Tesseract versucht? https://madoc.bib.uni-mannheim.de/57424/1/2020-10-16-WS-HD.pdf
scheint ein sehr fortgeschrittener Ansatz zu sein. Aber mir fehlt jede Orientierung, wie ich das für mich nutzen könnte. Es geht über mein Verständnis. Vielleicht fehlt mir ein Tutorial oder Handbuch?
Auf Seite 14 der Präsentation gibt es einen Link wie man eine aktuelle tesseract-Version installieren und ein Beispiel, wie man das Modell nutzen kann. Ich habe es mit dem angeboteten Docker-Container für tesseract probiert (also Docker wie in https://docs.docker.com/engine/install/ubuntu/ beschrieben installieren) und dann das Image holen und starten:
sudo docker pull tesseractshadow/tesseract4re
sudo docker run -dt --name t4re tesseractshadow/tesseract4re
Dann habe ich mir dein Beispielbild und die Trainingsdaten für Fraktur-fast geholt:
wget https://ub-backup.bib.uni-mannheim.de/~stweil/ocrd-train/data/Fraktur_5000000/tessdata_fast/Fraktur-fast.traineddata
mkdir -p ocr-files
wget https://media-cdn.ubuntu-de.org/forum/attachments/37/30/9266140-outputA-6.jpg -O ocr-files/9266140-outputA-6.jpg
Und das Beispiel-Skript aus tesseract-shadow/tesseract-ocr-re/blob/master/scripts/test.sh quick & dirty so umgeschrieben, dass es die jpg-Datei nutzt:
1
2
3
4
5
6
7
8
9
10
11
12
13 | #!/bin/bash
docker ps -f name=t4re
TASK_TMP_DIR=TASK_$$_$(date +"%N")
echo "====== TASK $TASK_TMP_DIR started ======"
docker exec -it t4re mkdir \-p ./$TASK_TMP_DIR/
docker cp ./Fraktur-fast.traineddata t4re:/usr/share/tesseract-ocr/4.00/tessdata/
docker cp ./ocr-files/*.jpg t4re:/home/work/$TASK_TMP_DIR/
docker exec -it t4re /bin/bash -c "mkdir -p ./$TASK_TMP_DIR/out/; cd ./$TASK_TMP_DIR/out/; tesseract ../*.jpg ocr -l Fraktur-fast --psm 4 --oem 3 txt"
mkdir -p ./ocr-files/output/$TASK_TMP_DIR/
docker cp t4re:/home/work/$TASK_TMP_DIR/out/ ./ocr-files/output/$TASK_TMP_DIR/
docker exec -it t4re rm \-r ./$TASK_TMP_DIR/
docker exec -it t4re ls
echo "====== Result files was copied to ./ocr-files/output/$TASK_TMP_DIR/ ======"
|
Das Ergebnis mit Fraktur_fast kann sich IMHO sehen lassen:
$ chmod +x test.sh
$ sudo ./test.sh
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
8a9b27664998 tesseractshadow/tesseract4re "/bin/bash" 38 minutes ago Up 38 minutes t4re
====== TASK TASK_5293_527428627 started ======
Failed to load any lstm-specific dictionaries for lang Fraktur-fast!!
Tesseract Open Source OCR Engine v4.1.1-rc2-21-gf4ef with Leptonica
Warning: Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 323
out
====== Result files was copied to ./ocr-files/output/TASK_5293_527428627/ ======
$ sed 's/ſ/s/g' ./ocr-files/output/TASK_5293_527428627/out/ocr.txt
Die Wahrheit in der Impfzwangsfrage.“
Die Theorie von der Schutzkraft der Impfung
jtellt sich dar als ein wahrer Rattenkönig von
Irrtümern, Trugschlüssen, Aberglauben und
urteilslos gedeuteter Tatsachen.
Dr. med. Schreiber.
Wir leben in einem Zeitalter einer neuen Renaissance.
Seitdem Kant durch seine Kritik der reinen Vernunft unserem
Denken die richtige Grundlage gegeben, und seitdem vor allem
die Erkenntnis der Natur- und spirituellen Wissenschaft uns
eine Menge neuer, früher nie geahnter, ja für unmöglich ge—
haltener Tatsachen erschlossen hat, seitdem hat sich unsere ganze
Anschauungsweise gewaltig geändert, und die überkommenen,
wenn auch scheinbar über jeden Zweifel erhabenen Vorstellungen
müssen sich jetzt eine erneute Prüfung auf ihre Glaubwürdig—
keit gefallen lassen. Damit ist natürlich eine Zeit des Ueber—
gangs notwendig verbunden, und die Kritik stört so unleug—
bar gar manche aus ihrer lieben Behaglichkeit auf.
Allein die Kritik, die Prüfung der überlieferten Begriffe
auf die neugewonnene Erkenntnis, ist zur Feststellung der
Wahrheit und damit zur Förderung des wahren Allgemein—
wohles durchaus unerläßlich. Wir dürfen deshalb auch nicht
gleich vor der Enthüllung neuer, wenn auch scheinbar noch fo
unliebsamer Tatsachen zurückschrecken, falls sie nur vor dem
Forum der Vernunft und der wahren Wissenschaft sicher be—
gründet sind. Sie tragen in diesem Falle das Gegenmittel gegen
eine etwaige Gefährdung der gesellschaftlichen Ordnung immer
schon wieder in sich.
Diese Zeit der Gärung und Klärung macht sich nun
gegenwärtig auf allen Gebieten bemerkbar, und es bleibt da—
von weder Staat noch Kirche, weder Kunst noch Wissenschaft
unberührt.
) Dieser Vortrag „Ueber Für und Wider den Juipfzwang“ wurde von
mir in seinen wesentlichsten Grundzügen zuerst im Jahre 1876 in Schwäb.
Hall im dortigen Gewerbeverein und im Frühjahr 1882 vor einer allgemeinen
Versanimmlung im Bürgermusenm in Stuttgart gehalten und erschien im Jahre
1883 bei Konrad Wittwer-Stuttgart im Buchhandel.
|
seahawk1986
Anmeldungsdatum: 27. Oktober 2006
Beiträge: 11179
Wohnort: München
|
Und wie ich gerade festgestellt habe, reicht es völlig die Fraktur-fast.traineddata nach /usr/share/tesseract-ocr/4.00/tessdata/ zu kopieren, um die mit der Version in den Ubuntu Paketquellen zu nutzen...
Dann kann man das Modell direkt verwenden:
tesseract ocr-files/*.jpg ocr -l Fraktur-fast --psm 4 --oem 3 txt
|
res55
(Themenstarter)
Anmeldungsdatum: 22. April 2009
Beiträge: 579
Wohnort: Schweiz
|
seahawk1986 schrieb: Und wie ich gerade festgestellt habe, reicht es völlig die Fraktur-fast.traineddata nach /usr/share/tesseract-ocr/4.00/tessdata/ zu kopieren, um die mit der Version in den Ubuntu Paketquellen zu nutzen...
Dann kann man das Modell direkt verwenden:
tesseract ocr-files/*.jpg ocr -l Fraktur-fast --psm 4 --oem 3 txt
Danke, das ist doch ein einfacher Ansatz, den ich nachvollziehen konnte. Ja, dieses Modell bietet im Grossen-ganzen ein sehr gutes Ergebnis. Nur ein sehr häufiger Fehler: das s wird mit dem f verwechselt und so ergibt sich viel Nacharbeit: Tatſachen erſchloſſen hat, ſeitdem hat ſich unſere ganze upps, jetzt wo ich diesen Satz in einem anderen Font sehe, sehe ich, dass dieses s ja gar nicht als f dargestellt ist. D.h. ich kann jetzt tauschen ſ gegen s und alles ist ok. Mein kate stellt die gleiche Zeile wie im Anhang dar, da hatte ich es noch nicht gemerkt. Dann habe ich jetzt ja eine praktische Lösung! Danke vielmals. Schön, es hier mit Profis zu tun zu haben, die wissen wovon sie sprechen. Gruss Res
- Bilder
|
res55
(Themenstarter)
Anmeldungsdatum: 22. April 2009
Beiträge: 579
Wohnort: Schweiz
|
Hier noch der resultierende Text. Praktisch Fehlerfrei!
- output-6.Fraktur-fast.txt (2.1 KiB)
- Download output-6.Fraktur-fast.txt
|
seahawk1986
Anmeldungsdatum: 27. Oktober 2006
Beiträge: 11179
Wohnort: München
|
res55 schrieb: D.h. ich kann jetzt tauschen ſ gegen s und alles ist ok.
Ja, der ewige Spaß mit einem langen s...
|
res55
(Themenstarter)
Anmeldungsdatum: 22. April 2009
Beiträge: 579
Wohnort: Schweiz
|
seahawk1986 schrieb: res55 schrieb: D.h. ich kann jetzt tauschen ſ gegen s und alles ist ok.
Ja, der ewige Spaß mit einem langen s...
danke vielmals, ich hatte bisher kein Begriff für das lange s.
|