Hallo 659888,
ich bin sicher kein "OCR-Spezialist", aber habe mich vor mehreren Jahren auch schon mal mit der Problematik beschäftigt. Dabei habe ich festgestellt, dass die vorhandene Software unter Linux nur eine sehr schlechte Erkennungsrate hat, so dass es sich für mich als effektiver herausgestellt hat, den durchaus längeren Text abzutippen anstatt zu scannen, durch ein OCR-Programm zu senden und danach noch aufwendige Fehlerkorrektur zu machen. Inwieweit das bis heute möglicherweise noch gilt, kann ich nicht sagen - leider hatten beim Thema OCR gerade Produkte für das "Winzigweich"-Betriebssystem seinerzeit deutlich die Nase vorn.
Ich habe probehalber mal ocrmypdf installiert und festgestellt, dass es offensichtlich ein Kommandozeilentool ist. Der Aufruf
$ ocrmypdf
ergibt folgendes:
usage: ocrmypdf [-h] [-l LANGUAGE] [--image-dpi DPI]
[--output-type {pdfa,pdf,pdfa-1,pdfa-2}] [--sidecar [FILE]]
[--version] [-j N] [-q] [-v [VERBOSE]] [--title TITLE]
[--author AUTHOR] [--subject SUBJECT] [--keywords KEYWORDS]
[-r] [--remove-background] [-d] [-c] [-i] [--oversample DPI]
[-f] [-s] [--skip-big MPixels] [--max-image-mpixels MPixels]
[--tesseract-config CFG] [--tesseract-pagesegmode PSM]
[--tesseract-oem MODE]
[--pdf-renderer {auto,tesseract,hocr,sandwich}]
[--tesseract-timeout SECONDS]
[--rotate-pages-threshold CONFIDENCE]
[--pdfa-image-compression {auto,jpeg,lossless}]
[--user-words FILE] [--user-patterns FILE] [--skip-repair]
[-k] [-g] [--flowchart FLOWCHART]
input_pdf_or_image output_pdf
ocrmypdf: error: the following arguments are required: input_pdf_or_image, output_pdf
Du könntest das Programm also z.B. folgendermaßen in der Kommandozeile nutzen:
ocrmypdf Bilddatei.pdf Textdatei.pdf
Dabei ist der erste Parameter also Deine Quelldatei, der zweite die Ausgabe. Du kannst Dir danach Textdatei.pdf anzeigen lassen und schauen, ob es geklappt hat. Der Befehl ocrmypdf gibt bei mir allerdings eine Fehlermeldung raus, wenn die Quelldatei bereits Text als ursprünglichen Inhalt hat und nicht eine Bilddatei. Das ist offensichtlich ein gewolltes Verhalten! In solchen Fällen bietet es sich an, statt eines OCR-Programms viel besser das bekannte "Libreoffice Draw" zu benutzen. Damit klappt die Bearbeitung solcher PDFs, die nur oder teilweise auf Textursprung beruhen, problemlos! Einfach Libreoffice starten, PDF importieren und Text ändern, wieder nach PDF exportieren, fertig. Das habe ich schon mehrfach so gemacht.
Sollte Deine Quelldatei allerdings ein "echtes" Bild enthalten (z.B. wenn die Quelle ein gescanntes Dokument ist), sollte ocrmypdf funktionieren. Wenn das Ergebnis nicht gut genug ist, musst Du ggf. mit den Parametern nochmal ein oder mehrere Versuche machen, bis Du ein gewünschtes Ergebnis hast.
Viel Erfolg!
schollsky