mpunkt
Anmeldungsdatum: 2. März 2023
Beiträge: 29
|
Hallo zusammen, für eine Bildungseinrichtung bin ich auf der Suche nach der Möglichkeit einen Text einzusprechen und diesen dann als geschriebenen Text zu erhalten. Ziel ist, dass der Text im Browser in einem Zeugnisprogramm eingefügt werden kann. Es geht also um Leistungsdaten, die man durchaus unter Art. 9 DSGVO (besonders Schützenswert) einordnen kann.
Natürlich wird bisher Siri und o.k. Google dafür verwendet. Das Problem besteht darin, dass gerade ältere Kollegen so langsam Tippen, dass die Zeugnistexteingabe Tage in Anspruch nehmen würde.
Im Grund wäre egal, ob der Umweg über Libreoffice, ein Programm oder den Browser geht. Ebenfalls wäre egal, ob es ein Android-Programm oder ein Linux-Programm ist. (Die Schule nutzt Ubuntu 22.04 Clients). Meine bisherige - aber nicht sehr elegante Lösung - ist, dass sie die DeepL-App (mit kostenpflichtigem Abo) nutzen. Diese hat eine Spracheingabe für die Texte, welche übersetzt werden sollen. Die Übersetzung kann ich ja ignorieren, hauptsache ich habe Speech2Text. Gibt es eine schönere? Im Idealfall wäre es eine Spracheingabe zu LibreOffice.
In der letzten CT wurden Programme vorgestellt, die das ein bisschen können, allerdings lief es hier meistens so ab, dass ich eine Sprachdatei irgendwo hochlade, warten und bezahlen muss und dann den Text runterladen kann. Jetzt hoffe ich, dass ich das Problem skizzieren konnte und freue mich auf Anregungen von euch. Die Open-Source-Welt wird doch hoffentlich etwas in dieser Art bereithalten. Schönen Gruß
|
coolwalda
Anmeldungsdatum: 24. Januar 2017
Beiträge: 110
|
Wenn man sich vor der Shell nicht fürchtet, kann ich wärmstens empfehlen: https://github.com/Softcatala/whisper-ctranslate2 Nach der Installation reicht aus der Shell das Abfeuern von
whisper-ctranslate2 <pfad/zur/audio/datei> --model medium --output_format txt --verbose false --language de --device cpu ... und schon wird eine txt-Datei erstellt, der Inhalt kann dann weiterverarbeitet werden. Ich habe mir https://wiki.ubuntuusers.de/Archiv/PCMan_File_Manager/Benutzerdefinierte_Aktionen + ein Skript für den Dateimanager gebastelt, dann genügt ein Rechtsklick auf die Audiodatei aus dem Dateimanager heraus. Model medium erzielt schon gute Ergebnisse.
Model large-v2 erzielt noch bessere Ergebnisse, dauert aber auch etwas länger. Ist aber kein Problem, wenn es eh im Hintergrund läuft.
Von Model large-v3 ist meiner Meinung nach im Moment abzuraten. Bei mir halluziniert es sehr. Vorteil: Alles wird lokal auf dem PC verarbeitet, zuvor werden die Modelle je nach gewählter Option auf den PC heruntergeladen.
|
sh4711
Anmeldungsdatum: 13. Februar 2011
Beiträge: 1101
|
Schaue dir mal bitte folgende Links dazu an. Hier werden einige solcher Programme vorgestellt. Ich kann leider keines empfehlen, da ich keines getestet habe, aber vielleicht hilft es dir ja weiter:
|
Udalrich
Anmeldungsdatum: 15. Mai 2019
Beiträge: 533
|
Ein wichtiges Thema. Mit welchem Audio-Aufnahme-Programm erstellt Ihr die Audiodatei, welche dann der Texterkennungs-Software gegeben wird? Gibt es dazu ein besonders geeignetes Digitierprogramm (zum Pausieren, leichten Zurückspulen, uam) oder tut es jede mhWaveEditor-Einfach-Aufnahme?
|
coolwalda
Anmeldungsdatum: 24. Januar 2017
Beiträge: 110
|
|
mpunkt
(Themenstarter)
Anmeldungsdatum: 2. März 2023
Beiträge: 29
|
Hallo zusammen, vielen Dank für die Anregungen.
In der vorletzten CT wurde ebenfalls zu whisper was geschrieben. @Udalrich
Wir sind noch ganz offen. Am schönste wäre natürlich, wenn es ein Whisper-Plugin für LibreOffice geben würde. Ich spreche und der Text erscheint im Schreibprogramm. Positiv formuliert: Wenn einer von euch sagt, nutze unbedingt Programm xy zur Aufnahme, denn das arbeitet gut mit einem Tool zusammen, dann können wir das natürlich machen. Open-Source sollte es sein. ("Sollte" als "Muss", außer es gibt klare Argumente, die für etwas anderes sprechen.) Ich werde mich mal durchprobieren und durchlesen und natürlich berichten, was es geworden ist. Schönen Gruß
|
mpunkt
(Themenstarter)
Anmeldungsdatum: 2. März 2023
Beiträge: 29
|
Hallo zusammen, also langfristig werden wir uns jetzt wohl eine lokale Lösung installieren (Whisper oder Deepspeech (Mozilla)) Basis. Kurzfristig wäre schön, wenn es einfach eine Homepage gäbe, mit Mikrofonsymbol und Textfeld, die zumindest verspricht datenschutzkonform zu sein. Gibt es so etwas? Ich weiß, dass es Homepages zum Hochladen von Sprachdateien gibt, das gilt wohl als sehr aufwändig bei der Zielgruppe (Lehrer). Schönen Gruß
|
shinichi
Anmeldungsdatum: 14. März 2008
Beiträge: 735
Wohnort: Lausitz + Honshu
|
coolwalda schrieb: Wenn man sich vor der Shell nicht fürchtet, kann ich wärmstens empfehlen: https://github.com/Softcatala/whisper-ctranslate2
Sieht nach einem tool für OpenAI aus. Ich rate ab, OpenAI auch nur im entferntesten zu unterstützen. Die sind quasi Microsoft und sammel auch Daten, trainier(t)en auch ihre AI mit Haufen Daten ohne nachzufragen, ob sie die überhaupt verwenden dürfen. Vlt. mal spchcat porbieren oder vosk. Oft ist es so, dass man die Programme nur mit einer WAV-Datei zu füttern braucht und er schriebt die gefundenen Wörter in eine Textdatei. Diese kann man dann halt leicht (automatisiert) weiter benutzen. Wie man die WAV-Datei halt aufnimmt, ist sekundär. Audioaufnahmeanwendungen gibt es wie Sand am Meer. Da am einfachsten natürlich auch etwas terminal basiertes benutzen, da man das eben auch leicht in scripts verwenden kann oder in irgendeinem frontent (auch eigene websites).
|
trollsportverein
Anmeldungsdatum: 21. Oktober 2010
Beiträge: 4509
|
mpunkt schrieb:
Das Problem besteht darin, dass gerade ältere Kollegen so langsam Tippen, dass die Zeugnistexteingabe Tage in Anspruch nehmen würde.
Unfassbar! Soll man solche Faulheit wirklich weiter unterstützen? Damit stellen sch die Kollegen selbst ein schlechtes Zeugnis aus. Ich halte es für falsch. Aber wenn es sein muss, Kdenlive kann automatisch Text aus Sprache erzeugen. Ob der aber immer korrekt ist? Ich würde zumindest bei Zeugnissen doch gewisse Mindestanforderungen an diejenigen stellen, die Zeugnisse ausstellen wollen.
|
sh4711
Anmeldungsdatum: 13. Februar 2011
Beiträge: 1101
|
trollsportverein schrieb: mpunkt schrieb:
Das Problem besteht darin, dass gerade ältere Kollegen so langsam Tippen, dass die Zeugnistexteingabe Tage in Anspruch nehmen würde.
Unfassbar! Soll man solche Faulheit wirklich weiter unterstützen?
Sehe ich nicht so. Um es als Faulheit zu titulieren haben wir zu wenig Informationen. Was sind das denn für Zeugnistexte, welche man tippen muss und die nicht mittels Textbausteine effizienter geschrieben werden können. Uneffizientes und zu verbesserndes Verhalten sehe ich eher bei der Bezirksregierung und der allgemeinen Organisation der Schulen.
|
seahawk1986
Anmeldungsdatum: 27. Oktober 2006
Beiträge: 11229
Wohnort: München
|
mpunkt schrieb: Kurzfristig wäre schön, wenn es einfach eine Homepage gäbe, mit Mikrofonsymbol und Textfeld, die zumindest verspricht datenschutzkonform zu sein. Gibt es so etwas?
Mal als Proof of Concept mit SYSTRAN/faster-whisper und fastapi: seahawk1986/WebSpeech2Text - das müsstest du selber hosten (ist auf CPU eingestellt, damit es ohne spezielle cuvid-taugliche Hardware läuft und man sich die Installation der cuDNN Bibliothek für nvidia-Karten sparen kann, die bislang nicht für Ubuntu 24.04 als fertiges Paket zur Verfügung zu stehen scheint - aber für Ubuntu 22.04: https://developer.nvidia.com/cudnn-downloads?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=22.04&target_type=deb_local). Je nach Ausstattung des Rechners kann man da natürlich auch rechenaufwendigere Modelle als "base" nutzen.
|
trollsportverein
Anmeldungsdatum: 21. Oktober 2010
Beiträge: 4509
|
Ich habe auf Noble Numbat das CUDA-Repostitory ubuntu2204 eingebunden, die DEB-Pakete funktionieren einwandfrei auch auf Noble Numbat. Dort gibt es die cuDNN DEB-Pakete. Würde aber bei mir mehr als 2 Gigabyte Abhängigkeiten reinziehen.
sudo apt-get install cudnn
Paketlisten werden gelesen… Fertig
Abhängigkeitsbaum wird aufgebaut… Fertig
Statusinformationen werden eingelesen… Fertig
Die folgenden zusätzlichen Pakete werden installiert:
cudnn9 cudnn9-cuda-12 cudnn9-cuda-12-4 libcudnn9-cuda-12 libcudnn9-dev-cuda-12 libcudnn9-samples libcudnn9-static-cuda-12
Die folgenden NEUEN Pakete werden installiert:
cudnn cudnn9 cudnn9-cuda-12 cudnn9-cuda-12-4 libcudnn9-cuda-12 libcudnn9-dev-cuda-12 libcudnn9-samples libcudnn9-static-cuda-12
0 aktualisiert, 8 neu installiert, 0 zu entfernen und 0 nicht aktualisiert.
Es müssen 877 MB an Archiven heruntergeladen werden.
Nach dieser Operation werden 2.225 MB Plattenplatz zusätzlich benutzt.
Möchten Sie fortfahren? [J/n] Um die volle Hardwarebeschleunigung in meinen FFmpeg Eigenbau einzubauen und zu benutzen brauche ich aber nicht so viel, weshalb ich mir bisher die Installation dieser mehr als 2 Gigabyte Abhängigkeiten erspart habe. Wenn man die Nvidia cuDNN Bibliotheken auf Ubuntu haben will, steht dem aber sonst keine Hürde im Weg. Am nächsten CUDA-Repository scheint übrigens bereits bei Nvidia gewerkelt zu werden, dort gibt es aber bislang nur cuda-keyring_1.1-1_all.deb und datacenter-gpu-manager_3.3.6_amd64.deb als DEB-Pakete zu holen.
|
mpunkt
(Themenstarter)
Anmeldungsdatum: 2. März 2023
Beiträge: 29
|
Hallo, wenn auch etwas spät: Vielen Dank für eure Antworten. Ich nehme sie mit in die Runde mit den Technikern und melde natürlich zurück, was umgesetzt werden konnte. Schönen Gruß
|
mpunkt
(Themenstarter)
Anmeldungsdatum: 2. März 2023
Beiträge: 29
|
O.k. es ist mega faszinierend, in welcher Geschwindigkeit KI-Tools gerade aus dem Boden gestampft werden. Tatsächlich haben wir jetzt eine einfach zu installierende und von vielen Benutzern nutzbare Anwendung gefunden. Nextcloud Assist mit Whisper. Das erste ist ein Assistent, der einiges Kann, je nachdem was im Hintergrund nachgeladen wird. Und Whisper ist eben ein Sprachmodell, das Speech2Text kann. Alles lokal, und durch den Login, den eh schon jeder hat, gut von allen nutzbar. Schönen Dank euch. (Bisher nur entdeckt und probeweise installiert. Erfahrungsberichte gibts, wenns Erfahrungen gibt.)
|