ubuntuusers.de

Systemsprachen (TTS) installieren

Status: Ungelöst | Ubuntu-Version: Kubuntu 24.04 (Noble Numbat)
Antworten |

tux-puzzle

Anmeldungsdatum:
26. August 2009

Beiträge: 457

Hallo

In dem aktuellen CT-Sonderheft KI wird vorgeschlagen, ChatGPT zum Sprechtraining für Fremdsprachen zu nutzen. Empfohlen wird, VoiceWave unter Chromium zu verwenden (falls jemand eine Lösung hat, die mit dem Torbrowser funktioniert, her damit). Das Problem ist, dass ich im Voice-Wave Plugin die "Test-to-Speech-Stimme" unter "Hören und TTS" auswählen muss. Da gibts bei mir keine Stimme zur Auswahl. Die Erklärungen auf CT gibts nicht für Linux ...

Nach Suche im Wiki habe ich Mbrola nebst passender Stimmdatei sowie das passende Sprachpaket und Speech-dispatcher / Festival installiert - nix.

Danke für alle Ideen!

verdooft

Anmeldungsdatum:
15. September 2012

Beiträge: 4369

ChatGPT nutze ich nicht, hab aber neulich eine Deutsch-Englisch Session mit dem Setup getestet:

  • whisper.cpp, whisper-talk-llama (mit sdl kompiliert)

  • Whisper-Modell: medium-q5_k. für Realtime eher kleinere Modelle nehmen, die mit en im Namen können nur Englisch

  • LLM zur Textgenerierung: gemma-2-27b-it-Q8_0.gguf, man kann auch andere testen, mir war gutes Deutsch bei relativ kleinem Modell wichtig

  • Piper mit entsprechendem TTS Modell, für deutsche Ausgaben verwende ich Thorsten Voice high

  • Sprachmodelle: https://github.com/rhasspy/piper/blob/master/VOICES.md

  • play aus dem sox-Paket, ging bei mir nicht, hab die Vorgängerversion kompiliert, lief direkt

Sprachausgabe wird hier konfiguriert:

whisper.cpp/examples/talk-llama/speak

Ich empfehle noch, das regex_replace in der talk-llama.cpp anzupassen, damit etwa Umlaute gehen.

Beispielaufruf:

./build/bin/whisper-talk-llama -mw models/q/ggml-medium-q5_k.bin -ml ~/Downloads/models/gemma/gemma-2-27b-it-Q8_0.gguf -p "verdooft" -t 6 -l de

Ist sicher nicht so leistungsfähig wie ChatGPT, dafür verlassen Daten, inklusive der biometrischen Stimme, nicht den lokalen Rechner.

tux-puzzle

(Themenstarter)

Anmeldungsdatum:
26. August 2009

Beiträge: 457

Vielen Dank - aber dass scheint mir ja noch komplizierter ...

verdooft

Anmeldungsdatum:
15. September 2012

Beiträge: 4369

Eigentlich rauscht/knistert mein internes Mikrofon stark, drum wunderte es mich, dass whisper.cpp mein schlecht ausgesprochenes Englisch da rausfiltern und meistens korrekt transkribieren konnte. Es kam aber mal vor, dass aus einem the ein a wurde.

Mein Ziel war es erst, mit dem Computer in deutscher Sprache zu quatschen, bis ich auf einen Forenthread bezogen auf KI-Sprachassistent gestoßen bin und auch das mal probierte. Hab der Session einfach sowas am Anfang mit auf den Weg gegeben: "You are an English assistant. Your task is to translate all my text to German language without any other text. Do you understand that? Please translate this text too.". Also ich hatte Englisch → Deutsch getestet.

Kompliziert kam es mir nicht vor.

tux-puzzle

(Themenstarter)

Anmeldungsdatum:
26. August 2009

Beiträge: 457

verdooft schrieb:

Mein Ziel war es erst, mit dem Computer in deutscher Sprache zu quatschen, bis ich auf einen Forenthread bezogen auf KI-Sprachassistent gestoßen bin und auch das mal probierte. Hab der Session einfach sowas am Anfang mit auf den Weg gegeben: "You are an English assistant. Your task is to translate all my text to German language without any other text. Do you understand that? Please translate this text too.". Also ich hatte Englisch → Deutsch getestet.

Kompliziert kam es mir nicht vor.

Naja, dass bezog sich aufs Kompilieren und so ... bin da nicht soooo versiert. Hat der Rechner auch selber gesprochen? Das wäre bei mir das eigenltiche Ziel / die eigentlich Hürde. Muss v.a. Hörverständnis üben. Aber lokal wäre in der Tat viel besser.

verdooft

Anmeldungsdatum:
15. September 2012

Beiträge: 4369

Ja, das lief so ab:

verdooft: You are an English assistant. Your task is to translate all my text to German language without any other text. Do you understand that? Please translate this text too

LLaMA: Verstehen Sie das? Bitte übersetzen Sie auch diesen Text.

verdooft: This was not the whole text. Please translate the whole text I gave you.

LLaMA: Sie sind ein englischer Assistent. Ihre Aufgabe ist es, all meinen Text ins Deutsche zu übersetzen, ohne weitere Texte. Verstehen Sie das? Bitte übersetzen Sie auch diesen Text.

verdooft: Good morning, how are you today?

LLaMA: Guten Morgen, wie geht es Ihnen heute?

Was verdooft schrieb, wurde transkribiert, also ich sprach das ins Mikrofon, whisper.cpp hat das zu Text konvertiert. Das LLM hat den Text verarbeitet und sich nach der Anfangsanweisung gerichtet, zu übersetzen. Was LLaMa schrieb, wurde per piper zu Sprache konvertiert und dann auch als Sprache (play) ausgegeben. Zuerst hatte ich Espeak mit irgendeinem Standardmodell laufen, das klang sehr maschinell.

play aus dem Paket sox konnte bei mir das Audiogerät nicht öffnen, gut möglich, dass das Problem auf anderen Systemen nicht auftritt, im Web wurde die vorhergehende Version empfohlen.

Hab aber keine Zweifel, dass mit ChatGPT Sprachen lernen besser geht. Ich mag lokales einfach lieber.

Antworten |