ubuntuusers.de

Sprache aus Videos oder Audiodateien zu Text umwandeln

Status: Ungelöst | Ubuntu-Version: Kubuntu 24.04 (Noble Numbat)
Antworten |

trollsportverein

Avatar von trollsportverein

Anmeldungsdatum:
21. Oktober 2010

Beiträge: 4431

Schnell und schäbig mit Vosk.

Es muss FFmpeg und Python und pipx vorhanden sein.

Im Terminal:

pipx install vosk
pipx install vosk-cli

Gegebenenfalls noch die Umgebungsvariable durch pipx Automagie in der $HOME/.bashrc setzen lassen:

pipx ensurepath

Gewünschte VOSK-Sprachmodelle nach $HOME/models herunterladen, Auswahl gibt es dort:

Als Input-Datei kann alles verwendet werden, was FFmpeg verwenden kann, also mp4, mp3, wav, geht alles, und noch mehr Formate und Codecs, die das eigene FFmpeg Binary beherrscht. Im Terminal:

vosk-cli -i Beispiel-Eingabedatei.mp3 -o text -m vosk-model-small-de-0.15

Wie schon oben geschrieben, schnell und schäbig. Bei Musikvideos kam bei Testläufen mit dem kleinen VOSK-Sprachmodell herrlicher Unsinn raus. 😇 Anschauen kann man sich das Ergebnis dann so:

cat text.vtt
Antworten |