Schnell und schäbig mit Vosk.
Es muss FFmpeg und Python und pipx vorhanden sein.
Im Terminal:
pipx install vosk pipx install vosk-cli
Gegebenenfalls noch die Umgebungsvariable durch pipx Automagie in der $HOME/.bashrc setzen lassen:
pipx ensurepath
Gewünschte VOSK-Sprachmodelle nach $HOME/models herunterladen, Auswahl gibt es dort:
Als Input-Datei kann alles verwendet werden, was FFmpeg verwenden kann, also mp4, mp3, wav, geht alles, und noch mehr Formate und Codecs, die das eigene FFmpeg Binary beherrscht. Im Terminal:
vosk-cli -i Beispiel-Eingabedatei.mp3 -o text -m vosk-model-small-de-0.15
Wie schon oben geschrieben, schnell und schäbig. Bei Musikvideos kam bei Testläufen mit dem kleinen VOSK-Sprachmodell herrlicher Unsinn raus. 😇 Anschauen kann man sich das Ergebnis dann so:
cat text.vtt