ubuntuusers.de

Arbeitsproduktivität: Spracheingabe statt Tastatur

Status: Gelöst | Ubuntu-Version: Ubuntu 24.04 (Noble Numbat)
Antworten |

MPW

Anmeldungsdatum:
4. Januar 2009

Beiträge: 3731

Moin in die Runde,

ich nutze nun seit ungefähr 18 Jahren Ubuntu auf dem Desktop und arbeite auch beruflich mit Linux (meist Debian) im Serverbereich. Ich finde es toll, wie dieses freie Betriebssystem einfach funktioniert und simpel ist im Gegensatz zu MacOS und Windows.

Leider bemerke ich zunehmend, dass ich in Sachen Produktivität gegenüber Android zurückfalle. Primär auf Grund der Texteingabe. Die Spracherkennung von Google ist inzwischen so gut geworden, dass man selbst längere Texte einfach diktiert und dann 1-2 Fehler korrigiert und fertig. Obwohl ich mit zehn Fingern schreiben kann und da gar nicht mal so langsam bin, ist das einfach eine Produktitivtätsbremse und eine vermeidbare Ermüdung. Ganz simples Beispiel: Ich ertappe mich mittlerweile dabei, wie ich E-Mails oder Whatsapp-Nachrichten lieber am Smartphone per Spracheingabe beantworte als am Rechner, obwohl ich gerade am Rechner sitze. Es ist einfach komfortabler und effizienter.

Der Linux-Way ist jetzt natürlich offline etwas laufen zu lassen, Datenschutz und so. Whisper AI kommt aber nicht annähernd in Punkto Geschwindigkeit und Genauigkeit an die Cloud heran und mir persönlich ist Datenschutz auch Schnuppe. Außerdem habe ich recht alte Hardware im Einsatz - Ubuntu läuft noch super auf meinem i7-3770K und mein Laptop hat auch 'ne lahme CPU.

Gibt es eine einfache Integration einer Cloud-Speech-to-Text-KI, die mir Sprache in Text umwandelt und wie eine Tastatureingabe an die Stelle schreibt, wo gerade der Focus und der Cursor sind? Ich würde gerne rumkopieren aus LLM-Apps wie Grok oder ChatGPT vermeiden, da ich inzwischen Texteingabe auch in Chats verwende und da nervt das rumkopieren dann. Gerne zahle ich auch ein paar € für die Cloudnutzung.

Ich hatte schon mal ChatGPT und Grok hierzu befragt, aber noch nicht so die für mich passende Lösung finden können.

Hat jemand eine Lösung oder coole Idee?

Viele Grüße Matthias

Kätzchen

Avatar von Kätzchen

Anmeldungsdatum:
1. Mai 2011

Beiträge: 7042

Wohnort: Technische Republik

Vielleicht ist Speech Note einen Versuch wert?

schwarzheit Team-Icon

Supporter
Avatar von schwarzheit

Anmeldungsdatum:
31. Dezember 2007

Beiträge: 4114

Vielleicht Pocketsphinx?

Um den Text an der Curserpostion auszugeben braucht es aber xdotool und ein kleines Script.

MPW

(Themenstarter)

Anmeldungsdatum:
4. Januar 2009

Beiträge: 3731

Ich habe mir inzwischen eine eigene Lösung gebaut, die genau das hat, was ich brauche. Ich teile sie hier mal mit euch:

https://github.com/MPW1412/voxtarix

Die Qualität und die Geschwindigkeit auf einer Nvidia RTX sind wirklich beeindruckend und auch die Erkennungsgenauigkeit ist schon wirklich krass gut. Ich würde sagen besser als die unter Android, die die Google Cloud nutzt. Insbesondere was Interpunktion angeht.

Für Geräte ohne NVIDIA GPU kommt in Kürze eine netzwerkfähige Version, sodass man die Arbeit auf einen anderen Rechner auslagern kann.

Edit: Ich sehe gerade noch, dass ich vergessen habe zu erwähnen, dass ich inzwischen neue Hardware habe.

Edit2: Es geht auch auf einer CPU, mein 9950x frühstückt das ganz gut ab. Ich denke aber, auf einer Laptop-CPU wird's nicht ganz so viel Spaß machen.

Antworten |