Das quelloffene, kostenlose FluidVoice ermöglicht Diktate in fast jedes Programm und das Transkribieren von Audiodateien basierend auf den Spracherkennungsmodellen Nvidia Parakeet TDT v3, OpenAI Whisper, Cohere Transcribe und Apple Speech. Nun hat der Entwickler Prachi Modi die Version 1.6 veröffentlicht.
Es gibt nach Angaben des Autors mehrere Verbesserungen: "Parakeet ist noch schneller – mit nahezu sofortiger Texteinfügung und ohne Verzögerung. Schnellere Aufzeichnung und Verarbeitung von Overlays. Überarbeiteter Onboarding-Ablauf mit sprachorientierter Einrichtung der Sprach-Engine, praktischer Diktat-Test und Einrichtung der KI-Erweiterung in einem Schritt. Option für die Apple Speech-Sprach-Engine mit sprachorientierter Einrichtung und Fallback-Lösung ohne Download. Übersichtlichere Anleitung zu den Berechtigungen und optimierte Handhabung bei geringen Systemressourcen.
Schließt eine Lücke bei lokalen Diktat-Apps – geräteinterne KI-Laufzeitumgebung für intelligente Formatierung, kontextbezogene Großschreibung und Nachbearbeitung, wobei alles lokal ausgeführt wird, ohne dass Daten Ihren Mac verlassen. Speziell trainiert anhand von über 100.000 Diktatdatenpunkten für präzise, kontextbezogene Optimierung. Benötigt ca. 3,5 GB Speicherplatz für das Modell und ca. 3,5 GB RAM während der Ausführung."
Die Versionsanmerkungen mit allen Änderungen sind, mitsamt Downloads und Quellcode, auf GitHub zu finden. Das ab macOS Sequoia 15 lauffähige FluidVoice arbeitet vollständig lokal und offline. Empfohlen wird ein Apple-Silicon-Rechner, auf Intel-Macs steht nur OpenAI Whisper zur Verfügung. Diktate sind in nahezu jeder Anwendung, die die Texteingabe unterstützt, möglich. Zum lokalen Transkribieren werden gängige Formate wie WAV, M4A, MP3, FLAC und OGG unterstützt.

Bild: Prachi Modi.
"FluidVoice setzt auf lokale Datenverarbeitung, vermeidet wiederkehrende Abonnementkosten und sorgt durch Open-Source-Code für Transparenz. Lokale Sprachmodelle verarbeiten Diktate auf Ihrem Mac. Optionale Schlüssel für KI-Anbieter werden im macOS-Schlüsselbund gespeichert. GPLv3-Quellcode, den Sie einsehen und erweitern können. Beschleunigung durch Apple Silicon: CoreML und Metal sorgen für eine Transkription mit geringer Latenz bei gleichzeitiger Schonung der Akkuleistung", so der Autor über seine App.
FluidVoice bietet eine optionale KI-Nachbearbeitung, ermöglicht auch das Steuern des Rechners und lässt sich über ein anpassbares Tastaturkürzel global aufrufen, außerdem steht ein systemweites Menü zur Verfügung. Es werden mehr als 25 Sprachen unterstützt, wie zum Beispiel Chinesisch, Deutsch, Englisch, Französisch, Italienisch, Japanisch, Portugiesisch und Spanisch. Anwender können via GitHub wie gewohnt Problemberichte und Verbesserungsvorschläge für FluidVoice veröffentlichen, während Entwickler am Code mitarbeiten können.
Der Entwickler bietet außerdem mit PeekX ein kostenfreies Quick-Look-Plugin für Ordner-Inhalte an.
