Whisper lokal auf dem Mac: Transkribieren ohne Cloud
Whisper lokal auf Apple Silicon: mlx-whisper, WhisperKit, Datenschutz und Sprechertrennung.
Whisper kann Audiodateien, Interviews, Meetings oder Voice-Memos lokal transkribieren. Auf Apple Silicon ist mlx-whisper der einfachste Einstieg.
Kurzantwort
Starte mit mlx-whisper und dem Modell small oder medium. Nutze large-v3, wenn Qualität wichtiger ist als Geschwindigkeit. Für Sprechertrennung brauchst du zusätzlich pyannote.
Modellwahl
tiny (~75 MB): nur für sehr kurze Clips oder Pre-Filter.
base (~140 MB): schnell, aber ungenau.
small (~460 MB): gut für Echtzeit-Streaming.
medium (~1,5 GB): mein Go-to für die meisten Aufgaben.
large-v3 (~3 GB): maximale Genauigkeit, besonders für Deutsch.
Was ich getestet habe
Ich habe mlx-whisper auf meinem Mac Mini M4 mit verschiedenen Modellen getestet. Hier ist, was mir aufgefallen ist:
medium ist der Sweet Spot. Für Interviews und Meetings liefert es brauchbare Transkripte. Die Geschwindigkeit ist akzeptabel.
large-v3 ist spürbar besser, besonders bei Deutsch mit Dialekt. Aber es braucht mehr Zeit und Speicher.
Wichtig: Datenschutz
Whisper selbst schickt keine Daten an die Cloud. Aber: Apps wie MacWhisper oder WhisperKit sind offline. Manche kommerzielle Apps leiten Audio an Cloud-APIs weiter. Prüfe die Netzwerk-Aktivität mit Little Snitch.
Sprechertrennung
Standard-Whisper unterstützt keine Diarization. Für Speaker-Labels brauchst du zusätzlich pyannote.audio. Es läuft lokal, ist aber ein zusätzlicher Modelllauf (~1-2 GB).
Mein Fazit
Whisper ist die beste lokale Spracherkennung für den Mac. Starte mit mlx-whisper und medium, steigere auf large-v3 wenn nötig.
Getestet Juni 2026 auf Mac Mini M4 mit 32 GB.
Transparenz
Quellen und Prüfgrundlage
Diese Primär- und Referenzquellen bilden die Grundlage der technischen Einordnung. Herstellerangaben und externe Benchmarks werden im Artikel als solche gekennzeichnet.