Lokale Modelle
Lokale Sprach-, Vision- und Audio-Modelle auf Apple Silicon: Qwen3, Gemma3, Llama, Mistral und mehr — Benchmarks und RAM-Anforderungen für M1–M4 Macs.
- Passendes Modell finden
- Setup pro Modell
- Benchmark-Vergleiche
- RAM-Anforderungen
Was zählt als lokales Modell?
Läuft auf deinem Mac
Die Modellgewichte werden heruntergeladen und die Inferenz läuft lokal über Ollama, LM Studio, MLX, llama.cpp oder eine ähnliche Runtime.
Open Weights heißt nicht immer Open Source
Viele lokale Modelle sind Open-Weight, aber ihre Lizenz kann kommerzielle Nutzung, Weiterverteilung oder Fine-Tuning trotzdem einschränken.
Speicher entscheidet
Modellgröße ist nicht gleich Speicherbedarf. Kontextlänge, KV-Cache, Quantisierung, Vision-Input und andere Apps beeinflussen Unified Memory ebenfalls.
Datenschutz hängt von der Konfiguration ab
Lokale Inferenz kann Prompts auf deinem Mac halten, aber Downloads, Plugins, Cloud-Funktionen, freigegebene lokale Server und Backups können trotzdem Datenpfade erzeugen.
Einstieg in lokale Modelle
Checkliste für lokale Modelle
- Ist das Modell wirklich herunterladbar?
- Gibt es Ollama-, GGUF-, MLX- oder LM-Studio-Unterstützung?
- Ist es text-only, vision-fähig, audio-fähig oder multimodal?
- Welche Lizenz gilt: Open Source, Open Weights, Research-only oder kommerziell?
- Wie viel Unified Memory ist realistisch nach Kontext und KV-Cache?
- Braucht es Cloud-Funktionen, API-Aufrufe oder Online-Tools?
- Kannst du es nach dem Download offline nutzen?
- Passt es besser zu deiner Aufgabe als ein kleineres Modell?
-
Gemma 4 12B auf dem Mac: Das neue lokale Multimodal-Modell für 16 GB?
Gemma 4 12B läuft lokal ab 16 GB, bietet 256K Kontext sowie Bild- und Audioverständnis. Was auf dem Mac mit Ollama und MLX wirklich geht.
-
Qwen3-ASR + Qwen3-TTS vs. Grok Voice: Lokal oder Cloud?
Qwen3-ASR, Qwen3-TTS und Grok Voice verglichen: ASR, TTS, Voice Agents, Datenschutz und Preise.
-
Gemma 4 vs Qwen3.6 auf dem Mac: Was lohnt sich?
Gemma 4 26B vs Qwen3.6 27B auf Apple Silicon: Erfahrung, Vergleich und Empfehlung für lokale KI.
-
Laguna XS.2 auf dem Mac: Coding-Modell, Benchmarks und RAM-Grenzen
Laguna XS.2 von Poolside erreicht 69,9 % auf SWE-bench Verified. Was auf dem Mac lokal geht, welche Ollama-Tags passen und wo Qwen3.6 vorn liegt.
-
Gemma 4 vs Qwen3.6 auf dem Mac: Wer lohnt sich?
Gemma 4 26B A4B vs Qwen3.6 27B: Ollama-Größen, echte Benchmarkwerte, Architektur, 256K Kontext, RAM-Grenzen und Mac-Empfehlung.
-
Lokale Vision-LLMs auf dem Mac: Welche Modelle lohnen sich wirklich?
Gemma 3, Qwen2.5-VL, Llama 3.2 Vision und Moondream im Praxisvergleich für Apple Silicon: OCR, Screenshots, Dokumente, Benchmarks, RAM und sinnvolle Prompts.
-
Kleine LLMs auf dem Mac: Welche lohnen sich?
Kleine lokale LLMs für Apple Silicon: Qwen3, Qwen3.5, Ollama, RAM-Bedarf und sinnvolle Einstellungen.
-
Beste Open-Weight-LLMs für Mac 2026: Qwen3.6, Gemma 4 und Llama 4 realistisch eingeordnet
Qwen3.6, Gemma 4 und Llama 4 Scout im realistischen Mac-Vergleich: Ollama-Tags, Unified-Memory-Empfehlungen, Benchmarks, Kontextfenster und lokale Grenzen.
Wie Empfehlungen für lokale Modelle entstehen
Empfehlungen für lokale Modelle auf AI on Mac sollen Modellgröße, Quantisierung, Runtime, Kontextlänge, Apple-Silicon-Generation und Unified Memory getrennt betrachten. Ein Modell, das auf einem 48-GB-Mac-Studio funktioniert, kann auf einem 8-GB-MacBook-Air unrealistisch sein. Die Artikel in dieser Kategorie sollen außerdem zwischen Open Source, Open Weights, Cloud-only-APIs und hybriden Tools unterscheiden.