Beste Open-Weight-LLMs für Mac 2026: Qwen3.6, Gemma 4 und Llama 4 realistisch eingeordnet
Qwen3.6, Gemma 4 und Llama 4 Scout im realistischen Mac-Vergleich: Ollama-Tags, Unified-Memory-Empfehlungen, Benchmarks, Kontextfenster und lokale Grenzen.
- Qwen3.6 35B-A3B — ca. 24 GB Ollama-Paket, 256K Kontext, Text+Bild, ausgelegt auf Thinking- und Coding-Agenten-Workflows
- Gemma 4 31B — ca. 20 GB Ollama-Paket, 256K Kontext, Text+Bild; Hersteller-Angabe AIME 2026: 89,2 %
- Gemma 4 26B A4B — MoE-Variante mit 3,8B aktiven Parametern, ca. 18 GB Ollama-Paket, effizienter Sweet Spot für 24-GB-Macs
- Llama 4 Scout (16x17b) — ca. 67 GB Ollama-Paket, Text+Bild, für normale lokale Macs ungeeignet
- Auf dem Mac mit 24 GB: zuerst
gemma4:26boderqwen3.6:27bmit begrenztem Kontext testen; 32 GB+ ist entspannter
Grafik auf Basis der aktuellen Ollama-Modellseiten und offiziellen Model Cards. Quellen: Ollama Qwen3.6, Ollama Gemma 4, Ollama Llama 4. Stand: 18. Juni 2026.
Der Stand der Dinge — Juni 2026
Kurzantwort: Für normale Mac-Nutzer sind 2026 vor allem Gemma 4 und Qwen3.6 interessant. gemma4:26b ist der vorsichtige erste Test für 24-GB-Macs, qwen3.6:27b ist spannend für Coding- und Agenten-Workflows, braucht aber bei langen Kontexten mehr Luft. gemma4:31b und qwen3.6:35b-a3b sind eher Modelle für 32 GB, 48 GB oder mehr. Llama 4 Scout bleibt trotz beeindruckender 10M-Kontext-Angabe für normale lokale Macs unpraktisch, weil das Ollama-Paket allein etwa 67 GB groß ist.
Das ist keine objektive Weltrangliste aller offenen Modelle, sondern eine Mac-orientierte Auswahl: Was läuft lokal, was braucht zu viel Unified Memory, und wo sind Benchmarks nur Herstellerwerte?
Drei Modellfamilien stehen 2026 im Mittelpunkt: Qwen3.6 von Alibaba, Gemma 4 von Google und Llama 4 Scout von Meta. Lokale Einschätzungen zu Qwen3.6 und Gemma 4 werden von Herstellerangaben zu Llama 4 Scout getrennt: Scout passt in den hier beschriebenen Quantisierungen nicht in 32 GB Unified Memory und ist kein Modell für den normalen Mac-Alltag.
Modellübersicht: Tag, Größe, Kontext, Lizenz
| Modell | Ollama Tag | Ollama-Größe | Kontext | Input | Lizenz |
|---|---|---|---|---|---|
| Qwen3.6 27B | qwen3.6:27b | ca. 17 GB | 256K | Text + Bild | Apache 2.0 |
| Qwen3.6 27B MLX | qwen3.6:27b-mlx | ca. 20 GB | 256K | Text | Apache 2.0 |
| Qwen3.6 35B-A3B | qwen3.6:35b-a3b | ca. 24 GB | 256K | Text + Bild | Apache 2.0 |
| Qwen3.6 35B MLX | qwen3.6:35b-a3b-mlx | ca. 22 GB | 256K | Text | Apache 2.0 |
| Gemma 4 E2B | gemma4:e2b | 7,2 GB | 128K | Text + Bild; Audio nativ bei E2B laut Google* | Apache 2.0 |
| Gemma 4 E4B | gemma4:e4b | 7,9 GB | 128K | Text + Bild; Audio nativ bei E4B laut Google* | Apache 2.0 |
| Gemma 4 12B | gemma4:12b | 7,6 GB | 256K | Text + Bild; Audio laut Google nativ, Client prüfen* | Apache 2.0 |
| Gemma 4 26B A4B | gemma4:26b | 18 GB | 256K | Text + Bild | Apache 2.0 |
| Gemma 4 31B | gemma4:31b | 20 GB | 256K | Text + Bild | Apache 2.0 |
| Llama 4 Scout | llama4:16x17b | ca. 67 GB | 10M in Ollama | Text + Bild | Llama 4 Community |
Wichtig: Die Ollama-Größe ist nicht der gesamte RAM-Bedarf. Dazu kommen Kontextfenster, KV-Cache, macOS, Browser, andere Apps und Vision-Eingaben. Je größer das Kontextfenster, desto mehr Speicher wird benötigt.
* Google listet natives Audio für E2B, E4B und 12B. 26B A4B und 31B sind Text+Bild-Modelle. Ob Audio-Eingaben im konkreten Ollama-Tag und Client funktionieren, muss separat geprüft werden.
Was auf deinem Mac läuft: RAM-Empfehlungen
Die folgenden Stufen orientieren sich am Unified Memory deines Macs — also am gemeinsamen Speicherpool von CPU und GPU auf Apple Silicon. Die Ollama-Paketgröße allein ist nicht der gesamte Speicherbedarf; Kontextfenster, KV-Cache, macOS und parallele Apps kommen dazu.
| Mac-Konfiguration | Realistische Modelle | Empfehlung |
|---|---|---|
| 8 GB Unified Memory | gemma4:e2b, gemma4:e4b, kleinere Qwen3-Modelle | Leichte Modelle, kurze Kontexte |
| 16 GB Unified Memory | kleinere Qwen3-/Gemma-Modelle, keine großen Kontexte | Einstieg in mittlere Modelle |
| 24 GB Unified Memory | gemma4:26b, qwen3.6:27b mit begrenztem Kontext | gemma4:26b kann ein sinnvoller erster Test sein, aber Kontextfenster, Vision-Eingaben und parallele Apps müssen begrenzt werden. qwen3.6:27b kann funktionieren, ist aber stärker vom freien Unified Memory und Kontext abhängig. |
| 32 GB Unified Memory | gemma4:31b, qwen3.6:35b-a3b, qwen3.6:27b-mlx | gemma4:31b und qwen3.6:35b-a3b sind testbar, aber nicht automatisch komfortabel mit großem Kontext. Für längere Agentenläufe sind 48 GB+ deutlich entspannter. |
| 48 GB Unified Memory | + gemma4:31b mit größerem Kontext | Entspannter 31B-Betrieb mit größerem Kontextfenster |
| 64 GB+ Unified Memory | + qwen3.6:35b-a3b mit Kontext | 64 GB+ bedeutet nicht automatisch Llama 4 Scout. Das Ollama-Paket liegt bei ca. 67 GB, dazu kommen Runtime, KV-Cache, macOS und Apps. |
Llama 4 Scout (ca. 67 GB) ist für normale lokale Macs ungeeignet — auch für Mac Studio M4 Max mit 48 GB.
Modellauswahl: aktuelle Ollama-Tags · Stand: 18. Juni 2026
Qwen3.6 — Coding und Agenten mit 27B Dense und 35B-A3B MoE
Qwen3.6 ist eine aktuelle offene Qwen-Generation für lokale und agentische Workflows mit 27B-Dense- und 35B-A3B-MoE-Varianten. Die 35B-A3B-Variante erreicht in mehreren Benchmarks hohe Werte (siehe Caveat unten).
Setup:
# 27B — Text + Bild, guter lokaler Einstieg
ollama pull qwen3.6:27b
# 35B-A3B — größere Qualitätsvariante (ab 32 GB+ Unified Memory).
# Expliziter A3B-Tag; `qwen3.6:35b` löst auf dasselbe Modell auf.
ollama pull qwen3.6:35b-a3b
# MLX-Tag — Text-only, nicht für Vision
ollama pull qwen3.6:27b-mlx
# Starten
ollama run qwen3.6:35b-a3b
Benchmarks (35B-A3B, Angaben von Qwen/Qwen Blog):
Benchmark-Hinweis: Die folgenden Werte stammen aus Herstellerseiten, Model Cards oder Ollama-Readmes. Sie sind nützlich für die Einordnung, aber keine eigenen ai-on-mac.com-Messungen. Harness, Tool-Nutzung, Kontextlänge, Timeout, Prompting, Thinking-Modus und Shot-Zahl können zwischen Modellfamilien stark abweichen.
| Benchmark | Wert | Einordnung |
|---|---|---|
| AIME 2026 | 92,7 % | Hoher Wert für ein Open-Weight-Modell |
| MMLU-Pro | 85,2 % | Wissens-/Reasoning-Benchmark |
| LiveCodeBench v6 | 80,4 % | Live-Coding-Aufgaben |
| SWE-bench Verified | 73,4 % | Agentic-Coding mit internem Scaffold (siehe Caveat) |
| Terminal-Bench 2.0 | 51,5 % | Terminal-Integration, Harbor/Terminus-2-Setup |
Hersteller-/Modellkartenwerte. Nicht als direkte Rangliste zwischen Modellfamilien lesen: Harness, Prompting, Tool-Nutzung, Thinking-Modus, Shot-Zahl und Auswertung können abweichen.
Was es besonders macht:
- Thinking-/Agenten-Workflows: Qwen3.6 ist auf längere Coding- und Repository-Aufgaben ausgerichtet. Im normalen Chat solltest du eher kurze Begründungen verlangen als komplette Denkspuren.
- Agentic Coding: Repository-Level-Verständnis, Frontend-Workflows, Terminal-Integration
- 256K Kontext bei 35B-A3B
- A3B = „Active 3 Billion” — bei der 35B-MoE-Variante werden pro Token nur 3B Parameter aktiviert
Auf dem Mac: qwen3.6:27b ist mit ca. 17 GB Paketgröße der sinnvollere Einstieg, wenn du Text+Bild brauchst. qwen3.6:27b-mlx ist Text-only und liegt bei ca. 20 GB. qwen3.6:35b-a3b liegt bei ca. 24 GB Paketgröße und ist realistischer ab 32 GB Unified Memory.
Auf 32-GB-Macs ist qwen3.6:27b nur mit begrenztem Kontext und ausreichend freiem Speicher sinnvoll. Eine Kontextgrenze von 32K kann ein praktikabler Startwert sein; ollama ps und der Speicherdruck in macOS zeigen, ob weiter reduziert werden muss.
Gemma 4 — Vision und Reasoning in 12B / 26B A4B / 31B
Gemma 4 ist Google DeepMinds vierte Gemma-Generation und in mehreren Größen verfügbar: E2B, E4B, 26B A4B (MoE) und 31B (Dense).
Setup:
# 26B A4B MoE — guter Effizienz-Kompromiss für leistungsfähigere Macs
ollama pull gemma4:26b
# 31B Dense — höhere Gemma-Qualität, mehr Speicherbedarf
ollama pull gemma4:31b
# 4B — sehr leicht, für ältere Macs und kurze Aufgaben
ollama pull gemma4:e4b
Benchmarks (31B, Google/Ollama Gemma 4 Tabelle für Instruction-Tuned):
| Benchmark | Wert | Einordnung |
|---|---|---|
| AIME 2026 (no tools) | 89,2 % | Reasoning-Benchmark ohne externe Tools |
| MMLU-Pro | 85,2 % | Wissens-/Reasoning-Benchmark |
| LiveCodeBench v6 | 80,0 % | Live-Coding-Aufgaben |
| Codeforces ELO | 2150 | Competitive-Programming-Wert |
| GPQA Diamond | 84,3 % | Domänenspezifisches Reasoning |
| MMMU Pro | 76,9 % | Multimodale Reasoning-Leistung |
Hersteller-/Modellkartenwerte. Nicht als direkte Rangliste zwischen Modellfamilien lesen: Harness, Prompting, Tool-Nutzung, Thinking-Modus, Shot-Zahl und Auswertung können abweichen.
Was es besonders macht:
- 256K Kontext bei 26B A4B und 31B
- Text + Bild bei allen Größen; Audio laut Google nativ bei E2B, E4B und 12B — Ollama- und Client-Unterstützung prüfen
- 26B A4B MoE: 25,2B Total, 3,8B aktiv pro Token — effizienter als 31B Dense
- Aktiv gepflegt auf Ollama
Auf dem Mac: gemma4:26b braucht ca. 18 GB, gemma4:31b ca. 20 GB.
Llama 4 Scout — 67-GB-Spezialfall für sehr große Unified-Memory-Setups
Meta Llama 4 Scout ist ein 109B-MoE-Modell mit 17B aktiven Parametern. In Ollama liegt das Paket bei ca. 67 GB. Das ist weit außerhalb dessen, was normale lokale Mac-Setups entspannt leisten.
# 109B MoE — ca. 67 GB; NICHT für normale Macs geeignet
ollama pull llama4:16x17b
Benchmarks wie MMLU Pro: 74,3 % und MMMU: 69,4 % sind beachtlich, aber der Speicherbedarf macht lokale Nutzung auf den meisten Macs unpraktisch. Llama 4 Scout ist eher ein Modell für Multi-GPU-Server, Workstations oder sehr große Unified-Memory-Experimente als für den privaten oder professionellen Mac-Alltag.
Für die Zukunft beobachten: MLX-Varianten mit aggressiverer Quantisierung könnten den Speicherbedarf senken. Stand Mai 2026 ist Llama 4 Scout für die meisten Mac-Nutzer aber keine sinnvolle lokale Empfehlung.
Benchmarks: Methodik und Einschränkungen
Bevor du Modelle anhand von Zahlen vergleichst, beachte:
- Benchmark-Harness: Gleiche Benchmarks werden mit unterschiedlichen Tools, Shot-Zahlen und Konfigurationen durchgeführt und sind nicht automatisch vergleichbar.
- Thinking vs. Non-Thinking: Reasoning-Benchmarks wie AIME werden in unterschiedlichen Modi gemessen. Tool-Nutzung beeinflusst die Messung zusätzlich.
- Benchmark ≠ Praxiseindruck: Ein Modell kann in Benchmarks hochscoren und in deinem Workflow trotzdem weniger nützlich sein als ein niedriger platziertes Modell mit besserem Prompt-Engineering.
Kontextfenster: Ollama-Einstellungen
Ollama setzt die Default-Kontextlänge basierend auf verfügbarem Unified Memory: typischerweise 4K unter 24 GiB, 32K zwischen 24 und 48 GiB, 256K ab 48 GiB. Größere Kontextfenster brauchen deutlich mehr Speicher — sie wachsen mit Layern, Heads und Bytes pro Token. Auf Apple Silicon ist Unified Memory der relevante Speicherpool, aber der tatsächlich nutzbare Speicher hängt von macOS, GPU-Offload, parallelen Apps und dem gewählten Modell ab.
# Ollama mit größerem Kontext starten
OLLAMA_CONTEXT_LENGTH=64000 ollama serve
# Prüfen, wie Modell, Offload und Kontext geladen wurden
ollama ps
Quick-Start
Für die Ollama-Installation auf dem Mac gibt es eine eigene Schritt-für-Schritt-Anleitung. Hier nur die Kurzfassung für den ersten Test:
# 1. Ollama installieren (falls noch nicht)
brew install ollama
# 2. Qwen3.6 lokal testen
ollama pull qwen3.6:27b
ollama run qwen3.6:27b
# 3. Gemma 4 26B — effizienter Sweet Spot (ab 24 GB)
ollama pull gemma4:26b
ollama run gemma4:26b
# 4. Gemma 4 31B — Reasoning-Enthusiasten (ab 48 GB)
ollama pull gemma4:31b
ollama run gemma4:31b
Je nach Mac-Konfiguration und Aufgabe das passende Modell wählen: gemma4:26b als vorsichtiger Allround-Test auf 24 GB, qwen3.6:35b-a3b für Coding-Agenten und längere Aufgaben ab 32 GB+, gemma4:e4b für einfache Aufgaben auf kleineren Macs.
Für 32 GB ist gemma4:26b ein vernünftiger erster Test. Ob parallele Apps möglich sind, hängt von Kontext, KV-Cache, Runtime und freiem Unified Memory ab.
Weiterführende Links
Auf ai-on-mac.com:
- Unified Memory auf dem Mac verstehen
- Ollama auf dem Mac einrichten
- LM Studio vs. Ollama für lokale Modelle
- Apple Intelligence vs. lokale KI auf dem Mac
- Kategorie Lokale Modelle und Anleitungen
Externe Primärquellen:
- Ollama — Qwen3.6
- Qwen3.6-27B Model Card
- Qwen3.6-35B-A3B Model Card
- Ollama — Gemma 4
- Ollama — Llama 4
- Qwen3 Blog
- Google Gemma 4 Blog
- Google Gemma 4 Model Card
- Google Gemma Releases
- Ollama Context Length Docs
Quellen und Stand
Stand: 18. Juni 2026. Modellgrößen und Kontextangaben beziehen sich auf die aktuell gelisteten Ollama-Tags und offiziellen Modellseiten zum Prüfzeitpunkt. Benchmarkwerte sind Hersteller- und Model-Card-Angaben und nur mit gleicher Modellvariante, gleicher Runtime, gleichem Harness, gleicher Tool-Nutzung, gleicher Kontextlänge und gleicher Prompting-Methode direkt vergleichbar. Apple-Silicon-spezifische tok/s-Werte aus diesem Artikel stammen aus Community-Berichten und der Ollama/oMLX-Modellseite, nicht aus eigenen Messungen von ai-on-mac.com.
Häufig gestellte Fragen
Welches Modell ist am besten für Mac mini M4 Pro mit 24 GB?
Für 24 GB ist gemma4:26b der vorsichtigere erste Test, weil das Ollama-Paket etwa 18 GB groß ist und Text+Bild unterstützt. qwen3.6:27b kann ebenfalls laufen, braucht bei langen Kontexten und parallelen Apps aber spürbar mehr Luft.
Läuft Llama 4 Scout auf dem Mac?
Llama 4 Scout (16x17b) liegt in Ollama bei etwa 67 GB. Das ist für normale lokale Mac-Setups unpraktisch. Sehr große Unified-Memory-Macs können experimentieren, aber Qwen3.6 und Gemma 4 sind die sinnvolleren lokalen Kandidaten.
Was ist Thinking Mode bei Qwen3.6?
Qwen3.6 ist für Thinking- und Agenten-Workflows ausgelegt. Für normale Nutzung solltest du aber keine langen Denkspuren ausgeben lassen, sondern nach kurzer Begründung und Ergebnis fragen.
Wie viel RAM brauche ich für lokale Open-Weight-Modelle?
Das hängt vom Modell und der Nutzung ab: 8 GB reicht für E2B/E4B-Varianten (z. B. gemma4:e2b), 16 GB für 4B–8B-Modelle, 24 GB für 26B-Modelle, 32–48 GB für 31B-Dense-Modelle und 64 GB+ für die größten Varianten. Dazu kommen Kontextfenster, KV-Cache, macOS und andere Apps.
Sind die tok/s-Werte in diesem Artikel lokale Messungen?
Die genannten tok/s-Zahlen stammen aus Community-Berichten und der Ollama/oMLX-Modellseite.
Hat Gemma 4 wirklich Audio-Unterstützung?
Google nennt native Audio-Unterstützung für E2B, E4B und 12B. 26B A4B und 31B sind Text+Bild-Modelle. Ob Audio im konkreten Ollama-Tag und im verwendeten Client funktioniert, muss separat geprüft werden.