Lokale Modelle 11 Min. Lesezeit

Beste Open-Weight-LLMs für Mac 2026: Qwen3.6, Gemma 4 und Llama 4 realistisch eingeordnet

Qwen3.6, Gemma 4 und Llama 4 Scout im realistischen Mac-Vergleich: Ollama-Tags, Unified-Memory-Empfehlungen, Benchmarks, Kontextfenster und lokale Grenzen.

Technische Recherche und redaktionelle Prüfung. Eigene Messungen werden im Artikel ausdrücklich gekennzeichnet.

Veröffentlicht: 7. Mai 2026 Aktualisiert: 18. Juni 2026

Redaktionelle Methode
  • Qwen3.6 35B-A3B — ca. 24 GB Ollama-Paket, 256K Kontext, Text+Bild, ausgelegt auf Thinking- und Coding-Agenten-Workflows
  • Gemma 4 31B — ca. 20 GB Ollama-Paket, 256K Kontext, Text+Bild; Hersteller-Angabe AIME 2026: 89,2 %
  • Gemma 4 26B A4B — MoE-Variante mit 3,8B aktiven Parametern, ca. 18 GB Ollama-Paket, effizienter Sweet Spot für 24-GB-Macs
  • Llama 4 Scout (16x17b) — ca. 67 GB Ollama-Paket, Text+Bild, für normale lokale Macs ungeeignet
  • Auf dem Mac mit 24 GB: zuerst gemma4:26b oder qwen3.6:27b mit begrenztem Kontext testen; 32 GB+ ist entspannter

Was läuft auf deinem Mac? RAM Reality Meter für Qwen3.6, Gemma 4 und Llama 4 Scout

Grafik auf Basis der aktuellen Ollama-Modellseiten und offiziellen Model Cards. Quellen: Ollama Qwen3.6, Ollama Gemma 4, Ollama Llama 4. Stand: 18. Juni 2026.


Der Stand der Dinge — Juni 2026

Kurzantwort: Für normale Mac-Nutzer sind 2026 vor allem Gemma 4 und Qwen3.6 interessant. gemma4:26b ist der vorsichtige erste Test für 24-GB-Macs, qwen3.6:27b ist spannend für Coding- und Agenten-Workflows, braucht aber bei langen Kontexten mehr Luft. gemma4:31b und qwen3.6:35b-a3b sind eher Modelle für 32 GB, 48 GB oder mehr. Llama 4 Scout bleibt trotz beeindruckender 10M-Kontext-Angabe für normale lokale Macs unpraktisch, weil das Ollama-Paket allein etwa 67 GB groß ist.

Das ist keine objektive Weltrangliste aller offenen Modelle, sondern eine Mac-orientierte Auswahl: Was läuft lokal, was braucht zu viel Unified Memory, und wo sind Benchmarks nur Herstellerwerte?

Drei Modellfamilien stehen 2026 im Mittelpunkt: Qwen3.6 von Alibaba, Gemma 4 von Google und Llama 4 Scout von Meta. Lokale Einschätzungen zu Qwen3.6 und Gemma 4 werden von Herstellerangaben zu Llama 4 Scout getrennt: Scout passt in den hier beschriebenen Quantisierungen nicht in 32 GB Unified Memory und ist kein Modell für den normalen Mac-Alltag.


Modellübersicht: Tag, Größe, Kontext, Lizenz

ModellOllama TagOllama-GrößeKontextInputLizenz
Qwen3.6 27Bqwen3.6:27bca. 17 GB256KText + BildApache 2.0
Qwen3.6 27B MLXqwen3.6:27b-mlxca. 20 GB256KTextApache 2.0
Qwen3.6 35B-A3Bqwen3.6:35b-a3bca. 24 GB256KText + BildApache 2.0
Qwen3.6 35B MLXqwen3.6:35b-a3b-mlxca. 22 GB256KTextApache 2.0
Gemma 4 E2Bgemma4:e2b7,2 GB128KText + Bild; Audio nativ bei E2B laut Google*Apache 2.0
Gemma 4 E4Bgemma4:e4b7,9 GB128KText + Bild; Audio nativ bei E4B laut Google*Apache 2.0
Gemma 4 12Bgemma4:12b7,6 GB256KText + Bild; Audio laut Google nativ, Client prüfen*Apache 2.0
Gemma 4 26B A4Bgemma4:26b18 GB256KText + BildApache 2.0
Gemma 4 31Bgemma4:31b20 GB256KText + BildApache 2.0
Llama 4 Scoutllama4:16x17bca. 67 GB10M in OllamaText + BildLlama 4 Community

Wichtig: Die Ollama-Größe ist nicht der gesamte RAM-Bedarf. Dazu kommen Kontextfenster, KV-Cache, macOS, Browser, andere Apps und Vision-Eingaben. Je größer das Kontextfenster, desto mehr Speicher wird benötigt.

* Google listet natives Audio für E2B, E4B und 12B. 26B A4B und 31B sind Text+Bild-Modelle. Ob Audio-Eingaben im konkreten Ollama-Tag und Client funktionieren, muss separat geprüft werden.


Was auf deinem Mac läuft: RAM-Empfehlungen

Die folgenden Stufen orientieren sich am Unified Memory deines Macs — also am gemeinsamen Speicherpool von CPU und GPU auf Apple Silicon. Die Ollama-Paketgröße allein ist nicht der gesamte Speicherbedarf; Kontextfenster, KV-Cache, macOS und parallele Apps kommen dazu.

Mac-KonfigurationRealistische ModelleEmpfehlung
8 GB Unified Memorygemma4:e2b, gemma4:e4b, kleinere Qwen3-ModelleLeichte Modelle, kurze Kontexte
16 GB Unified Memorykleinere Qwen3-/Gemma-Modelle, keine großen KontexteEinstieg in mittlere Modelle
24 GB Unified Memorygemma4:26b, qwen3.6:27b mit begrenztem Kontextgemma4:26b kann ein sinnvoller erster Test sein, aber Kontextfenster, Vision-Eingaben und parallele Apps müssen begrenzt werden. qwen3.6:27b kann funktionieren, ist aber stärker vom freien Unified Memory und Kontext abhängig.
32 GB Unified Memorygemma4:31b, qwen3.6:35b-a3b, qwen3.6:27b-mlxgemma4:31b und qwen3.6:35b-a3b sind testbar, aber nicht automatisch komfortabel mit großem Kontext. Für längere Agentenläufe sind 48 GB+ deutlich entspannter.
48 GB Unified Memory+ gemma4:31b mit größerem KontextEntspannter 31B-Betrieb mit größerem Kontextfenster
64 GB+ Unified Memory+ qwen3.6:35b-a3b mit Kontext64 GB+ bedeutet nicht automatisch Llama 4 Scout. Das Ollama-Paket liegt bei ca. 67 GB, dazu kommen Runtime, KV-Cache, macOS und Apps.

Llama 4 Scout (ca. 67 GB) ist für normale lokale Macs ungeeignet — auch für Mac Studio M4 Max mit 48 GB.

Model Fit Cards: Qwen3.6, Gemma 4 und Llama 4 Scout — Fokus, Stärken und Warnungen pro Modellfamilie

Modellauswahl: aktuelle Ollama-Tags · Stand: 18. Juni 2026


Qwen3.6 — Coding und Agenten mit 27B Dense und 35B-A3B MoE

Qwen3.6 ist eine aktuelle offene Qwen-Generation für lokale und agentische Workflows mit 27B-Dense- und 35B-A3B-MoE-Varianten. Die 35B-A3B-Variante erreicht in mehreren Benchmarks hohe Werte (siehe Caveat unten).

Setup:

# 27B — Text + Bild, guter lokaler Einstieg
ollama pull qwen3.6:27b

# 35B-A3B — größere Qualitätsvariante (ab 32 GB+ Unified Memory).
# Expliziter A3B-Tag; `qwen3.6:35b` löst auf dasselbe Modell auf.
ollama pull qwen3.6:35b-a3b

# MLX-Tag — Text-only, nicht für Vision
ollama pull qwen3.6:27b-mlx

# Starten
ollama run qwen3.6:35b-a3b

Benchmarks (35B-A3B, Angaben von Qwen/Qwen Blog):

Benchmark-Caveat-Strip: Herstellerwerte sind keine direkten Modellvergleichswerte

Benchmark-Hinweis: Die folgenden Werte stammen aus Herstellerseiten, Model Cards oder Ollama-Readmes. Sie sind nützlich für die Einordnung, aber keine eigenen ai-on-mac.com-Messungen. Harness, Tool-Nutzung, Kontextlänge, Timeout, Prompting, Thinking-Modus und Shot-Zahl können zwischen Modellfamilien stark abweichen.

BenchmarkWertEinordnung
AIME 202692,7 %Hoher Wert für ein Open-Weight-Modell
MMLU-Pro85,2 %Wissens-/Reasoning-Benchmark
LiveCodeBench v680,4 %Live-Coding-Aufgaben
SWE-bench Verified73,4 %Agentic-Coding mit internem Scaffold (siehe Caveat)
Terminal-Bench 2.051,5 %Terminal-Integration, Harbor/Terminus-2-Setup

Hersteller-/Modellkartenwerte. Nicht als direkte Rangliste zwischen Modellfamilien lesen: Harness, Prompting, Tool-Nutzung, Thinking-Modus, Shot-Zahl und Auswertung können abweichen.

Was es besonders macht:

  • Thinking-/Agenten-Workflows: Qwen3.6 ist auf längere Coding- und Repository-Aufgaben ausgerichtet. Im normalen Chat solltest du eher kurze Begründungen verlangen als komplette Denkspuren.
  • Agentic Coding: Repository-Level-Verständnis, Frontend-Workflows, Terminal-Integration
  • 256K Kontext bei 35B-A3B
  • A3B = „Active 3 Billion” — bei der 35B-MoE-Variante werden pro Token nur 3B Parameter aktiviert

Auf dem Mac: qwen3.6:27b ist mit ca. 17 GB Paketgröße der sinnvollere Einstieg, wenn du Text+Bild brauchst. qwen3.6:27b-mlx ist Text-only und liegt bei ca. 20 GB. qwen3.6:35b-a3b liegt bei ca. 24 GB Paketgröße und ist realistischer ab 32 GB Unified Memory.

Auf 32-GB-Macs ist qwen3.6:27b nur mit begrenztem Kontext und ausreichend freiem Speicher sinnvoll. Eine Kontextgrenze von 32K kann ein praktikabler Startwert sein; ollama ps und der Speicherdruck in macOS zeigen, ob weiter reduziert werden muss.


Gemma 4 — Vision und Reasoning in 12B / 26B A4B / 31B

Gemma 4 ist Google DeepMinds vierte Gemma-Generation und in mehreren Größen verfügbar: E2B, E4B, 26B A4B (MoE) und 31B (Dense).

Setup:

# 26B A4B MoE — guter Effizienz-Kompromiss für leistungsfähigere Macs
ollama pull gemma4:26b

# 31B Dense — höhere Gemma-Qualität, mehr Speicherbedarf
ollama pull gemma4:31b

# 4B — sehr leicht, für ältere Macs und kurze Aufgaben
ollama pull gemma4:e4b

Benchmarks (31B, Google/Ollama Gemma 4 Tabelle für Instruction-Tuned):

BenchmarkWertEinordnung
AIME 2026 (no tools)89,2 %Reasoning-Benchmark ohne externe Tools
MMLU-Pro85,2 %Wissens-/Reasoning-Benchmark
LiveCodeBench v680,0 %Live-Coding-Aufgaben
Codeforces ELO2150Competitive-Programming-Wert
GPQA Diamond84,3 %Domänenspezifisches Reasoning
MMMU Pro76,9 %Multimodale Reasoning-Leistung

Hersteller-/Modellkartenwerte. Nicht als direkte Rangliste zwischen Modellfamilien lesen: Harness, Prompting, Tool-Nutzung, Thinking-Modus, Shot-Zahl und Auswertung können abweichen.

Was es besonders macht:

  • 256K Kontext bei 26B A4B und 31B
  • Text + Bild bei allen Größen; Audio laut Google nativ bei E2B, E4B und 12B — Ollama- und Client-Unterstützung prüfen
  • 26B A4B MoE: 25,2B Total, 3,8B aktiv pro Token — effizienter als 31B Dense
  • Aktiv gepflegt auf Ollama

Auf dem Mac: gemma4:26b braucht ca. 18 GB, gemma4:31b ca. 20 GB.


Llama 4 Scout — 67-GB-Spezialfall für sehr große Unified-Memory-Setups

Meta Llama 4 Scout ist ein 109B-MoE-Modell mit 17B aktiven Parametern. In Ollama liegt das Paket bei ca. 67 GB. Das ist weit außerhalb dessen, was normale lokale Mac-Setups entspannt leisten.

# 109B MoE — ca. 67 GB; NICHT für normale Macs geeignet
ollama pull llama4:16x17b

Benchmarks wie MMLU Pro: 74,3 % und MMMU: 69,4 % sind beachtlich, aber der Speicherbedarf macht lokale Nutzung auf den meisten Macs unpraktisch. Llama 4 Scout ist eher ein Modell für Multi-GPU-Server, Workstations oder sehr große Unified-Memory-Experimente als für den privaten oder professionellen Mac-Alltag.

Für die Zukunft beobachten: MLX-Varianten mit aggressiverer Quantisierung könnten den Speicherbedarf senken. Stand Mai 2026 ist Llama 4 Scout für die meisten Mac-Nutzer aber keine sinnvolle lokale Empfehlung.


Benchmarks: Methodik und Einschränkungen

Bevor du Modelle anhand von Zahlen vergleichst, beachte:

  • Benchmark-Harness: Gleiche Benchmarks werden mit unterschiedlichen Tools, Shot-Zahlen und Konfigurationen durchgeführt und sind nicht automatisch vergleichbar.
  • Thinking vs. Non-Thinking: Reasoning-Benchmarks wie AIME werden in unterschiedlichen Modi gemessen. Tool-Nutzung beeinflusst die Messung zusätzlich.
  • Benchmark ≠ Praxiseindruck: Ein Modell kann in Benchmarks hochscoren und in deinem Workflow trotzdem weniger nützlich sein als ein niedriger platziertes Modell mit besserem Prompt-Engineering.

Kontextfenster: Ollama-Einstellungen

Memory Stack: was dein Unified Memory wirklich füllt — Beispiel 24 GB Mac, qwen3.6:27b, 32K Kontext

Ollama setzt die Default-Kontextlänge basierend auf verfügbarem Unified Memory: typischerweise 4K unter 24 GiB, 32K zwischen 24 und 48 GiB, 256K ab 48 GiB. Größere Kontextfenster brauchen deutlich mehr Speicher — sie wachsen mit Layern, Heads und Bytes pro Token. Auf Apple Silicon ist Unified Memory der relevante Speicherpool, aber der tatsächlich nutzbare Speicher hängt von macOS, GPU-Offload, parallelen Apps und dem gewählten Modell ab.

# Ollama mit größerem Kontext starten
OLLAMA_CONTEXT_LENGTH=64000 ollama serve

# Prüfen, wie Modell, Offload und Kontext geladen wurden
ollama ps

Quick-Start

Für die Ollama-Installation auf dem Mac gibt es eine eigene Schritt-für-Schritt-Anleitung. Hier nur die Kurzfassung für den ersten Test:

# 1. Ollama installieren (falls noch nicht)
brew install ollama

# 2. Qwen3.6 lokal testen
ollama pull qwen3.6:27b
ollama run qwen3.6:27b

# 3. Gemma 4 26B — effizienter Sweet Spot (ab 24 GB)
ollama pull gemma4:26b
ollama run gemma4:26b

# 4. Gemma 4 31B — Reasoning-Enthusiasten (ab 48 GB)
ollama pull gemma4:31b
ollama run gemma4:31b

Je nach Mac-Konfiguration und Aufgabe das passende Modell wählen: gemma4:26b als vorsichtiger Allround-Test auf 24 GB, qwen3.6:35b-a3b für Coding-Agenten und längere Aufgaben ab 32 GB+, gemma4:e4b für einfache Aufgaben auf kleineren Macs.

Für 32 GB ist gemma4:26b ein vernünftiger erster Test. Ob parallele Apps möglich sind, hängt von Kontext, KV-Cache, Runtime und freiem Unified Memory ab.


Auf ai-on-mac.com:

Externe Primärquellen:


Quellen und Stand

Stand: 18. Juni 2026. Modellgrößen und Kontextangaben beziehen sich auf die aktuell gelisteten Ollama-Tags und offiziellen Modellseiten zum Prüfzeitpunkt. Benchmarkwerte sind Hersteller- und Model-Card-Angaben und nur mit gleicher Modellvariante, gleicher Runtime, gleichem Harness, gleicher Tool-Nutzung, gleicher Kontextlänge und gleicher Prompting-Methode direkt vergleichbar. Apple-Silicon-spezifische tok/s-Werte aus diesem Artikel stammen aus Community-Berichten und der Ollama/oMLX-Modellseite, nicht aus eigenen Messungen von ai-on-mac.com.

Häufig gestellte Fragen

Welches Modell ist am besten für Mac mini M4 Pro mit 24 GB?

Für 24 GB ist gemma4:26b der vorsichtigere erste Test, weil das Ollama-Paket etwa 18 GB groß ist und Text+Bild unterstützt. qwen3.6:27b kann ebenfalls laufen, braucht bei langen Kontexten und parallelen Apps aber spürbar mehr Luft.

Läuft Llama 4 Scout auf dem Mac?

Llama 4 Scout (16x17b) liegt in Ollama bei etwa 67 GB. Das ist für normale lokale Mac-Setups unpraktisch. Sehr große Unified-Memory-Macs können experimentieren, aber Qwen3.6 und Gemma 4 sind die sinnvolleren lokalen Kandidaten.

Was ist Thinking Mode bei Qwen3.6?

Qwen3.6 ist für Thinking- und Agenten-Workflows ausgelegt. Für normale Nutzung solltest du aber keine langen Denkspuren ausgeben lassen, sondern nach kurzer Begründung und Ergebnis fragen.

Wie viel RAM brauche ich für lokale Open-Weight-Modelle?

Das hängt vom Modell und der Nutzung ab: 8 GB reicht für E2B/E4B-Varianten (z. B. gemma4:e2b), 16 GB für 4B–8B-Modelle, 24 GB für 26B-Modelle, 32–48 GB für 31B-Dense-Modelle und 64 GB+ für die größten Varianten. Dazu kommen Kontextfenster, KV-Cache, macOS und andere Apps.

Sind die tok/s-Werte in diesem Artikel lokale Messungen?

Die genannten tok/s-Zahlen stammen aus Community-Berichten und der Ollama/oMLX-Modellseite.

Hat Gemma 4 wirklich Audio-Unterstützung?

Google nennt native Audio-Unterstützung für E2B, E4B und 12B. 26B A4B und 31B sind Text+Bild-Modelle. Ob Audio im konkreten Ollama-Tag und im verwendeten Client funktioniert, muss separat geprüft werden.