Qwen3.6 auf dem Mac: 27B, 35B-A3B, Vision und Ollama
Qwen3.6 lokal auf Apple Silicon nutzen: 27B vs. 35B-A3B, Ollama- und MLX-Tags, Vision, Benchmarks und realistische RAM-Grenzen.
Qwen3.6 ist für Mac-Nutzer vor allem dann nützlich, wenn du die Varianten sauber trennst. Es gibt ein dense Qwen3.6-27B, ein MoE-Modell Qwen3.6-35B-A3B, Ollama-Tags mit Vision, MLX-Tags ohne Bildinput und unterschiedliche Speichergrößen.
Dieser Guide räumt auf: Welche Qwen3.6-Variante läuft sinnvoll auf Apple Silicon, welcher Ollama-Befehl ist korrekt, wann bekommst du Vision, wann nur Text, und welche Benchmark-Zahlen gehören wirklich zu welchem Modell?
Ich habe Qwen3.6 auf meinem Mac Mini M4 mit 32 GB getestet, und Die 27B-Variante ist der pragmatische Einstieg. Sie läuft stabil und liefert für Coding und Vision-Aufgaben solide Ergebnisse — ohne den RAM zu vollzuladen.
Grafik auf Basis der offiziellen Qwen-Model-Cards und der Ollama-Modellseite. Quellen: Ollama Qwen3.6, Qwen3.6-27B Model Card, Qwen3.6-35B-A3B Model Card. Geprüft am 27. Mai 2026.
Qwen3.6 — Faktenstand Mai 2026
| Kriterium | Qwen3.6-27B | Qwen3.6-35B-A3B |
|---|---|---|
| Release | 22. April 2026 | 14. April 2026 |
| Architektur | Dense | Mixture of Experts |
| Parameter | 27B | 35B total / 3B active |
| Aktiv pro Token | alle 27B | 3B aktiv |
| Vision | ja, bei Vision-fähigem Tag/Runtime | ja |
| Kontext | 262.144 nativ, bis ca. 1.010.000 erweiterbar | 262.144 nativ, bis ca. 1.010.000 erweiterbar |
| Lizenz | Apache 2.0 / Open Weights | Apache 2.0 / Open Weights |
| Stärke | Dense-Profil, Vision, lokale Ollama-Nutzung | MoE, Agentic Coding, Vision |
| Mac-Eignung | realistisch als quantisierter Ollama-/MLX-Tag auf 24–32 GB | eher 32 GB+, je nach Quantisierung und Kontext |
Qwen3.6-27B vs Qwen3.6-35B-A3B — nicht dasselbe
Qwen3.6-27B ist ein dense Modell: Alle 27B Parameter werden pro Token aktiviert. Es ist einfacher zu quantisieren, lokal stabil und eignet sich gut als Einstieg auf Apple Silicon.
Qwen3.6-35B-A3B ist ein Mixture-of-Experts-Modell: 35B Gesamtparameter, aber nur 3B werden pro Token aktiviert. Bei der Inferenz werden nur ~3B der 35B Parameter aktiviert — das Modell arbeitet also sparsamer als ein vergleichbar großes Dense-Modell, braucht aber mehr Aufmerksamkeit bei Tag-Auswahl, Runtime, Kontextlänge und Vision-Unterstützung.
Welchen Ollama-Tag soll ich auf dem Mac nehmen?
Laut Ollama Library (Stand Mai 2026):
| Ziel | Empfohlener Tag | Warum |
|---|---|---|
| Vision + lokale Nutzung | qwen3.6:27b | 17 GB, Text + Image, niedrigere Einstiegshürde |
| Größere Vision-/MoE-Variante | qwen3.6:35b | 24 GB, Text + Image, besser auf 32 GB+ |
| MLX/Coding ohne Vision | qwen3.6:27b-mlx | 20 GB, MLX, Text-only |
| MoE/MLX ohne Vision | qwen3.6:35b-mlx | 22 GB, MLX, Text-only |
| Maximale Qualität / BF16 | BF16-Tags | nur für sehr große Macs/Workstations |
Wichtig: Die MLX-Tags sind laut Ollama Text-only. Wenn du Vision brauchst, nimm nicht automatisch einen MLX-Tag. Prüfe in der Ollama Library, ob der konkrete Tag Text, Image oder nur Text unterstützt.
Ebenfalls wichtig:
ollama run qwen3.6nutzt den aktuellen Default-/Latest-Tag. Wenn du gezielt den leichteren lokalen Einstieg willst, nenne den Tag explizit:qwen3.6:27b.
Setup mit Ollama
Ollama installieren
brew install ollama
Modell herunterladen
# Vision-fähiger 27B-Einstieg (Text + Image)
ollama pull qwen3.6:27b
# Größere 35B-A3B/MoE-Variante (Text + Image)
ollama pull qwen3.6:35b
# MLX-Tag — Text-only, NICHT Vision-fähig
ollama pull qwen3.6:27b-mlx
# MoE/MLX-Tag — Text-only
ollama pull qwen3.6:35b-mlx
Modell starten
# Vision-Variante starten
ollama run qwen3.6:27b
# MLX-Variante starten
ollama run qwen3.6:27b-mlx
Vision: nur mit dem richtigen Tag
Qwen3.6 kann Vision — aber nicht jeder Ollama-Tag ist vision-fähig. qwen3.6:27b und qwen3.6:35b sind als Text + Image gelistet. Die MLX-Tags sind als Text-only gelistet.
Bild mit einer Vision-fähigen Variante:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
model="qwen3.6:27b", # oder qwen3.6:35b — nicht mlx für Vision
messages=[{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": "https://example.com/bild.png"}},
{"type": "text", "text": "Was zeigt dieses Bild?"}
]
}]
)
print(response.choices[0].message.content)
Thinking richtig nutzen — ohne Denkspur-Hype
Qwen3.6 ist für Thinking-Workflows trainiert. Aber du solltest nicht blind lange Denkspuren ausgeben lassen:
- Für normale Antworten reicht eine kurze Begründung.
- Für Agenten ist
preserve_thinkingwichtiger — das Modell nutzt frühere Denk-/Arbeitskontexte konsistenter. enable_thinking: falseschaltet Thinking bei unterstützenden Runtimes ab.
In Ollama ohne spezielle API-Parameter: Bitte einfach um kurze Begründung und Ergebnis, statt das Modell aufzufordern, seine gesamten Reasoning-Schritte auszugeben.
Benchmarks: welche Zahlen zu welchem Modell?
Viele Werte nutzen spezielle Agent-Scaffolds, lange Kontextfenster oder Tool-Setups.auf deinen Mac übertragbar.
Qwen3.6-35B-A3B, laut Qwen (April 2026)
| Benchmark | Wert | Einordnung |
|---|---|---|
| AIME 2026 | 92,7 % | voller AIME 2026 I & II, laut Qwen |
| MMLU-Pro | 85,2 % | Wissens-/Reasoning-Benchmark |
| LiveCodeBench v6 | 80,4 % | Coding |
| SWE-bench Verified | 73,4 % | Agentic Coding, interner Scaffold |
| Terminal-Bench 2.0 | 51,5 % | 5 Runs, 256K Kontext, spezieller Harness |
| MMMU | 81,7 % | Vision/Multimodal |
| MathVista mini | 86,4 % | visuelles mathematisches Reasoning |
Qwen3.6-27B
27B-Werte aus der Qwen3.6-27B-Veröffentlichung (22. April 2026) und dürfen nicht mit der 35B-A3B-Tabelle vermischt werden.
Note: Viele Qwen-Benchmarks nutzen spezielle Agent-Scaffolds, lange Kontextfenster, mehrere Läufe und Tool-Setups. Nützlich zur Einordnung.
RAM-/Unified-Memory-Empfehlungen
Die Ollama-Modellgröße ist nur ein Anhaltspunkt. Realer Speicherbedarf hängt von Quantisierung, Kontextlänge, KV-Cache, Runtime und anderen Apps ab.
| Unified Memory | Empfehlung |
|---|---|
| 16 GB | Eher kleinere Qwen3-Modelle oder stark quantisierte 27B-Experimente; Qwen3.6 nicht entspannt |
| 24 GB | qwen3.6:27b oder 27b-mlx realistisch, aber Kontext und parallele Apps begrenzen |
| 32 GB | Guter Sweet Spot für 27B und vorsichtige 35B-A3B-Nutzung |
| 48 GB+ | Deutlich entspannter für 35B-A3B, Vision und längeren Kontext |
| 64 GB+ | BF16 und hoher Kontext realistischer, aber noch immer runtimeabhängig |
Geschwindigkeit auf dem Mac hängt stark von Mac-Modell, RAM, Kontext, Quantisierung, Ollama-/MLX-Version, Promptlänge und Vision ab.
Qwen3.6 vs Alternativen auf dem Mac
| Modell | Lokal auf Mac? | Vision? | Stärke | Anmerkung |
|---|---|---|---|---|
| Qwen3.6-27B | ja, quantisiert realistisch | ja bei passendem Tag | Coding, Vision, dichter 27B-Allrounder | braucht 24–32 GB sinnvoll |
| Qwen3.6-35B-A3B | ja, aber eher 32 GB+ | ja | MoE, Agentic Coding, lange Kontexte | Tags/Quantisierung genau prüfen |
| Gemma 3 27B | ja | ja | Vision + solide lokale Qualität | älter, andere Benchmarks |
| Qwen3 14B/32B | ja | meist text-only je nach Tag | leichter/schneller | weniger Agent-Fokus als Qwen3.6 |
| Cloud-Modelle | nein/lokal nicht | je nach Anbieter | maximale Qualität | Datenschutz/Kosten/API |
FAQ
Ist Qwen3.6-27B dasselbe wie Qwen3.6-35B-A3B? Nein. 27B ist ein dense Modell, 35B-A3B ist ein MoE-Modell mit 35B total und 3B aktiv pro Token.
Welchen Qwen3.6-Tag soll ich auf dem Mac installieren?
Für Vision: qwen3.6:27b als Einstieg. Für MLX/Text ohne Vision: qwen3.6:27b-mlx. Für mehr RAM/Experimentieren: qwen3.6:35b oder qwen3.6:35b-mlx.
Hat qwen3.6:27b-mlx Vision?
Laut Ollama ist dieser Tag Text-only. Für Bilder solltest du einen Text+Image-Tag wie qwen3.6:27b oder qwen3.6:35b verwenden.
Reichen 24 GB Unified Memory? Für den 27B-Tag kann es mit begrenztem Kontext funktionieren, aber es ist kein komfortabler Dauerbetrieb mit vielen Apps, Vision und großem Kontext. 32 GB sind entspannter, 48 GB besser für 35B-A3B.
Sind die Qwen-Benchmarks direkt auf meinen Mac übertragbar? Nein. Viele Werte stammen aus speziellen Agent-/Server-Setups. Auf dem Mac beeinflussen Quantisierung, Kontextlänge, Runtime und Speicher die Leistung.
Fazit
Qwen3.6 ist für Mac-Nutzer nützlich, aber nur, wenn man die Varianten sauber trennt. Qwen3.6-27B ist der praktischere lokale Einstieg, besonders mit quantisierten Ollama- oder MLX-Tags. Qwen3.6-35B-A3B ist als MoE-Modell relevant, braucht aber mehr Aufmerksamkeit bei Tag, Runtime, Vision-Unterstützung und Speicher.
Die wichtigste Regel: Installiere nicht blind den Tag mit dem verlockendsten Namen. Prüfe, ob du Vision brauchst, wie viel Unified Memory frei ist, ob der Tag Text-only ist und ob deine Benchmark-Erwartung wirklich zur Modellvariante passt.
Was ich mitnehmen würde: Wer Qwen3.6 testen will, sollte mit der 27B-Variante starten. Sie ist der perfekte Kompromiss aus Qualität und Ressourcenverbrauch auf einem Mac mit 24-32 GB RAM.
Quellen und Stand
Stand: geprüft am 27. Mai 2026. Qwen3.6 entwickelt sich schnell; Ollama-Tags, MLX-Quantisierungen und Benchmarktabellen können sich ändern.
Häufig gestellte Fragen
Welche Qwen3.6-Variante ist die richtige für meinen Mac?
Für 16 GB Macs: keine Qwen3.6-Variante komfortabel — nimm Qwen3 8B oder Gemma 3 4B. Für 24 GB: 27B-Dense mit Q4-Quantisierung funktioniert mit kurzem Kontext. Für 32-48 GB: 27B-Dense komfortabel oder 35B-A3B (MoE) — A3B ist sparsamer bei Aktivierung, also schneller pro Token. Für 64 GB+: 35B-A3B mit vollem 256K-Kontext. Auf M4 Pro 64 GB ist 35B-A3B der Sweet Spot für 2026.
Was bedeutet A3B bei Qwen3.6-35B-A3B?
35B-A3B ist ein Mixture-of-Experts-Modell mit 35 Milliarden Gesamtparametern und 3 Milliarden aktiven Parametern pro Token. Alle Expertengewichte müssen im Speicher erreichbar bleiben. Die geringe Aktivierung reduziert Rechenarbeit, macht das Modell wegen Routing, gemeinsamen Schichten und Speicherzugriffen aber nicht zu einem Dense-3B-Modell.
Hat Qwen3.6 Vision-Unterstützung?
Ja, in Ollama sind Qwen3.6-Tags mit Text- und Bildeingabe verfügbar. MLX-Tags können text-only sein. Die konkrete Bildqualität hängt von Modellvariante, Runtime und Aufgabe ab; ein pauschaler Gleichstand mit Qwen2-VL ist nicht belegt.
Wie groß sind die Qwen3.6-Ollama-Pakete?
27B-Dense: ca. 16–17 GB als Q4. 35B-A3B: ca. 20–22 GB, da alle Experten geladen werden müssen. BF16 benötigt gegenüber Q4 grob die vierfache Gewichtsspeichermenge; 35B BF16 liegt bei etwa 70 GB nur für Gewichte.
Qwen3.6 vs. Qwen3.5 — was ist neu?
Qwen3.6 bringt laut Alibaba bessere Coding- und Agent-Benchmarks, eine größere Familie (27B Dense, 35B MoE) und längere Kontextfenster. Wer Qwen3 14B oder 30B-A3B produktiv nutzt, sollte Qwen3.6-35B-A3B als direkten Nachfolger testen. Für neue Setups lohnt sich der Sprung von 14B auf 27B in den meisten Fällen mehr als von 27B auf 35B-A3B, weil RAM linearer skaliert als Qualität.