Welche Qwen3.6-Variante ist die richtige für meinen Mac?

Für 16 GB Macs: keine Qwen3.6-Variante komfortabel — nimm Qwen3 8B oder Gemma 3 4B. Für 24 GB: 27B-Dense mit Q4-Quantisierung funktioniert mit kurzem Kontext. Für 32-48 GB: 27B-Dense komfortabel oder 35B-A3B (MoE) — A3B ist sparsamer bei Aktivierung, also schneller pro Token. Für 64 GB+: 35B-A3B mit vollem 256K-Kontext. Auf M4 Pro 64 GB ist 35B-A3B der Sweet Spot für 2026.

Was bedeutet A3B bei Qwen3.6-35B-A3B?

35B-A3B ist ein Mixture-of-Experts-Modell mit 35 Milliarden Gesamtparametern und 3 Milliarden aktiven Parametern pro Token. Alle Expertengewichte müssen im Speicher erreichbar bleiben. Die geringe Aktivierung reduziert Rechenarbeit, macht das Modell wegen Routing, gemeinsamen Schichten und Speicherzugriffen aber nicht zu einem Dense-3B-Modell.

Hat Qwen3.6 Vision-Unterstützung?

Ja, in Ollama sind Qwen3.6-Tags mit Text- und Bildeingabe verfügbar. MLX-Tags können text-only sein. Die konkrete Bildqualität hängt von Modellvariante, Runtime und Aufgabe ab; ein pauschaler Gleichstand mit Qwen2-VL ist nicht belegt.

Wie groß sind die Qwen3.6-Ollama-Pakete?

27B-Dense: ca. 16–17 GB als Q4. 35B-A3B: ca. 20–22 GB, da alle Experten geladen werden müssen. BF16 benötigt gegenüber Q4 grob die vierfache Gewichtsspeichermenge; 35B BF16 liegt bei etwa 70 GB nur für Gewichte.

Qwen3.6 vs. Qwen3.5 — was ist neu?

Qwen3.6 bringt laut Alibaba bessere Coding- und Agent-Benchmarks, eine größere Familie (27B Dense, 35B MoE) und längere Kontextfenster. Wer Qwen3 14B oder 30B-A3B produktiv nutzt, sollte Qwen3.6-35B-A3B als direkten Nachfolger testen. Für neue Setups lohnt sich der Sprung von 14B auf 27B in den meisten Fällen mehr als von 27B auf 35B-A3B, weil RAM linearer skaliert als Qualität.

Qwen3.6 auf dem Mac: Ollama, Vision & RAM

Qwen3.6 ist für Mac-Nutzer vor allem dann nützlich, wenn du die Varianten sauber trennst. Es gibt ein dense Qwen3.6-27B, ein MoE-Modell Qwen3.6-35B-A3B, Ollama-Tags mit Vision, MLX-Tags ohne Bildinput und unterschiedliche Speichergrößen.

Dieser Guide räumt auf: Welche Qwen3.6-Variante läuft sinnvoll auf Apple Silicon, welcher Ollama-Befehl ist korrekt, wann bekommst du Vision, wann nur Text, und welche Benchmark-Zahlen gehören wirklich zu welchem Modell?

Ich habe Qwen3.6 auf meinem Mac Mini M4 mit 32 GB getestet, und Die 27B-Variante ist der pragmatische Einstieg. Sie läuft stabil und liefert für Coding und Vision-Aufgaben solide Ergebnisse — ohne den RAM zu vollzuladen.

Qwen3.6 auf dem Mac: Entscheidung nach Ollama-Tag, Vision, Coding und Unified Memory

Grafik auf Basis der offiziellen Qwen-Model-Cards und der Ollama-Modellseite. Quellen: Ollama Qwen3.6, Qwen3.6-27B Model Card, Qwen3.6-35B-A3B Model Card. Geprüft am 27. Mai 2026.

Qwen3.6 — Faktenstand Mai 2026

Kriterium	Qwen3.6-27B	Qwen3.6-35B-A3B
Release	22. April 2026	14. April 2026
Architektur	Dense	Mixture of Experts
Parameter	27B	35B total / 3B active
Aktiv pro Token	alle 27B	3B aktiv
Vision	ja, bei Vision-fähigem Tag/Runtime	ja
Kontext	262.144 nativ, bis ca. 1.010.000 erweiterbar	262.144 nativ, bis ca. 1.010.000 erweiterbar
Lizenz	Apache 2.0 / Open Weights	Apache 2.0 / Open Weights
Stärke	Dense-Profil, Vision, lokale Ollama-Nutzung	MoE, Agentic Coding, Vision
Mac-Eignung	realistisch als quantisierter Ollama-/MLX-Tag auf 24–32 GB	eher 32 GB+, je nach Quantisierung und Kontext

Qwen3.6-27B vs Qwen3.6-35B-A3B — nicht dasselbe

Qwen3.6-27B ist ein dense Modell: Alle 27B Parameter werden pro Token aktiviert. Es ist einfacher zu quantisieren, lokal stabil und eignet sich gut als Einstieg auf Apple Silicon.

Qwen3.6-35B-A3B ist ein Mixture-of-Experts-Modell: 35B Gesamtparameter, aber nur 3B werden pro Token aktiviert. Bei der Inferenz werden nur ~3B der 35B Parameter aktiviert — das Modell arbeitet also sparsamer als ein vergleichbar großes Dense-Modell, braucht aber mehr Aufmerksamkeit bei Tag-Auswahl, Runtime, Kontextlänge und Vision-Unterstützung.

Welchen Ollama-Tag soll ich auf dem Mac nehmen?

Laut Ollama Library (Stand Mai 2026):

Ziel	Empfohlener Tag	Warum
Vision + lokale Nutzung	`qwen3.6:27b`	17 GB, Text + Image, niedrigere Einstiegshürde
Größere Vision-/MoE-Variante	`qwen3.6:35b`	24 GB, Text + Image, besser auf 32 GB+
MLX/Coding ohne Vision	`qwen3.6:27b-mlx`	20 GB, MLX, Text-only
MoE/MLX ohne Vision	`qwen3.6:35b-mlx`	22 GB, MLX, Text-only
Maximale Qualität / BF16	BF16-Tags	nur für sehr große Macs/Workstations

Wichtig: Die MLX-Tags sind laut Ollama Text-only. Wenn du Vision brauchst, nimm nicht automatisch einen MLX-Tag. Prüfe in der Ollama Library, ob der konkrete Tag Text, Image oder nur Text unterstützt.

Ebenfalls wichtig: ollama run qwen3.6 nutzt den aktuellen Default-/Latest-Tag. Wenn du gezielt den leichteren lokalen Einstieg willst, nenne den Tag explizit: qwen3.6:27b.

Setup mit Ollama

Ollama installieren

brew install ollama

Modell herunterladen

# Vision-fähiger 27B-Einstieg (Text + Image)
ollama pull qwen3.6:27b

# Größere 35B-A3B/MoE-Variante (Text + Image)
ollama pull qwen3.6:35b

# MLX-Tag — Text-only, NICHT Vision-fähig
ollama pull qwen3.6:27b-mlx

# MoE/MLX-Tag — Text-only
ollama pull qwen3.6:35b-mlx

Modell starten

# Vision-Variante starten
ollama run qwen3.6:27b

# MLX-Variante starten
ollama run qwen3.6:27b-mlx

Vision: nur mit dem richtigen Tag

Qwen3.6 kann Vision — aber nicht jeder Ollama-Tag ist vision-fähig. qwen3.6:27b und qwen3.6:35b sind als Text + Image gelistet. Die MLX-Tags sind als Text-only gelistet.

Bild mit einer Vision-fähigen Variante:

from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
    model="qwen3.6:27b",  # oder qwen3.6:35b — nicht mlx für Vision
    messages=[{
        "role": "user",
        "content": [
            {"type": "image_url", "image_url": {"url": "https://example.com/bild.png"}},
            {"type": "text", "text": "Was zeigt dieses Bild?"}
        ]
    }]
)
print(response.choices[0].message.content)

Thinking richtig nutzen — ohne Denkspur-Hype

Qwen3.6 ist für Thinking-Workflows trainiert. Aber du solltest nicht blind lange Denkspuren ausgeben lassen:

Für normale Antworten reicht eine kurze Begründung.
Für Agenten ist preserve_thinking wichtiger — das Modell nutzt frühere Denk-/Arbeitskontexte konsistenter.
enable_thinking: false schaltet Thinking bei unterstützenden Runtimes ab.

In Ollama ohne spezielle API-Parameter: Bitte einfach um kurze Begründung und Ergebnis, statt das Modell aufzufordern, seine gesamten Reasoning-Schritte auszugeben.

Benchmarks: welche Zahlen zu welchem Modell?

Viele Werte nutzen spezielle Agent-Scaffolds, lange Kontextfenster oder Tool-Setups.auf deinen Mac übertragbar.

Qwen3.6-35B-A3B, laut Qwen (April 2026)

Benchmark	Wert	Einordnung
AIME 2026	92,7 %	voller AIME 2026 I & II, laut Qwen
MMLU-Pro	85,2 %	Wissens-/Reasoning-Benchmark
LiveCodeBench v6	80,4 %	Coding
SWE-bench Verified	73,4 %	Agentic Coding, interner Scaffold
Terminal-Bench 2.0	51,5 %	5 Runs, 256K Kontext, spezieller Harness
MMMU	81,7 %	Vision/Multimodal
MathVista mini	86,4 %	visuelles mathematisches Reasoning

Qwen3.6-27B

27B-Werte aus der Qwen3.6-27B-Veröffentlichung (22. April 2026) und dürfen nicht mit der 35B-A3B-Tabelle vermischt werden.

Note: Viele Qwen-Benchmarks nutzen spezielle Agent-Scaffolds, lange Kontextfenster, mehrere Läufe und Tool-Setups. Nützlich zur Einordnung.

RAM-/Unified-Memory-Empfehlungen

Die Ollama-Modellgröße ist nur ein Anhaltspunkt. Realer Speicherbedarf hängt von Quantisierung, Kontextlänge, KV-Cache, Runtime und anderen Apps ab.

Unified Memory	Empfehlung
16 GB	Eher kleinere Qwen3-Modelle oder stark quantisierte 27B-Experimente; Qwen3.6 nicht entspannt
24 GB	`qwen3.6:27b` oder `27b-mlx` realistisch, aber Kontext und parallele Apps begrenzen
32 GB	Guter Sweet Spot für 27B und vorsichtige 35B-A3B-Nutzung
48 GB+	Deutlich entspannter für 35B-A3B, Vision und längeren Kontext
64 GB+	BF16 und hoher Kontext realistischer, aber noch immer runtimeabhängig

Geschwindigkeit auf dem Mac hängt stark von Mac-Modell, RAM, Kontext, Quantisierung, Ollama-/MLX-Version, Promptlänge und Vision ab.

Qwen3.6 vs Alternativen auf dem Mac

Modell	Lokal auf Mac?	Vision?	Stärke	Anmerkung
Qwen3.6-27B	ja, quantisiert realistisch	ja bei passendem Tag	Coding, Vision, dichter 27B-Allrounder	braucht 24–32 GB sinnvoll
Qwen3.6-35B-A3B	ja, aber eher 32 GB+	ja	MoE, Agentic Coding, lange Kontexte	Tags/Quantisierung genau prüfen
Gemma 3 27B	ja	ja	Vision + solide lokale Qualität	älter, andere Benchmarks
Qwen3 14B/32B	ja	meist text-only je nach Tag	leichter/schneller	weniger Agent-Fokus als Qwen3.6
Cloud-Modelle	nein/lokal nicht	je nach Anbieter	maximale Qualität	Datenschutz/Kosten/API

FAQ

Ist Qwen3.6-27B dasselbe wie Qwen3.6-35B-A3B? Nein. 27B ist ein dense Modell, 35B-A3B ist ein MoE-Modell mit 35B total und 3B aktiv pro Token.

Welchen Qwen3.6-Tag soll ich auf dem Mac installieren? Für Vision: qwen3.6:27b als Einstieg. Für MLX/Text ohne Vision: qwen3.6:27b-mlx. Für mehr RAM/Experimentieren: qwen3.6:35b oder qwen3.6:35b-mlx.

Hat qwen3.6:27b-mlx Vision? Laut Ollama ist dieser Tag Text-only. Für Bilder solltest du einen Text+Image-Tag wie qwen3.6:27b oder qwen3.6:35b verwenden.

Reichen 24 GB Unified Memory? Für den 27B-Tag kann es mit begrenztem Kontext funktionieren, aber es ist kein komfortabler Dauerbetrieb mit vielen Apps, Vision und großem Kontext. 32 GB sind entspannter, 48 GB besser für 35B-A3B.

Sind die Qwen-Benchmarks direkt auf meinen Mac übertragbar? Nein. Viele Werte stammen aus speziellen Agent-/Server-Setups. Auf dem Mac beeinflussen Quantisierung, Kontextlänge, Runtime und Speicher die Leistung.

Fazit

Qwen3.6 ist für Mac-Nutzer nützlich, aber nur, wenn man die Varianten sauber trennt. Qwen3.6-27B ist der praktischere lokale Einstieg, besonders mit quantisierten Ollama- oder MLX-Tags. Qwen3.6-35B-A3B ist als MoE-Modell relevant, braucht aber mehr Aufmerksamkeit bei Tag, Runtime, Vision-Unterstützung und Speicher.

Die wichtigste Regel: Installiere nicht blind den Tag mit dem verlockendsten Namen. Prüfe, ob du Vision brauchst, wie viel Unified Memory frei ist, ob der Tag Text-only ist und ob deine Benchmark-Erwartung wirklich zur Modellvariante passt.

Was ich mitnehmen würde: Wer Qwen3.6 testen will, sollte mit der 27B-Variante starten. Sie ist der perfekte Kompromiss aus Qualität und Ressourcenverbrauch auf einem Mac mit 24-32 GB RAM.

Quellen und Stand

Stand: geprüft am 27. Mai 2026. Qwen3.6 entwickelt sich schnell; Ollama-Tags, MLX-Quantisierungen und Benchmarktabellen können sich ändern.

Qwen3.6 auf dem Mac: 27B, 35B-A3B, Vision und Ollama

Qwen3.6 — Faktenstand Mai 2026

Qwen3.6-27B vs Qwen3.6-35B-A3B — nicht dasselbe

Welchen Ollama-Tag soll ich auf dem Mac nehmen?

Setup mit Ollama

Ollama installieren

Modell herunterladen

Modell starten

Vision: nur mit dem richtigen Tag

Thinking richtig nutzen — ohne Denkspur-Hype

Benchmarks: welche Zahlen zu welchem Modell?

Qwen3.6-35B-A3B, laut Qwen (April 2026)

Qwen3.6-27B

RAM-/Unified-Memory-Empfehlungen

Qwen3.6 vs Alternativen auf dem Mac

FAQ

Fazit

Häufig gestellte Fragen

Qwen3.6 — Faktenstand Mai 2026

Qwen3.6-27B vs Qwen3.6-35B-A3B — nicht dasselbe

Welchen Ollama-Tag soll ich auf dem Mac nehmen?

Setup mit Ollama

Ollama installieren

Modell herunterladen

Modell starten

Vision: nur mit dem richtigen Tag

Thinking richtig nutzen — ohne Denkspur-Hype

Benchmarks: welche Zahlen zu welchem Modell?

Qwen3.6-35B-A3B, laut Qwen (April 2026)

Qwen3.6-27B

RAM-/Unified-Memory-Empfehlungen

Qwen3.6 vs Alternativen auf dem Mac

FAQ

Fazit

Häufig gestellte Fragen

Weiterlesen