Anleitungen 7 Min. Lesezeit

Qwen3.6 auf dem Mac: 27B, 35B-A3B, Vision und Ollama

Qwen3.6 lokal auf Apple Silicon nutzen: 27B vs. 35B-A3B, Ollama- und MLX-Tags, Vision, Benchmarks und realistische RAM-Grenzen.

Technische Recherche und redaktionelle Prüfung. Eigene Messungen werden im Artikel ausdrücklich gekennzeichnet.

Veröffentlicht: 9. Mai 2026 Aktualisiert: 29. Mai 2026

Redaktionelle Methode

Qwen3.6 ist für Mac-Nutzer vor allem dann nützlich, wenn du die Varianten sauber trennst. Es gibt ein dense Qwen3.6-27B, ein MoE-Modell Qwen3.6-35B-A3B, Ollama-Tags mit Vision, MLX-Tags ohne Bildinput und unterschiedliche Speichergrößen.

Dieser Guide räumt auf: Welche Qwen3.6-Variante läuft sinnvoll auf Apple Silicon, welcher Ollama-Befehl ist korrekt, wann bekommst du Vision, wann nur Text, und welche Benchmark-Zahlen gehören wirklich zu welchem Modell?

Ich habe Qwen3.6 auf meinem Mac Mini M4 mit 32 GB getestet, und Die 27B-Variante ist der pragmatische Einstieg. Sie läuft stabil und liefert für Coding und Vision-Aufgaben solide Ergebnisse — ohne den RAM zu vollzuladen.

Qwen3.6 auf dem Mac: Entscheidung nach Ollama-Tag, Vision, Coding und Unified Memory

Grafik auf Basis der offiziellen Qwen-Model-Cards und der Ollama-Modellseite. Quellen: Ollama Qwen3.6, Qwen3.6-27B Model Card, Qwen3.6-35B-A3B Model Card. Geprüft am 27. Mai 2026.


Qwen3.6 — Faktenstand Mai 2026

KriteriumQwen3.6-27BQwen3.6-35B-A3B
Release22. April 202614. April 2026
ArchitekturDenseMixture of Experts
Parameter27B35B total / 3B active
Aktiv pro Tokenalle 27B3B aktiv
Visionja, bei Vision-fähigem Tag/Runtimeja
Kontext262.144 nativ, bis ca. 1.010.000 erweiterbar262.144 nativ, bis ca. 1.010.000 erweiterbar
LizenzApache 2.0 / Open WeightsApache 2.0 / Open Weights
StärkeDense-Profil, Vision, lokale Ollama-NutzungMoE, Agentic Coding, Vision
Mac-Eignungrealistisch als quantisierter Ollama-/MLX-Tag auf 24–32 GBeher 32 GB+, je nach Quantisierung und Kontext

Qwen3.6-27B vs Qwen3.6-35B-A3B — nicht dasselbe

Qwen3.6-27B ist ein dense Modell: Alle 27B Parameter werden pro Token aktiviert. Es ist einfacher zu quantisieren, lokal stabil und eignet sich gut als Einstieg auf Apple Silicon.

Qwen3.6-35B-A3B ist ein Mixture-of-Experts-Modell: 35B Gesamtparameter, aber nur 3B werden pro Token aktiviert. Bei der Inferenz werden nur ~3B der 35B Parameter aktiviert — das Modell arbeitet also sparsamer als ein vergleichbar großes Dense-Modell, braucht aber mehr Aufmerksamkeit bei Tag-Auswahl, Runtime, Kontextlänge und Vision-Unterstützung.


Welchen Ollama-Tag soll ich auf dem Mac nehmen?

Laut Ollama Library (Stand Mai 2026):

ZielEmpfohlener TagWarum
Vision + lokale Nutzungqwen3.6:27b17 GB, Text + Image, niedrigere Einstiegshürde
Größere Vision-/MoE-Varianteqwen3.6:35b24 GB, Text + Image, besser auf 32 GB+
MLX/Coding ohne Visionqwen3.6:27b-mlx20 GB, MLX, Text-only
MoE/MLX ohne Visionqwen3.6:35b-mlx22 GB, MLX, Text-only
Maximale Qualität / BF16BF16-Tagsnur für sehr große Macs/Workstations

Wichtig: Die MLX-Tags sind laut Ollama Text-only. Wenn du Vision brauchst, nimm nicht automatisch einen MLX-Tag. Prüfe in der Ollama Library, ob der konkrete Tag Text, Image oder nur Text unterstützt.

Ebenfalls wichtig: ollama run qwen3.6 nutzt den aktuellen Default-/Latest-Tag. Wenn du gezielt den leichteren lokalen Einstieg willst, nenne den Tag explizit: qwen3.6:27b.


Setup mit Ollama

Ollama installieren

brew install ollama

Modell herunterladen

# Vision-fähiger 27B-Einstieg (Text + Image)
ollama pull qwen3.6:27b

# Größere 35B-A3B/MoE-Variante (Text + Image)
ollama pull qwen3.6:35b

# MLX-Tag — Text-only, NICHT Vision-fähig
ollama pull qwen3.6:27b-mlx

# MoE/MLX-Tag — Text-only
ollama pull qwen3.6:35b-mlx

Modell starten

# Vision-Variante starten
ollama run qwen3.6:27b

# MLX-Variante starten
ollama run qwen3.6:27b-mlx

Vision: nur mit dem richtigen Tag

Qwen3.6 kann Vision — aber nicht jeder Ollama-Tag ist vision-fähig. qwen3.6:27b und qwen3.6:35b sind als Text + Image gelistet. Die MLX-Tags sind als Text-only gelistet.

Bild mit einer Vision-fähigen Variante:

from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
    model="qwen3.6:27b",  # oder qwen3.6:35b — nicht mlx für Vision
    messages=[{
        "role": "user",
        "content": [
            {"type": "image_url", "image_url": {"url": "https://example.com/bild.png"}},
            {"type": "text", "text": "Was zeigt dieses Bild?"}
        ]
    }]
)
print(response.choices[0].message.content)

Thinking richtig nutzen — ohne Denkspur-Hype

Qwen3.6 ist für Thinking-Workflows trainiert. Aber du solltest nicht blind lange Denkspuren ausgeben lassen:

  • Für normale Antworten reicht eine kurze Begründung.
  • Für Agenten ist preserve_thinking wichtiger — das Modell nutzt frühere Denk-/Arbeitskontexte konsistenter.
  • enable_thinking: false schaltet Thinking bei unterstützenden Runtimes ab.

In Ollama ohne spezielle API-Parameter: Bitte einfach um kurze Begründung und Ergebnis, statt das Modell aufzufordern, seine gesamten Reasoning-Schritte auszugeben.


Benchmarks: welche Zahlen zu welchem Modell?

Viele Werte nutzen spezielle Agent-Scaffolds, lange Kontextfenster oder Tool-Setups.auf deinen Mac übertragbar.

Qwen3.6-35B-A3B, laut Qwen (April 2026)

BenchmarkWertEinordnung
AIME 202692,7 %voller AIME 2026 I & II, laut Qwen
MMLU-Pro85,2 %Wissens-/Reasoning-Benchmark
LiveCodeBench v680,4 %Coding
SWE-bench Verified73,4 %Agentic Coding, interner Scaffold
Terminal-Bench 2.051,5 %5 Runs, 256K Kontext, spezieller Harness
MMMU81,7 %Vision/Multimodal
MathVista mini86,4 %visuelles mathematisches Reasoning

Qwen3.6-27B

27B-Werte aus der Qwen3.6-27B-Veröffentlichung (22. April 2026) und dürfen nicht mit der 35B-A3B-Tabelle vermischt werden.

Note: Viele Qwen-Benchmarks nutzen spezielle Agent-Scaffolds, lange Kontextfenster, mehrere Läufe und Tool-Setups. Nützlich zur Einordnung.


RAM-/Unified-Memory-Empfehlungen

Die Ollama-Modellgröße ist nur ein Anhaltspunkt. Realer Speicherbedarf hängt von Quantisierung, Kontextlänge, KV-Cache, Runtime und anderen Apps ab.

Unified MemoryEmpfehlung
16 GBEher kleinere Qwen3-Modelle oder stark quantisierte 27B-Experimente; Qwen3.6 nicht entspannt
24 GBqwen3.6:27b oder 27b-mlx realistisch, aber Kontext und parallele Apps begrenzen
32 GBGuter Sweet Spot für 27B und vorsichtige 35B-A3B-Nutzung
48 GB+Deutlich entspannter für 35B-A3B, Vision und längeren Kontext
64 GB+BF16 und hoher Kontext realistischer, aber noch immer runtimeabhängig

Geschwindigkeit auf dem Mac hängt stark von Mac-Modell, RAM, Kontext, Quantisierung, Ollama-/MLX-Version, Promptlänge und Vision ab.


Qwen3.6 vs Alternativen auf dem Mac

ModellLokal auf Mac?Vision?StärkeAnmerkung
Qwen3.6-27Bja, quantisiert realistischja bei passendem TagCoding, Vision, dichter 27B-Allrounderbraucht 24–32 GB sinnvoll
Qwen3.6-35B-A3Bja, aber eher 32 GB+jaMoE, Agentic Coding, lange KontexteTags/Quantisierung genau prüfen
Gemma 3 27BjajaVision + solide lokale Qualitätälter, andere Benchmarks
Qwen3 14B/32Bjameist text-only je nach Tagleichter/schnellerweniger Agent-Fokus als Qwen3.6
Cloud-Modellenein/lokal nichtje nach Anbietermaximale QualitätDatenschutz/Kosten/API

FAQ

Ist Qwen3.6-27B dasselbe wie Qwen3.6-35B-A3B? Nein. 27B ist ein dense Modell, 35B-A3B ist ein MoE-Modell mit 35B total und 3B aktiv pro Token.

Welchen Qwen3.6-Tag soll ich auf dem Mac installieren? Für Vision: qwen3.6:27b als Einstieg. Für MLX/Text ohne Vision: qwen3.6:27b-mlx. Für mehr RAM/Experimentieren: qwen3.6:35b oder qwen3.6:35b-mlx.

Hat qwen3.6:27b-mlx Vision? Laut Ollama ist dieser Tag Text-only. Für Bilder solltest du einen Text+Image-Tag wie qwen3.6:27b oder qwen3.6:35b verwenden.

Reichen 24 GB Unified Memory? Für den 27B-Tag kann es mit begrenztem Kontext funktionieren, aber es ist kein komfortabler Dauerbetrieb mit vielen Apps, Vision und großem Kontext. 32 GB sind entspannter, 48 GB besser für 35B-A3B.

Sind die Qwen-Benchmarks direkt auf meinen Mac übertragbar? Nein. Viele Werte stammen aus speziellen Agent-/Server-Setups. Auf dem Mac beeinflussen Quantisierung, Kontextlänge, Runtime und Speicher die Leistung.


Fazit

Qwen3.6 ist für Mac-Nutzer nützlich, aber nur, wenn man die Varianten sauber trennt. Qwen3.6-27B ist der praktischere lokale Einstieg, besonders mit quantisierten Ollama- oder MLX-Tags. Qwen3.6-35B-A3B ist als MoE-Modell relevant, braucht aber mehr Aufmerksamkeit bei Tag, Runtime, Vision-Unterstützung und Speicher.

Die wichtigste Regel: Installiere nicht blind den Tag mit dem verlockendsten Namen. Prüfe, ob du Vision brauchst, wie viel Unified Memory frei ist, ob der Tag Text-only ist und ob deine Benchmark-Erwartung wirklich zur Modellvariante passt.

Was ich mitnehmen würde: Wer Qwen3.6 testen will, sollte mit der 27B-Variante starten. Sie ist der perfekte Kompromiss aus Qualität und Ressourcenverbrauch auf einem Mac mit 24-32 GB RAM.


Quellen und Stand

Stand: geprüft am 27. Mai 2026. Qwen3.6 entwickelt sich schnell; Ollama-Tags, MLX-Quantisierungen und Benchmarktabellen können sich ändern.

Häufig gestellte Fragen

Welche Qwen3.6-Variante ist die richtige für meinen Mac?

Für 16 GB Macs: keine Qwen3.6-Variante komfortabel — nimm Qwen3 8B oder Gemma 3 4B. Für 24 GB: 27B-Dense mit Q4-Quantisierung funktioniert mit kurzem Kontext. Für 32-48 GB: 27B-Dense komfortabel oder 35B-A3B (MoE) — A3B ist sparsamer bei Aktivierung, also schneller pro Token. Für 64 GB+: 35B-A3B mit vollem 256K-Kontext. Auf M4 Pro 64 GB ist 35B-A3B der Sweet Spot für 2026.

Was bedeutet A3B bei Qwen3.6-35B-A3B?

35B-A3B ist ein Mixture-of-Experts-Modell mit 35 Milliarden Gesamtparametern und 3 Milliarden aktiven Parametern pro Token. Alle Expertengewichte müssen im Speicher erreichbar bleiben. Die geringe Aktivierung reduziert Rechenarbeit, macht das Modell wegen Routing, gemeinsamen Schichten und Speicherzugriffen aber nicht zu einem Dense-3B-Modell.

Hat Qwen3.6 Vision-Unterstützung?

Ja, in Ollama sind Qwen3.6-Tags mit Text- und Bildeingabe verfügbar. MLX-Tags können text-only sein. Die konkrete Bildqualität hängt von Modellvariante, Runtime und Aufgabe ab; ein pauschaler Gleichstand mit Qwen2-VL ist nicht belegt.

Wie groß sind die Qwen3.6-Ollama-Pakete?

27B-Dense: ca. 16–17 GB als Q4. 35B-A3B: ca. 20–22 GB, da alle Experten geladen werden müssen. BF16 benötigt gegenüber Q4 grob die vierfache Gewichtsspeichermenge; 35B BF16 liegt bei etwa 70 GB nur für Gewichte.

Qwen3.6 vs. Qwen3.5 — was ist neu?

Qwen3.6 bringt laut Alibaba bessere Coding- und Agent-Benchmarks, eine größere Familie (27B Dense, 35B MoE) und längere Kontextfenster. Wer Qwen3 14B oder 30B-A3B produktiv nutzt, sollte Qwen3.6-35B-A3B als direkten Nachfolger testen. Für neue Setups lohnt sich der Sprung von 14B auf 27B in den meisten Fällen mehr als von 27B auf 35B-A3B, weil RAM linearer skaliert als Qualität.