Gemma 4 vs. Qwen3.6 auf dem Mac: Welches Modell passt zu dir?

Gemma 4 26B und Qwen3.6 27B — zwei große open-weight Modelle für den Mac. Ich habe beide eine Woche lang getestet, um herauszufinden, welches für welchen Workflow besser ist.

Die Kurzfassung

Für Coding: Qwen3.6 27B ist in den meisten Benchmarks vorne. Das Modell wurde für Coding-Agenten und Repository-Arbeit entwickelt, und das merkt man.

Für Allround: Gemma 4 26B A4B ist breiter aufgestellt. Multimodal (Bild+Text), MoE-Effizienz, und für Chat und Zusammenfassungen mindestens ebenbürtig.

Für Geschwindigkeit: Gemma 4 26B A4B ist auf Apple Silicon schneller. Das MoE-Design aktiviert pro Token nur 3,8B von 26B Parametern — das spart Rechenzeit.

Was ich getestet habe

Beide Modelle auf meinem Mac Mini M4 mit 32 GB, jeweils in Q4-Kuantisierung über Ollama.

Gemma 4 26B A4B (18 GB) ist mein Go-to für Chat und multimodale Aufgaben. Wenn ich Screenshots analysiere oder Dokumente zusammenfasse, liefert es schnelle und zuverlässige Ergebnisse. Die MoE-Architektur macht es sparsamer als ein Dense-Modell gleicher Größe.

Qwen3.6 27B (17 GB) ist mein Go-to für Coding. Wenn ich größere Code-Basen refactore oder Bugs suche, ist die Qualität spürbar besser. Das Modell “versteht” Code-Kontexte besser und liefert präzisere Vorschläge.

Architektur — der entscheidende Unterschied

Gemma 4 26B nutzt Mixture-of-Experts: 26B Gesamtparameter, aber nur 3,8B aktiv pro Token. Das macht es schneller und sparsamer, aber die gesamten 18 GB müssen im Speicher bleiben.

Qwen3.6 27B ist ein Dense-Modell: Alle 27B Parameter sind pro Token aktiv. Das bedeutet mehr Qualität bei komplexen Aufgaben, aber auch mehr Rechenaufwand und langsamerere Token-Generierung.

RAM-Bedarf

Beide Modelle brauchen mindestens 24 GB Unified Memory für komfortables Arbeiten. Mit 32 GB hast du genug Raum für KV-Cache und längere Contexte. Bei 16 GB wird es eng — das Modell läuft, aber der KV-Cache für lange Contexte wird schnell groß.

Mein Tipp: Starte mit 8K Context und erhöhe schrittweise. Prüfe mit ollama ps, ob der GPU-Offload noch vollständig ist.

Wann was nehmen?

Gemma 4 26B A4B, wenn du:

Viel mit Bildern und Screenshots arbeitest
Einen schnellen Allround-Assistenten suchst
Multimodale Workflows brauchst
Geschwindigkeit wichtiger ist als maximale Coding-Qualität

Qwen3.6 27B, wenn du:

Großes Code refactore oder debugst
Coding-Agenten nutzt (Claude Code, Cursor)
Maximale Coding-Qualität brauchst
Repository-level Arbeiten machst

Mein Fazit

Es gibt keinen klaren Gewinner. Beide Modelle sind exzellent — aber für unterschiedliche Einsatzzwecke. Wer viel codet, greift zu Qwen3.6. Wer einen breiten Allround-Assistenten sucht, ist mit Gemma 4 besser bedient.

Mein Tipp: Installiere beide und wechsle je nach Aufgabe. Das ist der beste Weg, das richtige Modell für deinen Workflow zu finden.

Getestet Juni 2026 auf Mac Mini M4 mit 32 GB. Alle Angaben basieren auf offiziellen Modellkarten und eigenen Tests.

Gemma 4 vs Qwen3.6 auf dem Mac: Was lohnt sich?

Die Kurzfassung

Was ich getestet habe

Architektur — der entscheidende Unterschied

RAM-Bedarf

Wann was nehmen?

Mein Fazit

Quellen und Prüfgrundlage

Die Kurzfassung

Was ich getestet habe

Architektur — der entscheidende Unterschied

RAM-Bedarf

Wann was nehmen?

Mein Fazit

Weiterlesen