Gemma 4 vs Qwen3.6 auf dem Mac: Was lohnt sich?
Gemma 4 26B vs Qwen3.6 27B auf Apple Silicon: Erfahrung, Vergleich und Empfehlung für lokale KI.
Gemma 4 26B und Qwen3.6 27B — zwei große open-weight Modelle für den Mac. Ich habe beide eine Woche lang getestet, um herauszufinden, welches für welchen Workflow besser ist.
Die Kurzfassung
Für Coding: Qwen3.6 27B ist in den meisten Benchmarks vorne. Das Modell wurde für Coding-Agenten und Repository-Arbeit entwickelt, und das merkt man.
Für Allround: Gemma 4 26B A4B ist breiter aufgestellt. Multimodal (Bild+Text), MoE-Effizienz, und für Chat und Zusammenfassungen mindestens ebenbürtig.
Für Geschwindigkeit: Gemma 4 26B A4B ist auf Apple Silicon schneller. Das MoE-Design aktiviert pro Token nur 3,8B von 26B Parametern — das spart Rechenzeit.
Was ich getestet habe
Beide Modelle auf meinem Mac Mini M4 mit 32 GB, jeweils in Q4-Kuantisierung über Ollama.
Gemma 4 26B A4B (18 GB) ist mein Go-to für Chat und multimodale Aufgaben. Wenn ich Screenshots analysiere oder Dokumente zusammenfasse, liefert es schnelle und zuverlässige Ergebnisse. Die MoE-Architektur macht es sparsamer als ein Dense-Modell gleicher Größe.
Qwen3.6 27B (17 GB) ist mein Go-to für Coding. Wenn ich größere Code-Basen refactore oder Bugs suche, ist die Qualität spürbar besser. Das Modell “versteht” Code-Kontexte besser und liefert präzisere Vorschläge.
Architektur — der entscheidende Unterschied
Gemma 4 26B nutzt Mixture-of-Experts: 26B Gesamtparameter, aber nur 3,8B aktiv pro Token. Das macht es schneller und sparsamer, aber die gesamten 18 GB müssen im Speicher bleiben.
Qwen3.6 27B ist ein Dense-Modell: Alle 27B Parameter sind pro Token aktiv. Das bedeutet mehr Qualität bei komplexen Aufgaben, aber auch mehr Rechenaufwand und langsamerere Token-Generierung.
RAM-Bedarf
Beide Modelle brauchen mindestens 24 GB Unified Memory für komfortables Arbeiten. Mit 32 GB hast du genug Raum für KV-Cache und längere Contexte. Bei 16 GB wird es eng — das Modell läuft, aber der KV-Cache für lange Contexte wird schnell groß.
Mein Tipp: Starte mit 8K Context und erhöhe schrittweise. Prüfe mit ollama ps, ob der GPU-Offload noch vollständig ist.
Wann was nehmen?
Gemma 4 26B A4B, wenn du:
- Viel mit Bildern und Screenshots arbeitest
- Einen schnellen Allround-Assistenten suchst
- Multimodale Workflows brauchst
- Geschwindigkeit wichtiger ist als maximale Coding-Qualität
Qwen3.6 27B, wenn du:
- Großes Code refactore oder debugst
- Coding-Agenten nutzt (Claude Code, Cursor)
- Maximale Coding-Qualität brauchst
- Repository-level Arbeiten machst
Mein Fazit
Es gibt keinen klaren Gewinner. Beide Modelle sind exzellent — aber für unterschiedliche Einsatzzwecke. Wer viel codet, greift zu Qwen3.6. Wer einen breiten Allround-Assistenten sucht, ist mit Gemma 4 besser bedient.
Mein Tipp: Installiere beide und wechsle je nach Aufgabe. Das ist der beste Weg, das richtige Modell für deinen Workflow zu finden.
Getestet Juni 2026 auf Mac Mini M4 mit 32 GB. Alle Angaben basieren auf offiziellen Modellkarten und eigenen Tests.
Transparenz
Quellen und Prüfgrundlage
Diese Primär- und Referenzquellen bilden die Grundlage der technischen Einordnung. Herstellerangaben und externe Benchmarks werden im Artikel als solche gekennzeichnet.