Gemma 4 auf dem Mac: RAM, Varianten & Ollama

Gemma 4 ist Googles aktuelle offene Modellfamilie. Für Mac-Nutzer spannend, weil die Familie von winzigen E2B bis hin zu 31B Dense reicht. Aber die Frage ist nicht “Was kann das Modell?” — sondern “Was passt auf meinen Mac?”

Die kurze Antwort

8 GB Mac: gemma4:e2b (7,2 GB). Läuft, aber knapp. Eher ein Experiment als ein Arbeitstier.

16 GB Mac: gemma4:e4b (9,6 GB) ist der Sweet Spot. Genug Speicher für den Alltag, Vision funktioniert, und der Context reicht für die meisten Aufgaben.

24-32 GB Mac: gemma4:26b (18 GB) — das MoE-Modell mit nur 3,8B aktiven Parametern pro Token. Schnell, sparsam, und die Qualität ist überraschend gut für die Aktivierungsrate.

48+ GB: gemma4:31b (20 GB). Die volle Packung mit 31B Dense-Parametern. Mehr Qualität, aber deutlich mehr Speicherbedarf und langsamere Token-Generierung.

Was ich auf meinem Mac Mini M4 getestet habe

Ich habe alle Varianten auf meinem 32 GB Mac durchprobiert. Hier ist, was mir aufgefallen ist:

gemma4:e4b ist mein Standardmodell für den Alltag geworden. Es läuft schnell, Vision funktioniert zuverlässig, und für die meisten Coding- und Chat-Aufgaben reicht die Qualität. Der Speicherbedarf ist überschaubar — auf 32 GB bleibt genug Raum für andere Apps.

gemma4:26b ist der Kompromiss zwischen Qualität und Geschwindigkeit. Das MoE-Design bedeutet, dass pro Token nur 3,8B von 26B Parametern aktiviert werden. Das macht es schneller als ein Dense-Modell gleicher Größe. Auf 32 GB läuft es gut, aber der KV-Cache für lange Contexte wird schnell groß.

gemma4:31b ist die volle Packung. Auf 32 GB wird es eng, wenn man längere Contexte braucht. Auf 48 GB ist es der Sweet Spot für höchste Qualität. Aber ehrlich: Der Unterschied zu 26b ist in der Praxis kleiner als man erwartet.

Thinking Mode — wann lohnt er sich?

Gemma 4 unterstützt einen konfigurierbaren Thinking Mode. Das Modell “denkt nach”, bevor es antwortet — nützlich für Mathe, Logik und Multi-Step-Planung. Aber: Es verlängert die Antwortzeit und verbraucht mehr Kontext.

Mein Tipp: Für schnelle Alltagsfragen deaktivieren. Für komplexe Coding-Aufgaben aktivieren. Der Unterschied ist spürbar — aber nicht immer die Wartezeit wert.

Ollama-Setup

ollama pull gemma4:e4b    # oder 26b oder 31b
ollama run gemma4:e4b

Für Vision einfach ein Bild mitgeben:

ollama run gemma4:e4b "Was siehst du auf diesem Screenshot?"

Wichtig: Die normalen Ollama-Tags sind als Text+Bild gelistet. Die *-mlx-Tags sind Text-only — die brauchen nur der MLX-Alternative.

Die 256K-Wahrheit

26B und 31B unterstützen bis zu 256K Tokens Context. Aber das ist ein Modell-Limit, kein Versprechen. KV-Cache wächst mit dem Kontext, und plötzlich braucht ein 18 GB Modell 40+ GB. Mein Tipp: Starte mit 8K, erhöhe schrittweise, und prüfe mit ollama ps, ob der GPU-Offload noch vollständig ist.

Gemma 4 vs. Qwen3

Qwen3 30B-A3B (MoE) ist auf ähnlicher Hardware oft schneller und bei Coding leicht vorne. Gemma 4 punktet bei multimodalen Aufgaben (Bild+Text) und mit nativer Apple-Silicon-Optimierung in MLX. Für deutsche Sprache sind beide solide, Gemma 4 hat leichte Vorteile bei Grammatik. Wähle Qwen3 für Coding und Gemma 4 für Multimodalität.

Mein Fazit

Gemma 4 ist die beste offene Modellfamilie für Mac-Nutzer, die lokale KI ernst nehmen. Die Vielfalt von E2B bis 31B bedeutet, dass für jeden Mac eine passende Variante dabei ist.

Mein Tipp: Starte mit gemma4:e4b. Wenn es zu schwach ist, upscaled auf 26b. Das ist der schnellste Weg, die richtige Variante für deinen Workflow zu finden.

Getestet Juni 2026 auf Mac Mini M4 mit 32 GB. Alle Angaben basieren auf offiziellen Google-Quellen und eigenen Tests.

Gemma 4 auf dem Mac: Welche Variante passt zu dir?

Die kurze Antwort

Was ich auf meinem Mac Mini M4 getestet habe

Thinking Mode — wann lohnt er sich?

Ollama-Setup

Die 256K-Wahrheit

Gemma 4 vs. Qwen3

Mein Fazit

Quellen und Prüfgrundlage

Die kurze Antwort

Was ich auf meinem Mac Mini M4 getestet habe

Thinking Mode — wann lohnt er sich?

Ollama-Setup

Die 256K-Wahrheit

Gemma 4 vs. Qwen3

Mein Fazit

Weiterlesen