Gemma 3 auf dem Mac: RAM, Modelle & Ollama

Gemma 3 ist nicht mehr Googles neueste Modell — Gemma 4 ist draußen. Aber für lokale Mac-Setups bleibt Gemma 3 interessant, vor allem weil die Varianten kleiner sind und die Vision-Pipeline gut funktioniert. Die Frage ist nur: Welche Variante für welchen Mac?

Die kurze Antwort

8 GB Mac: gemma3:4b (3,3 GB). Reicht für einfache Chats und Vision-Aufgaben. Alles größer swappt und ist zu langsam.

16 GB Mac: gemma3:4b komfortabel, gemma3:12b (8,1 GB) mit kurzen Kontexten machbar. Schließe Chrome und halte Kontext kurz.

24-32 GB Mac: gemma3:12b mit moderatem Kontext. gemma3:27b (17 GB) geht, braucht aber Planung — der Speicher reicht nicht für lange Kontexte.

48+ GB: gemma3:27b mit vollem 128K-Kontext und Vision. Das ist der sweet spot für die größte Gemma-3-Variante.

Was ich auf meinem Mac Mini M4 getestet habe

Ich habe alle drei Varianten (4b, 12b, 27b) auf meinem 32 GB Mac getestet. Hier ist, was mir aufgefallen ist:

gemma3:4b ist erstaunlich gut für seine Größe. Vision funktioniert zuverlässig — ich habe Screenshots analysiert und UI-Probleme erkennen lassen. Die Qualität reicht für Alltags-Chat und einfache Aufgaben. Aber für komplexeres Coding stößt man schnell an Grenzen.

gemma3:12b ist der Kompromiss. Mehr Qualität als 4b, aber der Speicherbedarf steigt. Auf 32 GB läuft es gut, auf 16 GB wird es eng. Die Vision-Pipeline funktioniert genauso gut wie bei 27b.

gemma3:27b ist die volle Packung. 17 GB Modellgröße, dazu KV-Cache und macOS — auf 32 GB bleibt wenig Raum für Kontext. Wer 48 GB hat, kann die volle 128K-Context-Erfahrung genießen. Auf 32 GB empfehle ich, Kontext auf 16-32K zu begrenzen.

Ollama-Setup

ollama pull gemma3:4b    # oder 12b oder 27b
ollama run gemma3:4b

Für Vision einfach ein Bild mitgeben:

ollama run gemma3:4b "Was siehst du auf diesem Screenshot?"

Wichtig: Ollama bindet Vision automatisch ein, wenn du die richtige Variante lädst. Keine extra Konfiguration nötig.

Die 128K-Wahrheit

Gemma 3 unterstützt bis zu 128K Tokens Kontextfenster. Aber “unterstützt” heißt nicht “läuft gut drauf”. KV-Cache wächst mit dem Kontext, und plötzlich braucht ein 17 GB Modell 30+ GB. Mein Tipp: Starte mit 8K, erhöhe schrittweise, und prüfe mit ollama ps, ob der GPU-Offload noch vollständig ist.

Gemma 3 vs. Gemma 4

Wenn du 2026 startest: Gemma 4 ist die neuere Generation mit besserer Effizienz. Aber Gemma 3 hat mehr Community-Modelle und wird von mehr Tools nativ unterstützt. Für MacBook Air mit 8-16 GB ist Gemma 3 4b/12b die robustere Wahl. Für größere Macs mit genug RAM — schau dir Gemma 4 an.

Mein Fazit

Gemma 3 bleibt ein solider Arbeitstier für lokale KI auf dem Mac. Die Vision-Pipeline funktioniert besser als bei vielen Konkurrenten, und die kleineren Varianten (4b, 12b) sind für Alltags-Chat und einfache Aufgaben genau richtig. Wer die volle Qualität will, braucht 48+ GB für die 27b-Variante.

Mein Tipp: Starte mit gemma3:4b, egal wie viel RAM du hast. Wenn es zu schwach ist, upscaled auf 12b. Das ist der schnellste Weg, die richtige Variante für deinen Workflow zu finden.

Getestet Mai 2026 auf Mac Mini M4 mit 32 GB. Alle Angaben basieren auf offiziellen Google-Quellen und eigenen Tests.

Gemma 3 auf dem Mac: Welche Variante passt zu dir?

Die kurze Antwort

Was ich auf meinem Mac Mini M4 getestet habe

Ollama-Setup

Die 128K-Wahrheit

Gemma 3 vs. Gemma 4

Mein Fazit

Quellen und Prüfgrundlage

Die kurze Antwort

Was ich auf meinem Mac Mini M4 getestet habe

Ollama-Setup

Die 128K-Wahrheit

Gemma 3 vs. Gemma 4

Mein Fazit

Weiterlesen