Gemma 4 12B auf dem Mac: Das neue lokale Multimodal-Modell für 16 GB?
Gemma 4 12B läuft lokal ab 16 GB, bietet 256K Kontext sowie Bild- und Audioverständnis. Was auf dem Mac mit Ollama und MLX wirklich geht.
Gemma 4 12B: die wichtigsten Fakten
| Eigenschaft | Gemma 4 12B Unified |
|---|---|
| Offizieller Launch | 3. Juni 2026 |
| Modelltyp | Dense, encoder-freier multimodaler Transformer |
| Parameter | 11,95 Milliarden |
| Layer | 48 |
| Kontextfenster | bis 256K Tokens |
| Sliding Window | 1.024 Tokens |
| Eingaben laut Google | Text, Bild, Audio und Video |
| Ausgabe | Text |
| Thinking | konfigurierbar |
| Ollama-Tag | gemma4:12b |
| Ollama-Größe | 7,6 GB, Q4_K_M |
| Offizieller BF16-Checkpoint | 23,9 GB |
| Offizieller QAT-GGUF | 6,98 GB plus 175 MB Multimodal-Projektor |
| Lizenz | Apache 2.0 |
Google positioniert 12B als Brücke zwischen E4B und 26B A4B. Das ist für Macs wichtiger als ein weiteres Spitzenmodell: E4B ist leicht, aber qualitativ begrenzt; 26B A4B braucht trotz nur 3,8 Milliarden aktiver Parameter deutlich mehr Speicher für alle Gewichte. Das neue 12B-Modell trifft eine Größe, die auf Consumer-Hardware noch praktikabel ist.
Warum „Unified“ mehr als ein Produktname ist
Klassische multimodale Modelle besitzen neben dem Sprachmodell separate Encoder für Bilder oder Audio. Diese Encoder wandeln ihre Eingaben erst in eine Darstellung um, die das LLM verarbeiten kann.
Gemma 4 12B entfernt diese separaten Encoder. Bildpatches werden über eine leichte Projektion direkt in den Embedding-Raum des Modells überführt; Audiosignale werden ebenfalls direkt projiziert. Text, Bild und Audio fließen damit in denselben Decoder-Transformer.
Das hat drei praktische Folgen:
- Kompakterer Deployment-Stack: Es müssen keine großen separaten Encoder geladen werden.
- Ein gemeinsames Modell: Multimodales Fine-Tuning kann den gesamten Stack in einem Durchgang erfassen.
- Runtime-Abhängigkeit: Eine Runtime muss die neue
gemma4_unified-Architektur korrekt implementieren. Ein vorhandener Gemma-3-Loader reicht nicht automatisch.
Gerade der dritte Punkt ist wichtig. Das Modell ist neu, und die Ökosystem-Unterstützung ist noch nicht überall gleich ausgereift.
Läuft Gemma 4 12B wirklich auf 16 GB?
Ja, aber mit einer engeren Bedeutung als Googles Launch-Satz vermuten lässt.
Das aktuelle Ollama-Paket belegt 7,6 GB auf der SSD. Beim Laden kommen Runtime, KV-Cache, Eingaben und macOS hinzu. Ein 16-GB-Mac hat daher genügend Speicher, um eine 4-Bit-Quantisierung zu starten, aber nicht beliebig viel Reserve.
| Unified Memory | Realistische Einordnung |
|---|---|
| 16 GB | Q4 lokal möglich. Browser-Tabs und große Apps schließen, Kontext klein bis mittel halten. |
| 24 GB | Praktischer Sweet Spot für Chat, Coding, Dokumente und Vision mit normalem Kontext. |
| 32 GB | Mehr Reserve für längere Prompts, mehrere Bilder und parallele Mac-Apps. |
| 48 GB+ | Sinnvoll, wenn längere Kontexte oder BF16/8-Bit-Experimente wichtig sind. |
Das 256K-Kontextfenster ist eine Modellgrenze, keine Garantie für einen komfortablen 256K-Workflow auf 16 GB. Der KV-Cache wächst mit der tatsächlichen Kontextlänge. Wer lokal arbeitet, sollte mit 8K oder 16K beginnen und nur erhöhen, wenn ollama ps noch vollständigen GPU-Offload und genügend Speicherreserve zeigt.
Installation mit Ollama
Ollama ist derzeit der einfachste Einstieg auf dem Mac:
ollama pull gemma4:12b
ollama run gemma4:12b
Ein sinnvoller erster Test:
Erkläre den Unterschied zwischen Unified Memory und klassischem GPU-VRAM.
Nenne drei praktische Folgen für lokale LLMs auf einem Mac.
Für ein Bild kannst du in der CLI einen Pfad mitgeben:
ollama run gemma4:12b \
"Beschreibe die Oberfläche in ./screenshot.png und nenne drei konkrete Usability-Probleme."
Ollama listet gemma4:12b aktuell mit Text und Bild. Audio und Video sind Fähigkeiten des Google-Modells, aber noch kein Versprechen für jeden Ollama-Client.
Thinking bewusst einsetzen
Gemma 4 12B unterstützt einen Thinking-Modus. Er kann bei Mathematik, Coding und mehrstufiger Planung helfen, kostet aber Zeit und Output-Tokens. Für kurze Zusammenfassungen oder einfache Bildbeschreibungen ist deaktiviertes Thinking oft effizienter.
In Transformers wird der Modus über das Chat-Template gesteuert:
inputs = processor.apply_chat_template(
messages,
tokenize=True,
return_dict=True,
return_tensors="pt",
add_generation_prompt=True,
enable_thinking=True,
)
MLX auf Apple Silicon
Die MLX Community stellt bereits 4-Bit-, 8-Bit- und BF16-Konvertierungen bereit. Die 4-Bit-Instruct-Version umfasst rund 6,7 GB Modellgewichte — interessant für lokale Apple-Silicon-Tests.
Das ist jedoch eine Community-Konvertierung, kein separater offizieller Google-Checkpoint. Ein vorhandenes MLX-Repository bedeutet nicht automatisch, dass jede Oberfläche Audio, Video, Vision, Thinking und Function Calling vollständig unterstützt. Prüfe die konkrete Anwendung und Version.
Für einen stabilen Einstieg ist Ollama derzeit einfacher. MLX ist interessanter, wenn du Python-Code kontrollieren, Messungen durchführen oder direkt mit Apple-Silicon-optimierten Modellen experimentieren willst.
Audio und Video: Modell kann mehr als Ollama derzeit zeigt
Google dokumentiert für Gemma 4 12B:
- automatische Spracherkennung und Speech-to-Translated-Text,
- Audioeingaben bis 30 Sekunden,
- Videosequenzen bis 60 Sekunden bei einem Frame pro Sekunde,
- variable Bildauflösungen und visuelle Token-Budgets,
- OCR, Dokumentanalyse, Diagramme, UI-Verständnis und Handschrift.
Der offizielle Transformers-Pfad verwendet AutoModelForMultimodalLM. Für Audio kommen unter anderem librosa und torchvision hinzu.
python -m venv .venv
source .venv/bin/activate
pip install -U transformers torch torchvision librosa accelerate
Der BF16-Checkpoint ist allerdings 23,9 GB groß. Auf einem 16-GB-Mac ist dieser Pfad ohne geeignete Quantisierung nicht die vernünftige Wahl. Für den Alltag ist deshalb die Trennung wichtig:
- Ollama: heute der einfache lokale Text-/Bild-Weg.
- Transformers: Referenzpfad für alle dokumentierten Modalitäten, aber speicherhungriger.
- MLX: vielversprechend auf Apple Silicon, Unterstützung je nach Konvertierung und Client prüfen.
Offizielle Benchmarks: stark für 12B, aber Herstellerwerte
Die folgende Auswahl stammt aus Googles Modellkarte für instruction-tuned Modelle:
| Benchmark | Gemma 4 12B | Gemma 4 E4B | Gemma 4 26B A4B | Gemma 3 27B ohne Thinking |
|---|---|---|---|---|
| MMLU Pro | 77,2 % | 69,4 % | 82,6 % | 67,6 % |
| AIME 2026, keine Tools | 77,5 % | 42,5 % | 88,3 % | 20,8 % |
| LiveCodeBench v6 | 72,0 % | 52,0 % | 77,1 % | 29,1 % |
| GPQA Diamond | 78,8 % | 58,6 % | 82,3 % | 42,4 % |
| MMMU Pro | 69,1 % | 52,6 % | 73,8 % | 49,7 % |
| MRCR 128K | 43,4 % | 25,4 % | 44,1 % | 13,5 % |
Die interessante Beobachtung ist nicht, dass 12B immer gewinnt. Es tut das nicht. Entscheidend ist, wie nah es in mehreren Tests an 26B A4B herankommt, obwohl der lokale Download deutlich kleiner ist.
Diese Werte sind Herstellerbenchmarks. Sie belegen keine bestimmte Tokenrate auf einem M4 und ersetzen keinen Test mit deinen Prompts, deiner Quantisierung und deiner Runtime.
Wo Gemma 4 12B sinnvoll ist
Gute Einsatzbereiche:
- lokaler Coding-Assistent mit überschaubaren Repositories,
- Screenshots und UI-Fehler analysieren,
- Diagramme und Dokumentseiten erklären,
- Audio transkribieren, wenn die Runtime die Modalität unterstützt,
- längere Dokumente mit kontrolliertem Kontext zusammenfassen,
- lokale Agenten mit Function Calling,
- mehrsprachige Textarbeit ohne Cloud-Zwang.
Weniger sinnvoll:
- 256K Kontext auf einem 16-GB-Mac erzwingen,
- große Codebases ohne Retrieval komplett in den Prompt laden,
- BF16 lokal auf kleinen Macs,
- Audio oder Video voraussetzen, ohne den Client vorher zu testen,
- ungeprüfte Fakten als zuverlässig behandeln,
- medizinische oder juristische Entscheidungen ohne Fachprüfung.
Gemma 4 12B oder eine andere Variante?
| Situation | Empfehlung |
|---|---|
| 8 GB Mac | E2B oder ein kleineres Spezialmodell statt 12B |
| 16 GB Mac, möglichst gute Qualität | Gemma 4 12B Q4 mit begrenztem Kontext |
| 16 GB Mac, maximale Reaktionsgeschwindigkeit | E4B |
| 24–32 GB, lokaler Allrounder | Gemma 4 12B |
| 32–48 GB, höhere Text-/Reasoning-Qualität | 26B A4B testen |
| 48 GB+, höchste Gemma-Qualität | 31B oder 26B A4B nach Workflow vergleichen |
Der 12B-Checkpoint ersetzt 26B und 31B nicht. Er ist der bessere Mittelweg für Nutzer, die mehr Qualität als E4B wollen, aber kein 18- bis 20-GB-Modell samt Runtime-Reserve laden möchten.
Für die komplette Familie findest du hier den Gemma-4-RAM- und Ollama-Guide. Der direkte Vergleich mit Qwen steht in Gemma 4 vs. Qwen auf dem Mac.
Fazit
Gemma 4 12B trifft eine Lücke, die für Macs wichtiger ist als ein weiteres riesiges Spitzenmodell. Das Modell ist groß genug, um E4B bei Reasoning, Coding und Vision klar zu übertreffen, aber klein genug für eine 7,6-GB-Quantisierung in Ollama.
Meine Empfehlung: Auf 16 GB ist gemma4:12b einen Test wert, wenn du Kontext und offene Apps begrenzt. Auf 24 oder 32 GB ist es der neue Gemma-Sweet-Spot für lokale Allround-Aufgaben. Wer maximale Geschwindigkeit sucht, bleibt bei E4B; wer mehr Qualität und genügend Speicher hat, vergleicht 12B mit 26B A4B.
Die spannendste Eigenschaft ist nicht die einzelne Benchmarkzahl. Es ist die Kombination aus lokaler Größe, 256K Modellkontext und encoder-freier Multimodalität. Ob Audio, Video und lange Kontexte auf deinem Mac überzeugen, entscheidet aber die konkrete Runtime und nicht das Datenblatt allein.
Quellen und Prüfstand
Stand: 8. Juni 2026. Modell- und Benchmarkangaben stammen aus Googles Modellkarte und Launch-Blog. Ollama-Größe, Quantisierung und unterstützte Eingaben wurden gegen das aktuelle Ollama-Listing geprüft. MLX-Angaben beziehen sich auf Community-Konvertierungen. Offene llama.cpp-Issues zeigen, dass Audio- und Vision-Unterstützung der neuen Architektur noch in Bewegung ist.
Häufig gestellte Fragen
Läuft Gemma 4 12B auf einem Mac mit 16 GB RAM?
Ja, die quantisierte Ollama-Version ist 7,6 GB groß und Google nennt 16 GB Unified Memory als Ziel. Das bedeutet aber nicht, dass 256K Kontext praktisch nutzbar sind. Auf 16 GB sollten andere Apps geschlossen und Kontext sowie Bildauflösung begrenzt werden.
Wie installiere ich Gemma 4 12B mit Ollama?
Mit `ollama pull gemma4:12b` lädst du das Modell, mit `ollama run gemma4:12b` startest du es. Das aktuelle Ollama-Listing nutzt Q4_K_M, ist 7,6 GB groß und unterstützt Text- und Bildeingaben.
Kann Gemma 4 12B Audio und Video lokal verarbeiten?
Das Google-Modell unterstützt Text, Bilder, Audio und Videoeingaben. In Ollama ist der 12B-Tag derzeit als Text plus Bild gelistet. Für Audio und Video dokumentiert Google den Transformers-Pfad; die Unterstützung hängt deshalb von der Runtime ab.
Was ist an Gemma 4 12B Unified neu?
Das Modell verwendet keine separaten Vision- oder Audioencoder. Bildpatches und Audiosignale werden über leichte Projektionen direkt in den Decoder-Transformer eingespeist. Dadurch bleibt der multimodale Stack kompakter.
Ist Gemma 4 12B besser als Gemma 3 27B?
In Googles eigener Tabelle liegt Gemma 4 12B bei Reasoning, Coding, Vision und Long Context klar vor Gemma 3 27B ohne Thinking. Das sind Herstellerbenchmarks; für den eigenen Workflow zählen zusätzlich Quantisierung, Runtime, Prompt und Geschwindigkeit.