Lokale Modelle 12 Min. Lesezeit

Gemma 4 12B auf dem Mac: Das neue lokale Multimodal-Modell für 16 GB?

Gemma 4 12B läuft lokal ab 16 GB, bietet 256K Kontext sowie Bild- und Audioverständnis. Was auf dem Mac mit Ollama und MLX wirklich geht.

Technische Recherche und redaktionelle Prüfung. Eigene Messungen werden im Artikel ausdrücklich gekennzeichnet.

Veröffentlicht: 8. Juni 2026 Aktualisiert: 10. Juni 2026

Redaktionelle Methode

Gemma 4 12B: die wichtigsten Fakten

EigenschaftGemma 4 12B Unified
Offizieller Launch3. Juni 2026
ModelltypDense, encoder-freier multimodaler Transformer
Parameter11,95 Milliarden
Layer48
Kontextfensterbis 256K Tokens
Sliding Window1.024 Tokens
Eingaben laut GoogleText, Bild, Audio und Video
AusgabeText
Thinkingkonfigurierbar
Ollama-Taggemma4:12b
Ollama-Größe7,6 GB, Q4_K_M
Offizieller BF16-Checkpoint23,9 GB
Offizieller QAT-GGUF6,98 GB plus 175 MB Multimodal-Projektor
LizenzApache 2.0

Google positioniert 12B als Brücke zwischen E4B und 26B A4B. Das ist für Macs wichtiger als ein weiteres Spitzenmodell: E4B ist leicht, aber qualitativ begrenzt; 26B A4B braucht trotz nur 3,8 Milliarden aktiver Parameter deutlich mehr Speicher für alle Gewichte. Das neue 12B-Modell trifft eine Größe, die auf Consumer-Hardware noch praktikabel ist.


Warum „Unified“ mehr als ein Produktname ist

Klassische multimodale Modelle besitzen neben dem Sprachmodell separate Encoder für Bilder oder Audio. Diese Encoder wandeln ihre Eingaben erst in eine Darstellung um, die das LLM verarbeiten kann.

Gemma 4 12B entfernt diese separaten Encoder. Bildpatches werden über eine leichte Projektion direkt in den Embedding-Raum des Modells überführt; Audiosignale werden ebenfalls direkt projiziert. Text, Bild und Audio fließen damit in denselben Decoder-Transformer.

Das hat drei praktische Folgen:

  1. Kompakterer Deployment-Stack: Es müssen keine großen separaten Encoder geladen werden.
  2. Ein gemeinsames Modell: Multimodales Fine-Tuning kann den gesamten Stack in einem Durchgang erfassen.
  3. Runtime-Abhängigkeit: Eine Runtime muss die neue gemma4_unified-Architektur korrekt implementieren. Ein vorhandener Gemma-3-Loader reicht nicht automatisch.

Gerade der dritte Punkt ist wichtig. Das Modell ist neu, und die Ökosystem-Unterstützung ist noch nicht überall gleich ausgereift.


Läuft Gemma 4 12B wirklich auf 16 GB?

Ja, aber mit einer engeren Bedeutung als Googles Launch-Satz vermuten lässt.

Das aktuelle Ollama-Paket belegt 7,6 GB auf der SSD. Beim Laden kommen Runtime, KV-Cache, Eingaben und macOS hinzu. Ein 16-GB-Mac hat daher genügend Speicher, um eine 4-Bit-Quantisierung zu starten, aber nicht beliebig viel Reserve.

Unified MemoryRealistische Einordnung
16 GBQ4 lokal möglich. Browser-Tabs und große Apps schließen, Kontext klein bis mittel halten.
24 GBPraktischer Sweet Spot für Chat, Coding, Dokumente und Vision mit normalem Kontext.
32 GBMehr Reserve für längere Prompts, mehrere Bilder und parallele Mac-Apps.
48 GB+Sinnvoll, wenn längere Kontexte oder BF16/8-Bit-Experimente wichtig sind.

Das 256K-Kontextfenster ist eine Modellgrenze, keine Garantie für einen komfortablen 256K-Workflow auf 16 GB. Der KV-Cache wächst mit der tatsächlichen Kontextlänge. Wer lokal arbeitet, sollte mit 8K oder 16K beginnen und nur erhöhen, wenn ollama ps noch vollständigen GPU-Offload und genügend Speicherreserve zeigt.


Installation mit Ollama

Ollama ist derzeit der einfachste Einstieg auf dem Mac:

ollama pull gemma4:12b
ollama run gemma4:12b

Ein sinnvoller erster Test:

Erkläre den Unterschied zwischen Unified Memory und klassischem GPU-VRAM.
Nenne drei praktische Folgen für lokale LLMs auf einem Mac.

Für ein Bild kannst du in der CLI einen Pfad mitgeben:

ollama run gemma4:12b \
  "Beschreibe die Oberfläche in ./screenshot.png und nenne drei konkrete Usability-Probleme."

Ollama listet gemma4:12b aktuell mit Text und Bild. Audio und Video sind Fähigkeiten des Google-Modells, aber noch kein Versprechen für jeden Ollama-Client.

Thinking bewusst einsetzen

Gemma 4 12B unterstützt einen Thinking-Modus. Er kann bei Mathematik, Coding und mehrstufiger Planung helfen, kostet aber Zeit und Output-Tokens. Für kurze Zusammenfassungen oder einfache Bildbeschreibungen ist deaktiviertes Thinking oft effizienter.

In Transformers wird der Modus über das Chat-Template gesteuert:

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
    enable_thinking=True,
)

MLX auf Apple Silicon

Die MLX Community stellt bereits 4-Bit-, 8-Bit- und BF16-Konvertierungen bereit. Die 4-Bit-Instruct-Version umfasst rund 6,7 GB Modellgewichte — interessant für lokale Apple-Silicon-Tests.

Das ist jedoch eine Community-Konvertierung, kein separater offizieller Google-Checkpoint. Ein vorhandenes MLX-Repository bedeutet nicht automatisch, dass jede Oberfläche Audio, Video, Vision, Thinking und Function Calling vollständig unterstützt. Prüfe die konkrete Anwendung und Version.

Für einen stabilen Einstieg ist Ollama derzeit einfacher. MLX ist interessanter, wenn du Python-Code kontrollieren, Messungen durchführen oder direkt mit Apple-Silicon-optimierten Modellen experimentieren willst.


Audio und Video: Modell kann mehr als Ollama derzeit zeigt

Google dokumentiert für Gemma 4 12B:

  • automatische Spracherkennung und Speech-to-Translated-Text,
  • Audioeingaben bis 30 Sekunden,
  • Videosequenzen bis 60 Sekunden bei einem Frame pro Sekunde,
  • variable Bildauflösungen und visuelle Token-Budgets,
  • OCR, Dokumentanalyse, Diagramme, UI-Verständnis und Handschrift.

Der offizielle Transformers-Pfad verwendet AutoModelForMultimodalLM. Für Audio kommen unter anderem librosa und torchvision hinzu.

python -m venv .venv
source .venv/bin/activate
pip install -U transformers torch torchvision librosa accelerate

Der BF16-Checkpoint ist allerdings 23,9 GB groß. Auf einem 16-GB-Mac ist dieser Pfad ohne geeignete Quantisierung nicht die vernünftige Wahl. Für den Alltag ist deshalb die Trennung wichtig:

  • Ollama: heute der einfache lokale Text-/Bild-Weg.
  • Transformers: Referenzpfad für alle dokumentierten Modalitäten, aber speicherhungriger.
  • MLX: vielversprechend auf Apple Silicon, Unterstützung je nach Konvertierung und Client prüfen.

Offizielle Benchmarks: stark für 12B, aber Herstellerwerte

Die folgende Auswahl stammt aus Googles Modellkarte für instruction-tuned Modelle:

BenchmarkGemma 4 12BGemma 4 E4BGemma 4 26B A4BGemma 3 27B ohne Thinking
MMLU Pro77,2 %69,4 %82,6 %67,6 %
AIME 2026, keine Tools77,5 %42,5 %88,3 %20,8 %
LiveCodeBench v672,0 %52,0 %77,1 %29,1 %
GPQA Diamond78,8 %58,6 %82,3 %42,4 %
MMMU Pro69,1 %52,6 %73,8 %49,7 %
MRCR 128K43,4 %25,4 %44,1 %13,5 %

Die interessante Beobachtung ist nicht, dass 12B immer gewinnt. Es tut das nicht. Entscheidend ist, wie nah es in mehreren Tests an 26B A4B herankommt, obwohl der lokale Download deutlich kleiner ist.

Diese Werte sind Herstellerbenchmarks. Sie belegen keine bestimmte Tokenrate auf einem M4 und ersetzen keinen Test mit deinen Prompts, deiner Quantisierung und deiner Runtime.


Wo Gemma 4 12B sinnvoll ist

Gute Einsatzbereiche:

  • lokaler Coding-Assistent mit überschaubaren Repositories,
  • Screenshots und UI-Fehler analysieren,
  • Diagramme und Dokumentseiten erklären,
  • Audio transkribieren, wenn die Runtime die Modalität unterstützt,
  • längere Dokumente mit kontrolliertem Kontext zusammenfassen,
  • lokale Agenten mit Function Calling,
  • mehrsprachige Textarbeit ohne Cloud-Zwang.

Weniger sinnvoll:

  • 256K Kontext auf einem 16-GB-Mac erzwingen,
  • große Codebases ohne Retrieval komplett in den Prompt laden,
  • BF16 lokal auf kleinen Macs,
  • Audio oder Video voraussetzen, ohne den Client vorher zu testen,
  • ungeprüfte Fakten als zuverlässig behandeln,
  • medizinische oder juristische Entscheidungen ohne Fachprüfung.

Gemma 4 12B oder eine andere Variante?

SituationEmpfehlung
8 GB MacE2B oder ein kleineres Spezialmodell statt 12B
16 GB Mac, möglichst gute QualitätGemma 4 12B Q4 mit begrenztem Kontext
16 GB Mac, maximale ReaktionsgeschwindigkeitE4B
24–32 GB, lokaler AllrounderGemma 4 12B
32–48 GB, höhere Text-/Reasoning-Qualität26B A4B testen
48 GB+, höchste Gemma-Qualität31B oder 26B A4B nach Workflow vergleichen

Der 12B-Checkpoint ersetzt 26B und 31B nicht. Er ist der bessere Mittelweg für Nutzer, die mehr Qualität als E4B wollen, aber kein 18- bis 20-GB-Modell samt Runtime-Reserve laden möchten.

Für die komplette Familie findest du hier den Gemma-4-RAM- und Ollama-Guide. Der direkte Vergleich mit Qwen steht in Gemma 4 vs. Qwen auf dem Mac.


Fazit

Gemma 4 12B trifft eine Lücke, die für Macs wichtiger ist als ein weiteres riesiges Spitzenmodell. Das Modell ist groß genug, um E4B bei Reasoning, Coding und Vision klar zu übertreffen, aber klein genug für eine 7,6-GB-Quantisierung in Ollama.

Meine Empfehlung: Auf 16 GB ist gemma4:12b einen Test wert, wenn du Kontext und offene Apps begrenzt. Auf 24 oder 32 GB ist es der neue Gemma-Sweet-Spot für lokale Allround-Aufgaben. Wer maximale Geschwindigkeit sucht, bleibt bei E4B; wer mehr Qualität und genügend Speicher hat, vergleicht 12B mit 26B A4B.

Die spannendste Eigenschaft ist nicht die einzelne Benchmarkzahl. Es ist die Kombination aus lokaler Größe, 256K Modellkontext und encoder-freier Multimodalität. Ob Audio, Video und lange Kontexte auf deinem Mac überzeugen, entscheidet aber die konkrete Runtime und nicht das Datenblatt allein.


Quellen und Prüfstand

Stand: 8. Juni 2026. Modell- und Benchmarkangaben stammen aus Googles Modellkarte und Launch-Blog. Ollama-Größe, Quantisierung und unterstützte Eingaben wurden gegen das aktuelle Ollama-Listing geprüft. MLX-Angaben beziehen sich auf Community-Konvertierungen. Offene llama.cpp-Issues zeigen, dass Audio- und Vision-Unterstützung der neuen Architektur noch in Bewegung ist.

Häufig gestellte Fragen

Läuft Gemma 4 12B auf einem Mac mit 16 GB RAM?

Ja, die quantisierte Ollama-Version ist 7,6 GB groß und Google nennt 16 GB Unified Memory als Ziel. Das bedeutet aber nicht, dass 256K Kontext praktisch nutzbar sind. Auf 16 GB sollten andere Apps geschlossen und Kontext sowie Bildauflösung begrenzt werden.

Wie installiere ich Gemma 4 12B mit Ollama?

Mit `ollama pull gemma4:12b` lädst du das Modell, mit `ollama run gemma4:12b` startest du es. Das aktuelle Ollama-Listing nutzt Q4_K_M, ist 7,6 GB groß und unterstützt Text- und Bildeingaben.

Kann Gemma 4 12B Audio und Video lokal verarbeiten?

Das Google-Modell unterstützt Text, Bilder, Audio und Videoeingaben. In Ollama ist der 12B-Tag derzeit als Text plus Bild gelistet. Für Audio und Video dokumentiert Google den Transformers-Pfad; die Unterstützung hängt deshalb von der Runtime ab.

Was ist an Gemma 4 12B Unified neu?

Das Modell verwendet keine separaten Vision- oder Audioencoder. Bildpatches und Audiosignale werden über leichte Projektionen direkt in den Decoder-Transformer eingespeist. Dadurch bleibt der multimodale Stack kompakter.

Ist Gemma 4 12B besser als Gemma 3 27B?

In Googles eigener Tabelle liegt Gemma 4 12B bei Reasoning, Coding, Vision und Long Context klar vor Gemma 3 27B ohne Thinking. Das sind Herstellerbenchmarks; für den eigenen Workflow zählen zusätzlich Quantisierung, Runtime, Prompt und Geschwindigkeit.