Unified Memory: Warum lokale LLMs auf dem Mac laufen
Unified Memory erklärt: Warum Apple Silicon lokalen LLMs hilft, wo Speicherbandbreite zählt und wann Mac mini M4, M4 Pro oder Cloud sinnvoller sind.
Wenn du lokale KI auf einem Mac nutzt — etwa mit Ollama, LM Studio oder MLX — merkst du schnell, dass Apple Silicon für kleine und mittlere Modelle gut geeignet sein kann. Auf meinem Mac Mini M4 mit 32 GB Unified Memory läuft das deutlich flüssiger als ich zuerst erwartet habe. Der Grund liegt in der Speicherarchitektur: CPU und integrierte GPU greifen auf denselben Unified-Memory-Pool zu.
Und warum ist das für LLM-Inferenz so viel wichtiger, als es auf den ersten Blick aussieht?
Grafik auf Basis von Apples M1-/Mac-mini-Spezifikationen und der MLX-Dokumentation zu Unified Memory. Quellen: Apple M1 Newsroom, Apple Mac mini Tech Specs, MLX Unified Memory. Geprüft am 27. Mai 2026.
Die Architektur — anders als du denkst
Bei einem klassischen PC sitzen CPU und GPU physisch auf unterschiedlichen Platinen. Jede Komponente hat ihren eigenen RAM: das System hat DDR5-Module, die GPU hat ihren eigenen VRAM (GDDR6X bei Nvidia). Die beiden Speicherpools sind getrennt — und das hat Konsequenzen.
Bei einem diskreten GPU-System liegen CPU-RAM und GPU-VRAM in getrennten Pools. Sind die Modellgewichte vollständig im VRAM, bleiben sie dort. PCIe-Transfers werden vor allem beim Laden, CPU-Offloading und beim Austausch zusätzlicher Daten relevant. Reicht der VRAM nicht, können diese Transfers zum Engpass werden.
Apple Silicon bricht mit dieser Architektur. Beim Mac mini mit M4 oder M4 Pro sitzen CPU, integrierte GPU und Neural Engine im selben System-on-a-Chip und nutzen denselben Unified-Memory-Pool.
Für die integrierte GPU gibt es keinen separaten VRAM-Pool, der erst über PCIe mit dem CPU-RAM synchronisiert werden muss. Gewichte, Kontext und KV-Cache liegen in einem gemeinsamen Speicherbereich. Das reduziert Kopien und vereinfacht den Wechsel zwischen CPU- und GPU-Arbeit.
Warum das bei LLMs einen enormen Unterschied macht
Transformer-Modelle arbeiten schichtweise. Jede Schicht liest ihre eigenen Attention- und Feed-Forward-Gewichte. Bei autoregressiver Generierung wird dieser Speicherzugriff für jedes neue Token wiederholt; deshalb ist Speicherbandbreite oft wichtig.
Bei klassischer Architektur passiert das so:
- Der Weight-Tensor liegt im GPU-VRAM
- Für jeden Attention-Schritt muss die GPU die Werte lesen — das geht schnell
- Aber: wenn die CPU etwas beisteuern muss, müssen Daten kopiert werden
- Passt ein Modell nicht vollständig in den GPU-RAM, kann CPU-Offloading helfen; ein OOM-Fehler bedeutet dagegen, dass eine Speicherallokation fehlgeschlagen ist
Bei Apple Silicon passiert das so:
- Der Weight-Tensor liegt im Unified Memory
- Die integrierte GPU kann direkt auf denselben Speicherpool zugreifen
- Die CPU arbeitet ebenfalls auf diesem Speicher
- Beim Mac mini M4 Pro nennt Apple bis zu 273 GB/s Speicherbandbreite
- Weniger Kopieraufwand zwischen CPU- und GPU-Arbeit
Dazu kommt ein zweiter Effekt: die sogenannte Zero-Copy-Architektur. In einem klassischen Setup muss, wenn die CPU einen Prompt vorbereitet und die GPU dann die Inferenz übernimmt, der vorverarbeitete Tensor einmal kopiert werden. Bei Apple Silicon gibt es diese Kopie nicht — CPU und GPU arbeiten auf demselben Speicherbereich. Die Latenz zwischen Vorverarbeitung und Inferenz sinkt.
Für LLMs ist das besonders relevant, weil Prompt-Verarbeitung, Sampling, Runtime-Logik und Matrix-Rechnung unterschiedliche Teile des Systems belasten. Unified Memory macht den Wechsel zwischen CPU- und GPU-Arbeit einfacher, aber es ersetzt keine ausreichende Speicherkapazität, keine passende Quantisierung und keine schnelle Runtime.
Die Zahlen — Mac mini M4 im Vergleich
Apple bietet mehrere relevante Chip-Klassen für lokale KI-Inferenz. Für den Mac mini sind vor allem M4 und M4 Pro relevant; M4 Max und M3 Ultra gehören in andere Mac-Klassen:
| Chip-Klasse | Typische Mac-Klasse | Max. Unified Memory | Speicherbandbreite | Einordnung für lokale LLMs |
|---|---|---|---|---|
| M4 | Mac mini, iMac, MacBook Pro | bis 32 GB im Mac mini | ~120 GB/s | Sehr gut für kleine bis mittlere Modelle |
| M4 Pro | Mac mini, MacBook Pro | bis 64 GB im Mac mini | 273 GB/s | Mehr Spielraum im Mac mini für lokale KI |
| M4 Max | MacBook Pro, Mac Studio | bis 128 GB | ~546 GB/s | Größere lokale Modelle, aber kein Mac mini |
| M3 Ultra | Mac Studio | bis 512 GB | ~800 GB/s | Sehr große Modelle/Workstations, andere Preisklasse |
Warum ist die Speicherbandbreite so wichtig? Viele LLM-Inferenzläufe sind stark speicherbandbreiten-limitiert: Die GPU muss ständig Gewichte und KV-Cache lesen. Mehr Bandbreite hilft, aber sie ersetzt keine ausreichende Speicherkapazität und keine passende Quantisierung.
Zum Vergleich: Eine Nvidia RTX 4090 hat 1 TB/s Speicherbandbreite — mehr als der M4 Pro. Aber dieser Wert ist für den GPU-spezifischen GDDR6X-VRAM. Sobald Daten zwischen CPU-RAM (DDR5) und GPU-VRAM kopiert werden müssen, bremst der PCIe-4.0-x16-Bus mit ~32 GB/s. Das ist 8- bis 16-mal langsamer als die Unified-Memory-Bandbreite.
Die relevante Zahl für LLM-Inferenz ist also der absolute Bandbreitenwert und der Kopieraufwand zwischen den Rechenwerken. Genau hier hat Apple Silicon einen strukturellen Vorteil, der sich in vielen lokalen Workflows bemerkbar macht. Das heißt aber nicht, dass ein Mac automatisch schneller ist als eine starke diskrete GPU; es heißt, dass Apples Speicherarchitektur für lokale, integrierte CPU/GPU-Workflows ungewöhnlich gut passt.
Praktische Empfehlung — 16, 24 oder 32 GB?
Die Wahl des Mac mini hängt direkt vom Speicher ab. Hier die ehrliche Einschätzung:
16 GB — Für kleine Modelle und kurze Kontexte
16 GB reichen für Whisper, kleine 1B- bis 4B-Modelle, kurze Chats und einfache Automationen. 7B/8B-Modelle können je nach Quantisierung funktionieren, aber Kontext, macOS und parallele Apps lassen wenig Reserve. Für regelmäßige lokale LLM-Nutzung ist 16 GB eher die Unterkante.
24 GB — Besserer Einstieg
24 GB sind ein guter Einstieg für ernsthafte LLM-Nutzung. 7B/8B-Modelle in Q4 passen meist gut, dazu moderater Kontext und normale Desktop-Apps. Die 24-GB-Variante des Mac mini M4 Pro ist interessant, wenn du auch CPU/GPU/I/O des Pro-Chips brauchst; rein für LLMs kann ein normaler M4 mit 32 GB aber sinnvoller sein.
32+ GB — Für mehr Kontext und größere Modelle
32 GB ermöglichen mehr Kontext und größere Quantisierungen als 24 GB. Der Mac mini M4 Pro mit 48 oder 64 GB ist sinnvoller, wenn 30B/32B-Modelle, Vision, RAG oder parallele Workflows geplant sind. Für noch größere Modelle wie 70B sind Mac Studio, MacBook Pro Max oder Cloud-GPUs realistischer als der normale Mac mini.
Fazit — Warum Unified Memory mehr ist als ein Marketing-Begriff
Unified Memory ist eine grundlegende Architekturentscheidung. CPU und integrierte GPU teilen denselben Speicherpool; das reduziert Kopien bei Workflows, die zwischen beiden Prozessoren wechseln. Der Vorteil ersetzt aber keine Messung mit demselben Modell, derselben Quantisierung und derselben Runtime.
Der M4 Pro bietet für 7B- und 8B-Modelle in Q4 viel Speicherbandbreite und Unified Memory. Ollama- und typische MLX-LLM-Workflows nutzen dabei CPU und GPU; eine Nutzung der Neural Engine sollte nicht ohne runtimespezifischen Nachweis behauptet werden.
Wer einen Mac mini M4 Pro als lokalen KI-Rechner nutzt, bekommt leise, effiziente Inferenz ohne laufende Tokenkosten und ohne Cloud-Upload. Das ist der echte Vorteil hinter dem Marketing-Begriff — aber er ersetzt keine große NVIDIA-GPU, kein vLLM-Cluster und keine Cloud-GPU für sehr große Modelle.
Quellen und Stand
Stand: geprüft am 27. Mai 2026. Mac-mini-M4- und M4-Pro-Daten stammen aus Apples technischen Spezifikationen. Die Einordnung zu Unified Memory stützt sich auf Apples M1-Erklärung und die MLX-Dokumentation. Bandbreiten- und PCIe-Vergleiche sind technische Orientierungspunkte; konkrete tok/s hängen weiter von Modell, Quantisierung, Kontextlänge, Runtime und freiem Speicher ab.
Häufig gestellte Fragen
Warum ist Unified Memory besser für LLMs als klassischer RAM?
Bei klassischen PCs sind CPU-RAM und GPU-VRAM getrennt. Wenn Daten zwischen CPU und GPU wechseln, entstehen Kopieraufwand und Latenz. Bei Apple Silicon teilen sich CPU und integrierte GPU denselben Speicherpool. Das hilft lokalen LLMs besonders dann, wenn Modell, Kontext und Runtime zwischen CPU- und GPU-Arbeit wechseln.
Wie viel RAM brauche ich für lokale LLMs auf dem Mac mini?
16 GB reichen für kleine Modelle und kurze Kontexte. 24 GB sind ein besserer Einstieg für 7B/8B-Modelle. 32 GB geben auf dem normalen M4 mehr Spielraum, während 48/64 GB beim M4 Pro für größere Modelle, Vision, RAG und parallele Workflows deutlich angenehmer sind.
Was bringt Unified Memory konkret in tok/s?
Unified Memory verbessert vor allem Speicherzugriff und vermeidet Kopien zwischen CPU-RAM und GPU-VRAM. Konkrete tok/s hängen aber stark von Modell, Quantisierung, Runtime, Kontextlänge und freiem Speicher ab.
Unterscheidet sich der M4 Max fundamental vom M4 Pro für LLM-Inferenz?
Ja, aber nicht im Mac mini. Der Mac mini endet beim M4 Pro mit bis zu 64 GB Unified Memory und 273 GB/s Speicherbandbreite. M4 Max und M3 Ultra gehören in MacBook-Pro- beziehungsweise Mac-Studio-Klassen und sind für deutlich größere lokale Modelle relevanter.
Was ist der Unterschied zwischen Unified Memory und normalem Upgarde-RAM?
Unified Memory ist fest mit dem SoC verlötet und kann nicht nachträglich aufgerüstet werden. Was du beim Kauf konfigurierst, bleibt für die Lebensdauer des Macs. Im Apple-Store beim Bestellen 32 GB statt 16 GB zu wählen, ist günstiger als ein späterer Hardware-Tausch — und bei LLMs entscheidet die RAM-Größe direkt darüber, welche Modelle laufen.
Kann ich den Swap-Speicher für LLMs nutzen, wenn der RAM voll ist?
Technisch ja, praktisch nein. macOS swappt auf die SSD, was bei LLM-Inferenz zu harten Latenzspitzen führt. Für interaktive Chat-Antworten ist das nicht akzeptabel. Wenn dein Modell mit Headroom läuft, kann ein kleiner Swap-Anteil (~5 GB) tolerierbar sein, aber das System fühlt sich an wie Festplatten-Light. Lieber ein kleineres Modell oder kürzerer Kontext als Swap.