Kleine LLMs auf dem Mac: Welche lohnen sich?
Kleine lokale LLMs für Apple Silicon: Qwen3, Qwen3.5, Ollama, RAM-Bedarf und sinnvolle Einstellungen.
Kleine lokale LLMs sind auf dem Mac oft die praktischere Wahl als große Modelle. Sie starten schneller, brauchen weniger Speicher und reichen für kurze Texte, Übersetzungen, Zusammenfassungen und einfache Coding-Hilfen häufig aus.
Die kurze Empfehlung
8 GB Mac: Qwen3 4B (2,5 GB). Reicht für Alltags-Chat und einfache Aufgaben. Kontext kurz halten.
16 GB Mac: Qwen3 8B (5,2 GB). Spürbar bessere Qualität, genug Raum für Kontext und andere Apps.
Minimale Anforderung: Qwen3 1.7B (1,4 GB). Schneller Alltagshelfer für Korrekturen und kurze Antworten.
Mit Vision: Qwen3.5 0.8B (1,0 GB). Kleine Text+Bild-Option, aber deutlich schwächer als reine Textmodelle.
Was ich getestet habe
Ich habe alle Qwen3-Varianten auf meinem 32 GB Mac getestet. Hier ist, was mir aufgefallen ist:
Qwen3 4B ist mein Go-to für schnelle Aufgaben. Korrekturen, Zusammenfassungen, Commit-Messages — das Modell liefert brauchbare Ergebnisse in Sekunden. Auf 8 GB Macs eng, aber machbar.
Qwen3 8B ist deutlich besser, aber braucht mehr Platz. Auf 16 GB der Sweet Spot für bessere Qualität ohne zu swapppen. Die Geschwindigkeit ist noch akzeptabel — 15-30 tok/s auf M4.
Qwen3 1.7B ist der Notnagel. Extrem klein, extrem schnell. Für Korrekturen und kurze Antworten reicht es. Für alles andere wird es schnell schwach.
Wichtig zu wissen
“Klein” bedeutet nicht automatisch “schlecht”. Es bedeutet: weniger Parameter, kleinere Downloads, geringerer Speicherbedarf — aber auch klarere Grenzen bei langem Kontext, komplexem Reasoning und anspruchsvoller Fachsprache.
Die Ollama-Modellgröße ist nur ein Anhaltspunkt. Der reale Speicherbedarf hängt von Quantisierung, Kontextlänge, KV-Cache und anderen laufenden Apps ab.
Wann lohnen sich kleine Modelle?
Ja, wenn du:
- Kurze Texte zusammenfassen willst
- Einfache Coding-Hilfe brauchst
- Übersetzungen machst
- Offline arbeiten willst
- Keine API-Kosten zahlen willst
Nein, wenn du:
- Lange Kontexte brauchst
- Komplexes Reasoning brauchst
- Coding-Agenten nutzt
- Multimodalität brauchst (dafür Qwen3.5 mit Vision)
Mein Fazit
Kleine Modelle sind kein Ersatz für große Cloud-Modelle. Aber für den Alltag auf dem Mac reichen sie oft aus. Qwen3 4B ist ein guter Start, Qwen3 8B der Upgrade.
Mein Tipp: Starte mit Qwen3 4B. Wenn es zu schwach ist, upscaled auf 8B. Das ist der schnellste Weg, das richtige Modell für deinen Workflow zu finden.
Getestet Juni 2026 auf Mac Mini M4 mit 32 GB. Alle Angaben basieren auf offiziellen Ollama-Quellen und eigenen Tests.
Transparenz
Quellen und Prüfgrundlage
Diese Primär- und Referenzquellen bilden die Grundlage der technischen Einordnung. Herstellerangaben und externe Benchmarks werden im Artikel als solche gekennzeichnet.