LM Studio vs. Ollama — Welches Tool für Apple Silicon?
Praktischer Vergleich von LM Studio und Ollama für Mac-Nutzer mit lokalen LLMs auf Apple Silicon. Installation, Features, Performance und die beste Wahl für deinen Workflow.
LM Studio vs. Ollama — Welches sollten Sie auf Apple Silicon verwenden?
Sie haben einen Mac mit Apple Silicon und möchten einen lokalen LLM ausführen. Zwei Tools tauchen immer wieder auf: Ollama und LM Studio. Beide erledigen grundsätzlich dasselbe — große Sprachmodelle auf Ihrem Rechner ausführen — aber sie gehen dabei sehr unterschiedlich vor.
Hier der ehrliche Vergleich, mit realen Zahlen und ohne Marketing-Floskeln.
TL;DR
- Ollama: Terminal-fokussiert, leichtgewichtig, perfekt für Entwickler. Wenn Sie einen skriptfähigen API-Server möchten oder sich auf der Kommandozeile wohlfühlen, ist dies das richtige Tool.
- LM Studio: GUI-fokussiert, benutzerfreundlich, mit integrierter Modellentdeckung. Wenn Sie eine Drag-and-Drop-Erfahrung mit einer polished Oberfläche möchten, starten Sie hier.
- Beide unterstützen Apple Silicon über native MLX-Optimierung.
- RAM-Anforderungen sind identisch — 16 GB reichen für kleine Modelle, 32 GB ermöglichen komfortables Ausführen von 8B-Modellen.
- Es gibt keinen Geschwindigkeitsunterschied bei äquivalenten Model+Quantisierungs-Kombinationen.
Was vergleichen wir?
Bevor wir ins Detail gehen, hier das, was beide Tools tatsächlich tun:
- Herunterladen von LLM-Modelldateien (typischerweise im GGUF-Format)
- Laden von Modellen in den RAM Ihres Macs (Unified Memory)
- Bereitstellen des Modells über eine lokale API (kompatibel mit dem OpenAI-API-Format)
- Inferenz ausführen — Text basierend auf Ihren Prompts generieren
Beide sind Open-Source. Beide laufen vollständig lokal. Keines sendet Ihre Daten irgendwohin.
| Feature | Ollama | LM Studio |
|---|---|---|
| Lizenz | MIT | Apache 2.0 |
| macOS nativ | Ja | Ja |
| Apple Silicon optimiert | Ja (ARM64 + Metal) | Ja (MLX-Backend) |
| GUI | Nein (nur Menüleisten-Symbol) | Ja (vollständige Desktop-App) |
| Modellentdeckung | Über CLI oder Website | Integrierter durchsuchbarer Modellkatalog |
| API-Kompatibilität | OpenAI-kompatibel | OpenAI-kompatibel |
| GPU-Auslagerung | Apple Metal | Apple MLX |
| Konfigurationsdatei | Über Umgebungsvariablen | GUI-Einstellungen + Konfigurationsdatei |
| Startzeit | ca. 2–5 Sekunden | ca. 3–7 Sekunden |
Installation — Wie einfach ist der Einstieg?
Ollama
Option 1: Offizieller Download
Laden Sie die .dmg von ollama.com herunter und ziehen Sie sie in Programme. Fertig — es läuft als Menüleisten-Symbol ohne sichtbares Fenster.
Option 2: Homebrew
brew install ollama
brew services start ollama
Option 3: One-Liner
curl -fsSL https://ollama.ai/install.sh | sh
Welchen Weg Sie auch wählen, Ollama ist in unter 2 Minuten installiert. Kein Konto, kein Login, keine Cloud-Komponente.
LM Studio
Laden Sie die macOS .dmg von lmstudio.ai herunter und ziehen Sie sie in Programme. Beim ersten Start erhalten Sie ein vollständiges Desktop-Fenster mit:
- Einer Modellsuchleiste (Suche nach Name, Größe, Quantisierung)
- Download-Fortschrittsbalken
- Eine Chat-Oberfläche
- Einem Toggle für den lokalen API-Server
- Server-URL und Port-Anzeige
Es gibt auch eine CLI-Version (lms) für das Terminal, aber die meisten Benutzer werden sie nicht benötigen.
Urteil: LM Studio gewinnt bei der Erstbenutzererfahrung. Der integrierte Modellkatalog beseitigt die Reibung „welches Modell lade ich überhaupt herunter?”, die Ollama hat. Wenn Sie neu bei lokalen LLMs sind, ist LM Studio einladender.
Ihr erstes Modell ausführen
Mit Ollama
# Modell herunterladen
ollama pull llama3.2
# Sofort im Terminal ausführen
ollama run llama3.2
Fertig. Sie erhalten eine interaktive Eingabeaufforderung. Beenden Sie mit /bye oder Strg+D.
Um eine spezifische Variante herunterzuladen:
ollama pull llama3.2:3b # 3 Milliarden Parameter
ollama pull codellama:7b # Code-spezialisiertes Modell
ollama pull mistral:7b # Mistral 7B
ollama pull deepseek-coder:6.7b # DeepSeek Coder
Um den API-Server zu starten:
ollama serve
# Server läuft unter http://localhost:11434
Mit LM Studio
- App öffnen
- Modell suchen (z.B. „llama 3.2”)
- Auf Download klicken
- AI Chat in der Seitenleiste klicken
- Modell aus dem Dropdown auswählen
- Chat beginnen
Um den API-Server zu nutzen:
- Local Server in der Seitenleiste klicken
- Enable Server aktivieren
- URL notieren (z.B.
http://localhost:1234/v1/chat/completions) - Wie die OpenAI-API verwenden:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="not-needed" # LM Studio benötigt lokal keinen Schlüssel
)
response = client.chat.completions.create(
model="llama-3.2-3b-instruct",
messages=[{"role": "user", "content": "Erklären Sie Apple Silicon in 2 Sätzen."}]
)
print(response.choices[0].message.content)
Urteil: Ollama gewinnt für terminal-native Workflows und Skripting. LM Studio gewinnt für GUI-Liebhaber und One-Click-Setup.
API-Kompatibilität — Funktionieren Ihre bestehenden Tools?
Beide Tools bieten einen OpenAI-API-kompatiblen Endpunkt. Das bedeutet: Wenn Sie Code haben, der OpenAI verwendet, können Sie die Basis-URL und den API-Schlüssel austauschen und es funktioniert lokal.
Ollama-Endpunkt
http://localhost:11434/v1/chat/completions
LM Studio-Endpunkt
http://localhost:1234/v1/chat/completions
Beide unterstützen Streaming via stream: true im Request-Body. Beide behandeln dieselben /v1/chat/completions, /v1/completions und /v1/embeddings-Endpunkte.
Ein wichtiger Unterschied: Ollama hat ein eigenes natives API-Format auf Port 11434, das nicht OpenAI-kompatibel ist (z.B. http://localhost:11434/api/generate). Für OpenAI-kompatible Anfragen verwenden Sie den /v1/ Pfad. LM Studio expose nur die OpenAI-kompatible Schnittstelle.
# Ollama: Natives Format (nicht OpenAI-kompatibel)
curl http://localhost:11434/api/generate \
-d '{"model": "llama3.2", "prompt": "Hallo"}'
# Ollama: OpenAI-kompatibles Format
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "llama3.2", "messages": [{"role": "user", "content": "Hallo"}]}'
# LM Studio: OpenAI-kompatibel (dasselbe wie oben)
curl http://localhost:1234/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "llama-3.2-3b-instruct", "messages": [{"role": "user", "content": "Hallo"}]}'
Urteil: Unentschieden. Beide bieten eine OpenAI-kompatible API. Ollamas natives Format ist für einige fortgeschrittene Anwendungsfälle leistungsfähiger (Multi-Modell-Routing, Kontextmanipulation), aber LM Studios ist sauberer und besser dokumentiert.
Leistung auf Apple Silicon
Bei äquivalenten Model+Quantisierungs-Kombinationen ist die Leistung praktisch identisch. Beide nutzen Apples Metal-API oder MLX-Framework, um die Neural Engine und GPU-Kerne anzuzapfen. Der Flaschenhals ist Ihre Modellgröße und Ihr RAM, nicht das Tool.
Hier ist, was Sie auf einem Mac Mini M4 (32 GB RAM) erwarten können:
| Modell | Quantisierung | RAM-Verbrauch | Tokens/Sek (ca.) |
|---|---|---|---|
| Llama 3.2 1B | Q4_K_M | ca. 1,2 GB | 90–100 |
| Llama 3.2 3B | Q4_K_M | ca. 2,8 GB | 70–85 |
| Llama 3.1 8B | Q4_K_M | ca. 5,4 GB | 35–45 |
| Mistral 7B | Q4_K_M | ca. 4,8 GB | 30–40 |
| CodeLlama 7B | Q4_K_M | ca. 4,8 GB | 28–38 |
| Phi-3.5 Mini 3.8B | Q4_K_M | ca. 2,5 GB | 65–80 |
Dies sind ungefähre Richtwerte — Ihre genauen Zahlen hängen von der Prompt-Länge, den Generierungseinstellungen (Temperature, top_p) und der gleichzeitigen Systemlast ab.
Was wichtiger ist als das Tool:
- RAM ist der Flaschenhals — 16 GB beschränkt Sie auf 3B-Modelle. 32 GB öffnet 8B-Modelle.
- Quantisierung ist wichtiger als das Tool — ein Q2_K quantisiertes 8B-Modell läuft schneller als ein Q8_0 3B-Modell, aber mit niedrigerer Qualität.
- Kontextlänge beeinflusst die Geschwindigkeit — je mehr Ihr Prompt-Kontext wächst, desto langsamer wird die Generierung.
Urteil: Unentschieden bei roher Leistung. Wählen Sie basierend auf dem Workflow, nicht beim Benchmark-Hopping.
Modellverwaltung
Ollama
- Modelle werden in
~/.ollama/models/gespeichert ollama listzeigt installierte Modelleollama show <modell>zeigt Metadatenollama rm <modell>entfernt ein Modell- Keine eingebaute Möglichkeit, Modellgröße oder Dateidetails zu sehen — Sie brauchen
ls -lh ~/.ollama/models/
Benutzerdefinierte Modelle (z.B. feinabgestimmte GGUF-Dateien) können über eine Modelfile hinzugefügt werden:
# Modelfile erstellen
echo 'FROM ./my-custom-model.Q4_K_M.gguf' > Modelfile
ollama create my-custom-model -f Modelfile
LM Studio
- Modelle werden in
~/.lmstudio/models/gespeichert - Die GUI zeigt Download-Fortschritt, Modellgröße und Dateipfad
- GGUF-Dateien per Drag-and-Drop in die App ziehen, um benutzerdefinierte Modelle zu laden (keine Modelfile nötig)
- Lokale Modellbibliothek durchsuchen und filtern
Urteil: LM Studio gewinnt bei der Benutzerfreundlichkeit für technisch nicht versierte Nutzer. Ollama gewinnt für Power-User, die feinkörnige Kontrolle über Modelfiles wollen.
Fortgeschritten: WebUI und Tool-Integration
Keines der beiden Tools hat eine eingebaute Chat-Oberfläche, aber beide können mit einer gekoppelt werden.
Ollama + Ollama WebUI
docker run -d -p 3000:8080 \
-e OLLAMA_BASE_URL=http://localhost:11434 \
--name ollama-webui ghcr.io/ollama-webui/ollama-webui:main
Dann http://localhost:3000 öffnen. Sieht aus und fühlt sich an wie ein lokales ChatGPT.
LM Studio + Integrierter Chat
LM Studio wird mit einer integrierten Chat-Oberfläche geliefert — keine zusätzliche Einrichtung nötig. Für eine polierte Erfahrung funktioniert LM Studio auch mit jeder OpenAI-kompatiblen WebUI (z.B. Open WebUI).
Für Entwickler
Beide funktionieren mit:
- Continue.dev (VS Code-Erweiterung für Inline-LLM-Codierung)
- SimpleAI Chat (macOS-App)
- n8n-Workflows (über den HTTP-Request-Node)
- Alles, was OpenAIs API spricht
Urteil: Unentschieden. Beide integrieren sich in dasselbe Ökosystem. LM Studios eingebauter Chat spart Ihnen 5 Minuten Einrichtungszeit.
Kompromisse — Die ehrliche Zusammenfassung
Ollama
Vorteile:
- Zero-Config API-Server
- Extrem leichtgewichtig (keine GUI-Overhead)
- Starke Community (größte lokale LLM-Nutzerbasis)
- Modelfile-System für feinkörnige Anpassung
- Läuft gut auf headless Maschinen (Server, headless Macs)
Nachteile:
- Keine GUI — rein CLI oder API
- Modellentdeckung erfordert zu wissen, wonach man auf ollama.com/library suchen muss
- Natives API-Format unterscheidet sich von OpenAI — verwirrend für Anfänger
LM Studio
Vorteile:
- Klassenbeste UX für technisch nicht versierte Nutzer
- Integrierte Modellentdeckung und Download-Manager
- Drag-and-Drop GGUF-Laden
- Polierte Chat-Oberfläche out of the box
- Aktive Entwicklung und saubere macOS-Integration
Nachteile:
- Schwergewichtig (eine vollständige Electron-Desktop-App vs. Ollamas Binary)
- Kein nativer headless/SSH-Modus (obwohl CLI-Tool existiert)
- Kleinere Community als Ollama
- Weniger Kontrolle über Modellparameter
Welches sollten Sie verwenden?
Verwenden Sie Ollama, wenn:
- Sie Entwickler sind oder sich auf dem Terminal wohlfühlen
- Sie LLM-Fähigkeiten in Skripte, Workflows oder Apps einbetten möchten
- Sie auf einer headless Maschine oder einem Server laufen
- Sie die größte Community und die meisten online verfügbaren Beispiele wollen
- Sie eine automatisierte Pipeline bauen (CI/CD, Agents, etc.)
Verwenden Sie LM Studio, wenn:
- Sie neu bei lokalen LLMs sind und eine GUI möchten
- Sie Point-and-Click gegenüber Kommandozeile bevorzugen
- Sie den schnellsten Weg von „Modell herunterladen” zu „mit KI chatten” möchten
- Sie Modelle evaluieren und eine polierte Chat-Erfahrung wollen
- Sie das Setup mit technisch nicht versierten Personen teilen müssen
Verwenden Sie beide: Viele Benutzer betreiben Ollama als API-Server auf einer Maschine (einschließlich headless Setups) und nutzen LM Studio auf ihrem Laptop für die GUI. Sie können dieselelben Modelldateien teilen, wenn Sie ~/.ollama/models/ nach ~/.lmstudio/models/ verlinken.
Kurzreferenz
# Ollama installieren
curl -fsSL https://ollama.ai/install.sh | sh
ollama pull llama3.2
ollama serve
# LM Studio installieren
# Herunterladen von https://lmstudio.ai — in Programme ziehen
# Verfügbare Ollama-Modelle prüfen
ollama list
# Laufende Ollama-Instanz prüfen
ollama ps
# Testanfrage an Ollama senden
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "llama3.2", "messages": [{"role": "user", "content": "Hi"}]}'
# Dieselbe Anfrage an LM Studio senden
curl http://localhost:1234/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "llama-3.2-3b-instruct", "messages": [{"role": "user", "content": "Hi"}]}'
Weiterführende Lektüre
- Ollama auf dem Mac Mini M4 einrichten — Schritt-für-Schritt Installationsanleitung
- Mac Mini M4 als KI-Server — Hardware-Setup und Kostenanalyse
- Beste KI-Modelle für Apple Silicon 2026 — Modellempfehlungen nach Aufgaben
- Whisper auf dem Mac — Lokale Sprachtranskription — Whisper lokal für Transkription ausführen