Lokale Vision-LLMs auf dem Mac: Modelle, RAM & Ollama

Lokale Vision-LLMs auf dem Mac sind praktisch, wenn du Screenshots, Quittungen, Diagramme oder Fotos analysieren willst, ohne jedes Bild in eine Cloud zu laden. Sie sind aber keine Magie: Manche Modelle lesen Text gut, andere beschreiben Szenen gut, und kleine Modelle wirken schnell beeindruckend, scheitern aber oft an Details.

Die kurze Empfehlung: Gemma 3 12B ist der beste Allrounder für die meisten Mac-Nutzer. Qwen2.5-VL 7B ist die bessere Wahl für OCR, Dokumente, Tabellen und Layouts. Llama 3.2 Vision 11B ist stark, aber für deutschsprachige Bilddialoge nicht immer die naheliegendste Wahl. Moondream ist interessant, wenn dein Mac wenig RAM hat oder du nur einfache Bildfragen stellen willst.

Ranking lokaler Vision-LLMs auf dem Mac

Schnellentscheidung: welches Vision-Modell für welchen Zweck?

Zweck	Empfehlung	Warum
Screenshots erklären	Gemma 3 12B	guter Mix aus Bildverständnis, Sprache und Modellgröße
Deutsche Antworten	Gemma 3 12B	Gemma 3 ist multilingual ausgerichtet und antwortet auf Deutsch meist natürlicher
Quittungen, Rechnungen, Tabellen	Qwen2.5-VL 7B	stark bei Text, Layouts, Dokumenten und strukturierten Ausgaben
Diagramme und UI-Elemente	Qwen2.5-VL 7B oder Llama 3.2 Vision 11B	beide sind für visuelle Analyse brauchbar, Qwen ist oft besser bei Text im Bild
Kleiner Mac, wenig Speicher	Moondream	sehr klein, aber deutlich weniger belastbar
Möglichst guter Allround-Betrieb lokal	Gemma 3 12B	guter Kompromiss aus Qualität, Größe und Alltagstauglichkeit

Wenn du nur ein Modell installieren willst, nimm Gemma 3 12B. Wenn du oft Dokumente scannst oder Text aus Bildern ziehen willst, installiere zusätzlich Qwen2.5-VL 7B. Wenn Ollama noch nicht eingerichtet ist, starte zuerst mit dem Ollama-Setup-Guide für Apple Silicon.

Was Vision-LLMs lokal wirklich können

Ein Vision-LLM bekommt nicht nur Text, sondern zusätzlich ein Bild. Mit Ollama kannst du einem Vision-Modell zum Beispiel eine Datei und eine Frage geben. Typische Aufgaben sind:

Screenshot beschreiben
UI-Fehler finden
Text aus Bildern zusammenfassen
Quittungen grob strukturieren
Diagramme erklären
Fotos nach sichtbaren Objekten durchsuchen
Alt-Texte für Bilder schreiben
Lernmaterial aus Screenshots erklären lassen

Das ist besonders nützlich, wenn du private Bilder, Uni-Unterlagen oder interne Screenshots nicht bei einem Cloud-Anbieter hochladen willst. Trotzdem musst du Ergebnisse prüfen. Vision-LLMs können Text verwechseln, Zahlen falsch ablesen oder aus einem unscharfen Bild eine sichere Antwort formulieren.

Die wichtigsten Modelle im Überblick

Modell	Ollama-Größe	Kontext laut Ollama	Stärken	Grenzen
Gemma 3 12B	ca. 8,1 GB	128K	Allround, Deutsch, Screenshots, Bildbeschreibung	nicht spezialisiert auf OCR
Qwen2.5-VL 7B	ca. 6,0 GB	125K	OCR, Dokumente, Tabellen, Layouts, strukturierte Ausgaben	Antworten können technischer wirken
Llama 3.2 Vision 11B	ca. 7,8 GB	128K	Bildreasoning, Captioning, VQA	Image+Text offiziell mit Englisch-Fokus
Moondream	ca. 1,7 GB	2K	klein, schnell startklar, einfache Fragen	begrenzter Kontext, weniger zuverlässig bei Details

Wichtig: Die Download-Größe ist nicht der komplette RAM-Verbrauch im Betrieb. Bei Vision-Aufgaben kommen Bildverarbeitung, Kontext, KV-Cache und macOS-Speicherbedarf dazu. Ein Modell mit 8 GB Paketgröße kann in der Praxis spürbar mehr Unified Memory belegen.

Meine Empfehlung nach Mac-Konfiguration

8 GB Unified Memory

Auf 8-GB-Macs würde ich Vision-LLMs nur sehr vorsichtig nutzen. Moondream ist hier die realistischste Option. Es eignet sich für einfache Fragen wie “Was ist auf dem Bild zu sehen?” oder “Welche UI-Elemente erkennst du?”. Für OCR, lange Antworten oder mehrere Bilder ist das Setup schnell am Limit.

Empfehlung:

ollama pull moondream
ollama run moondream ./screenshot.png "Beschreibe kurz, was auf diesem Screenshot zu sehen ist."

16 GB Unified Memory

Mit 16 GB wird es interessanter. Qwen2.5-VL 7B und Gemma 3 12B können je nach restlicher Systemlast funktionieren, aber du solltest keine Wunder erwarten. Browser, IDE, Docker und viele offene Apps können die Erfahrung schnell verschlechtern.

Empfehlung:

Für Dokumente: Qwen2.5-VL 7B
Für allgemeine Bildanalyse: Gemma 3 12B testen
Bei Speicherproblemen: Moondream als Fallback

24 GB oder 32 GB Unified Memory

Hier beginnt der angenehme Bereich. Gemma 3 12B ist für viele Mac-Nutzer der beste Standard. Qwen2.5-VL 7B ergänzt es sinnvoll für OCR und Dokumente. Auf einem Mac mini M4 mit 32 GB ist das ein realistisches lokales Setup.

Empfehlung:

ollama pull gemma3:12b
ollama pull qwen2.5vl:7b

64 GB und mehr

Mit 64 GB oder mehr kannst du größere Modelle testen, etwa Gemma 3 27B oder Qwen2.5-VL 32B. Das lohnt sich aber nur, wenn du wirklich bessere Qualität brauchst und bereit bist, längere Antwortzeiten zu akzeptieren. Für viele Alltagsaufgaben ist ein gutes 7B- bis 12B-Modell angenehmer.

Benchmark-Einordnung: Was die Zahlen sagen — und was nicht

Benchmarks sind hilfreich, aber sie ersetzen keinen lokalen Praxistest. DocVQA misst Dokumentenverständnis. ChartQA misst Fragen zu Diagrammen. TextVQA misst Text in Bildern. MMMU prüft multimodales Reasoning über verschiedene Fachgebiete.

Diese Zahlen stammen aus offiziellen Modellkarten bzw. Modellseiten. Sie sind keine Messung auf einem Mac mini M4.

Benchmark-Kontext für Vision-LLMs

Modell	DocVQA	ChartQA	TextVQA	MMMU	Einordnung
Gemma 3 12B	82,3	60,9	66,5	50,3	guter Allrounder, aber nicht OCR-Spitze
Qwen2.5-VL 7B	95,7	87,3	84,9	58,6	sehr stark für Dokumente, Charts und Text im Bild
Llama 3.2 Vision 11B Instruct	88,4	83,4	—	50,7	stark bei DocVQA/ChartQA, aber Sprachhinweis beachten
Moondream	—	—	—	—	nicht sinnvoll direkt mit den großen Modellkarten-Benchmarks vergleichbar

Die Tabelle zeigt ziemlich klar: Wenn dein Hauptproblem Text im Bild ist, spricht vieles für Qwen2.5-VL 7B. Wenn du ein Modell willst, das mit deutschen Prompts angenehm antwortet und auch allgemeine Bildbeschreibung kann, ist Gemma 3 12B meist die bessere erste Wahl.

Praxistest: So solltest du Vision-Modelle wirklich vergleichen

Viele Modellvergleiche sind nutzlos, weil sie nur einmal ein Bild zeigen und dann das “besser klingende” Ergebnis nehmen. Besser ist ein kleiner reproduzierbarer Test.

Nimm fünf Bildtypen:

Screenshot einer App oder Website
Quittung oder Rechnung
Diagramm oder Chart
Foto mit mehreren Objekten
unscharfer oder kleiner Textausschnitt

Stelle jedem Modell dieselben Fragen:

Beschreibe das Bild in maximal fünf Sätzen. 
Trenne sichtbare Fakten von Vermutungen.
Wenn du Text liest, gib unsichere Stellen mit [?] aus.

Für OCR:

Lies den sichtbaren Text aus dem Bild.
Gib ihn als Markdown-Tabelle aus.
Markiere unlesbare oder unsichere Stellen mit [?].
Erfinde keine fehlenden Zahlen.

Für Diagramme:

Analysiere das Diagramm.
Nenne zuerst Achsen, Einheiten und Legende.
Fasse dann den Trend zusammen.
Berechne nichts, wenn die Werte nicht eindeutig ablesbar sind.

Für UI-Screenshots:

Analysiere diesen Screenshot einer Benutzeroberfläche.
Was ist der wahrscheinlich nächste sinnvolle Klick?
Nenne mögliche Fehlerquellen.
Unterscheide sichtbare UI-Elemente von Vermutungen.

Workflow zum Testen lokaler Vision-LLMs

Gemma 3 12B: bester Allrounder für lokale Vision auf dem Mac

Gemma 3 12B ist für mich die naheliegendste Standardempfehlung. Es ist groß genug, um nicht sofort an einfachen Bildaufgaben zu scheitern, aber noch klein genug, um auf vielen Apple-Silicon-Macs realistisch zu laufen.

Stärken:

gute allgemeine Bildbeschreibung
brauchbar für Screenshots und UI-Fragen
angenehme deutsche Antworten
12B ist ein guter Kompromiss aus Qualität und Speicherbedarf
mit Ollama sehr einfach nutzbar

Schwächen:

nicht immer die beste Wahl für exaktes OCR
Tabellen und kleine Zahlen müssen geprüft werden
bei komplexen Dokumenten weniger überzeugend als Qwen2.5-VL

Guter Startprompt:

ollama run gemma3:12b ./screenshot.png "Analysiere diesen Screenshot. Nenne zuerst nur sichtbare Fakten, danach mögliche Interpretation. Keine erfundenen Details."

Qwen2.5-VL 7B: beste Wahl für OCR, Dokumente und Layouts

Qwen2.5-VL 7B ist das Modell, das ich für Quittungen, Tabellen, Dokumente und Screenshots mit viel Text zuerst testen würde. Die offiziellen Benchmarks und die Modellbeschreibung passen genau zu diesem Einsatzgebiet: Texte, Charts, Icons, Grafiken, Layouts und strukturierte Ausgaben.

Stärken:

sehr stark bei Text im Bild
gut für Quittungen, Rechnungen und Formulare
gute strukturierte Ausgaben
stark bei Diagrammen und Layouts
7B/6,0 GB ist für viele Macs noch realistisch

Schwächen:

nicht automatisch besser für jede normale Bildbeschreibung
kann bei deutschen Antworten trockener wirken
auch hier gilt: Zahlen gegenprüfen

Guter OCR-Prompt:

ollama run qwen2.5vl:7b ./rechnung.jpg "Extrahiere alle sichtbaren Felder. Gib Betrag, Datum, Händler, Steuern und Positionen als Markdown-Tabelle aus. Markiere unsichere Werte mit [?]."

Für Website-Screenshots:

ollama run qwen2.5vl:7b ./website.png "Analysiere diesen Website-Screenshot aus UX-Sicht. Nenne sichtbare Probleme, unklare Elemente und konkrete Verbesserungsvorschläge."

Llama 3.2 Vision 11B: stark, aber nicht immer die beste Mac-Empfehlung

Llama 3.2 Vision 11B ist ein ernstzunehmendes Vision-Modell. Es ist für visuelle Erkennung, Bildreasoning, Captioning und allgemeine Fragen zu Bildern gedacht. Die offiziellen Benchmarks für DocVQA und ChartQA sind stark.

Trotzdem würde ich es für deutschsprachige Mac-Nutzer nicht automatisch auf Platz eins setzen. Der wichtige Haken: In der Modellkarte wird darauf hingewiesen, dass bei Image+Text-Anwendungen Englisch offiziell unterstützt wird. Das heißt nicht, dass deutsche Prompts nie funktionieren. Es heißt aber, dass du bei deutscher Nutzung vorsichtiger testen solltest.

Stärken:

gutes Bildreasoning
starke offizielle DocVQA- und ChartQA-Werte
nützlich für allgemeine VQA-Aufgaben
etabliertes Meta-Modell

Schwächen:

größer als Qwen2.5-VL 7B
Image+Text offiziell mit Englisch-Fokus
für deutsche Alltagsnutzung nicht immer so angenehm wie Gemma 3

Guter Testprompt auf Englisch:

ollama run llama3.2-vision:11b ./chart.png "Analyze this chart. First list the axes and legend, then summarize the visible trend. Do not infer values that are not readable."

Moondream: klein, praktisch, aber kein Ersatz für größere Modelle

Moondream ist spannend, weil es sehr klein ist. Das macht es für ältere oder knappe Macs interessant. Du solltest es aber nicht wie einen direkten Konkurrenten zu Gemma 3 12B oder Qwen2.5-VL 7B behandeln.

Stärken:

sehr kleine Modellgröße
schnell installiert
gut für einfache Bildfragen
sinnvoll als Fallback auf kleinen Macs

Schwächen:

kurzer Kontext
weniger zuverlässig bei Details
nicht ideal für OCR oder komplexe Dokumente
kann selbstbewusst falsch antworten

Guter Prompt:

ollama run moondream ./image.jpg "Was ist auf diesem Bild zu sehen? Antworte kurz und nenne nur Dinge, die sichtbar sind."

Lokale Vision-LLMs und Datenschutz

Der größte Vorteil lokaler Vision-Modelle ist nicht immer Geschwindigkeit. Es ist Kontrolle. Ein Screenshot kann private Daten enthalten: E-Mails, Dateinamen, Rechnungsnummern, Gesundheitsinformationen, Uni-Unterlagen oder interne Website-Daten.

Wenn du solche Bilder lokal analysierst, verlassen sie deinen Mac nicht über eine externe API. Das ist ein klarer Vorteil gegenüber Cloud-Vision-Modellen. Aber: Lokal bedeutet nicht automatisch “sicher”. Du musst trotzdem aufpassen, wo die Dateien liegen, ob andere Apps Zugriff haben und ob du Ergebnisse später in Cloud-Tools kopierst.

Praktische Regel:

private Screenshots lokal analysieren
sensible OCR-Ergebnisse nicht ungeprüft weiterverwenden
Rechnungen und Dokumente nach dem Test löschen oder sauber ablegen
keine automatisch erzeugten Aussagen ungeprüft in offizielle Dokumente übernehmen

Häufige Fehler bei Vision-LLMs

Fehler 1: Zu allgemeine Prompts

Schlecht:

Was siehst du?

Besser:

Beschreibe nur sichtbare Elemente. Nenne keine Vermutungen. Markiere unsichere Textstellen.

Vision-LLMs können Zahlen und Buchstaben verwechseln. Besonders kritisch sind Beträge, IBANs, Rechnungsnummern, Dosierungen und Datumsangaben.

Fehler 3: Benchmark mit Alltag verwechseln

Ein Modell kann bei DocVQA stark sein und trotzdem bei deinem schlecht belichteten Kassenzettel Fehler machen. Benchmarks sind ein Hinweis, kein Garant.

Fehler 4: Zu große Bilder ohne klare Aufgabe

Ein riesiger Screenshot mit vielen Details überfordert kleinere Modelle schneller. Schneide den relevanten Bereich aus, wenn du eine genaue Antwort brauchst.

Fehler 5: Mehrere Bilder ohne Struktur

Wenn du mehrere Bilder analysierst, gib dem Modell klare Labels:

Bild 1: Rechnung
Bild 2: Screenshot des Fehlers
Vergleiche beide nur, wenn es sichtbare Überschneidungen gibt.

Meine finale Empfehlung

Für die meisten Mac-Nutzer ist diese Kombination am sinnvollsten:

Gemma 3 12B als Standardmodell für Screenshots, Bildbeschreibung und deutsche Antworten.
Qwen2.5-VL 7B als Spezialmodell für OCR, Dokumente, Tabellen und Layouts.
Moondream als kleine Notlösung für schwächere Macs.
Llama 3.2 Vision 11B als Alternative, wenn du Bildreasoning und englische Prompts testen willst.

Wenn du einen Mac mit 24 GB oder 32 GB Unified Memory hast, starte mit Gemma 3 12B und Qwen2.5-VL 7B. Das ist aktuell der praktischste lokale Vision-Stack für Apple Silicon.

FAQ

Welches lokale Vision-LLM ist auf dem Mac am besten?

Für die meisten Nutzer ist Gemma 3 12B der beste Allrounder. Für OCR, Quittungen, Tabellen und Dokumente ist Qwen2.5-VL 7B die bessere Spezialwahl.

Kann Ollama Bilder lokal analysieren?

Ja. Ollama unterstützt Vision-Modelle, die ein Bild zusammen mit einem Textprompt erhalten. Du kannst damit zum Beispiel Screenshots oder Fotos lokal analysieren.

Ist Qwen2.5-VL besser als Gemma 3?

Für OCR, Dokumente und Layouts oft ja. Für allgemeine deutsche Antworten und normale Screenshot-Erklärungen ist Gemma 3 12B häufig angenehmer.

Reichen 8 GB RAM für lokale Vision-Modelle?

Nur eingeschränkt. Moondream ist realistisch, größere Vision-Modelle können sehr knapp werden. Für Gemma 3 12B oder Qwen2.5-VL 7B sind 16 GB das Minimum zum Testen, 24 GB oder 32 GB sind deutlich angenehmer.

Können lokale Vision-LLMs Videos analysieren?

Nicht direkt wie ein echtes Videomodell im normalen Ollama-Workflow. Praktisch extrahierst du einzelne Frames aus einem Video und analysierst diese Bilder nacheinander.

Sind lokale Vision-LLMs zuverlässig bei OCR?

Sie sind nützlich, aber nicht perfekt. Beträge, kleine Zahlen, Rechnungsnummern und Tabellen solltest du immer gegenprüfen. Qwen2.5-VL 7B ist für OCR-nahe Aufgaben besonders interessant, aber auch hier gilt: nicht blind übernehmen.

Lokale Vision-LLMs auf dem Mac: Welche Modelle lohnen sich wirklich?

Schnellentscheidung: welches Vision-Modell für welchen Zweck?

Was Vision-LLMs lokal wirklich können

Die wichtigsten Modelle im Überblick

Meine Empfehlung nach Mac-Konfiguration

8 GB Unified Memory

16 GB Unified Memory

24 GB oder 32 GB Unified Memory

64 GB und mehr

Benchmark-Einordnung: Was die Zahlen sagen — und was nicht

Praxistest: So solltest du Vision-Modelle wirklich vergleichen

Gemma 3 12B: bester Allrounder für lokale Vision auf dem Mac

Qwen2.5-VL 7B: beste Wahl für OCR, Dokumente und Layouts

Llama 3.2 Vision 11B: stark, aber nicht immer die beste Mac-Empfehlung

Moondream: klein, praktisch, aber kein Ersatz für größere Modelle

Lokale Vision-LLMs und Datenschutz

Häufige Fehler bei Vision-LLMs

Fehler 1: Zu allgemeine Prompts

Fehler 2: OCR-Ergebnisse blind übernehmen

Fehler 3: Benchmark mit Alltag verwechseln

Fehler 4: Zu große Bilder ohne klare Aufgabe

Fehler 5: Mehrere Bilder ohne Struktur

Meine finale Empfehlung

FAQ

Welches lokale Vision-LLM ist auf dem Mac am besten?

Kann Ollama Bilder lokal analysieren?

Ist Qwen2.5-VL besser als Gemma 3?

Reichen 8 GB RAM für lokale Vision-Modelle?

Können lokale Vision-LLMs Videos analysieren?

Sind lokale Vision-LLMs zuverlässig bei OCR?

Quellen und Prüfgrundlage

Schnellentscheidung: welches Vision-Modell für welchen Zweck?

Was Vision-LLMs lokal wirklich können

Die wichtigsten Modelle im Überblick

Meine Empfehlung nach Mac-Konfiguration

8 GB Unified Memory

16 GB Unified Memory

24 GB oder 32 GB Unified Memory

64 GB und mehr

Benchmark-Einordnung: Was die Zahlen sagen — und was nicht

Praxistest: So solltest du Vision-Modelle wirklich vergleichen

Gemma 3 12B: bester Allrounder für lokale Vision auf dem Mac

Qwen2.5-VL 7B: beste Wahl für OCR, Dokumente und Layouts

Llama 3.2 Vision 11B: stark, aber nicht immer die beste Mac-Empfehlung

Moondream: klein, praktisch, aber kein Ersatz für größere Modelle

Lokale Vision-LLMs und Datenschutz

Häufige Fehler bei Vision-LLMs

Fehler 1: Zu allgemeine Prompts

Fehler 2: OCR-Ergebnisse blind übernehmen

Fehler 3: Benchmark mit Alltag verwechseln

Fehler 4: Zu große Bilder ohne klare Aufgabe

Fehler 5: Mehrere Bilder ohne Struktur

Meine finale Empfehlung

FAQ

Welches lokale Vision-LLM ist auf dem Mac am besten?

Kann Ollama Bilder lokal analysieren?

Ist Qwen2.5-VL besser als Gemma 3?

Reichen 8 GB RAM für lokale Vision-Modelle?

Können lokale Vision-LLMs Videos analysieren?

Sind lokale Vision-LLMs zuverlässig bei OCR?

Weiterlesen