Lokale Modelle 12 Min. Lesezeit

Lokale Vision-LLMs auf dem Mac: Welche Modelle lohnen sich wirklich?

Gemma 3, Qwen2.5-VL, Llama 3.2 Vision und Moondream im Praxisvergleich für Apple Silicon: OCR, Screenshots, Dokumente, Benchmarks, RAM und sinnvolle Prompts.

Technische Recherche und redaktionelle Prüfung. Eigene Messungen werden im Artikel ausdrücklich gekennzeichnet.

Veröffentlicht: 12. Mai 2026 Aktualisiert: 19. Juni 2026

Redaktionelle Methode

Lokale Vision-LLMs auf dem Mac sind praktisch, wenn du Screenshots, Quittungen, Diagramme oder Fotos analysieren willst, ohne jedes Bild in eine Cloud zu laden. Sie sind aber keine Magie: Manche Modelle lesen Text gut, andere beschreiben Szenen gut, und kleine Modelle wirken schnell beeindruckend, scheitern aber oft an Details.

Die kurze Empfehlung: Gemma 3 12B ist der beste Allrounder für die meisten Mac-Nutzer. Qwen2.5-VL 7B ist die bessere Wahl für OCR, Dokumente, Tabellen und Layouts. Llama 3.2 Vision 11B ist stark, aber für deutschsprachige Bilddialoge nicht immer die naheliegendste Wahl. Moondream ist interessant, wenn dein Mac wenig RAM hat oder du nur einfache Bildfragen stellen willst.

Ranking lokaler Vision-LLMs auf dem Mac

Schnellentscheidung: welches Vision-Modell für welchen Zweck?

ZweckEmpfehlungWarum
Screenshots erklärenGemma 3 12Bguter Mix aus Bildverständnis, Sprache und Modellgröße
Deutsche AntwortenGemma 3 12BGemma 3 ist multilingual ausgerichtet und antwortet auf Deutsch meist natürlicher
Quittungen, Rechnungen, TabellenQwen2.5-VL 7Bstark bei Text, Layouts, Dokumenten und strukturierten Ausgaben
Diagramme und UI-ElementeQwen2.5-VL 7B oder Llama 3.2 Vision 11Bbeide sind für visuelle Analyse brauchbar, Qwen ist oft besser bei Text im Bild
Kleiner Mac, wenig SpeicherMoondreamsehr klein, aber deutlich weniger belastbar
Möglichst guter Allround-Betrieb lokalGemma 3 12Bguter Kompromiss aus Qualität, Größe und Alltagstauglichkeit

Wenn du nur ein Modell installieren willst, nimm Gemma 3 12B. Wenn du oft Dokumente scannst oder Text aus Bildern ziehen willst, installiere zusätzlich Qwen2.5-VL 7B. Wenn Ollama noch nicht eingerichtet ist, starte zuerst mit dem Ollama-Setup-Guide für Apple Silicon.

Was Vision-LLMs lokal wirklich können

Ein Vision-LLM bekommt nicht nur Text, sondern zusätzlich ein Bild. Mit Ollama kannst du einem Vision-Modell zum Beispiel eine Datei und eine Frage geben. Typische Aufgaben sind:

  • Screenshot beschreiben
  • UI-Fehler finden
  • Text aus Bildern zusammenfassen
  • Quittungen grob strukturieren
  • Diagramme erklären
  • Fotos nach sichtbaren Objekten durchsuchen
  • Alt-Texte für Bilder schreiben
  • Lernmaterial aus Screenshots erklären lassen

Das ist besonders nützlich, wenn du private Bilder, Uni-Unterlagen oder interne Screenshots nicht bei einem Cloud-Anbieter hochladen willst. Trotzdem musst du Ergebnisse prüfen. Vision-LLMs können Text verwechseln, Zahlen falsch ablesen oder aus einem unscharfen Bild eine sichere Antwort formulieren.

Die wichtigsten Modelle im Überblick

ModellOllama-GrößeKontext laut OllamaStärkenGrenzen
Gemma 3 12Bca. 8,1 GB128KAllround, Deutsch, Screenshots, Bildbeschreibungnicht spezialisiert auf OCR
Qwen2.5-VL 7Bca. 6,0 GB125KOCR, Dokumente, Tabellen, Layouts, strukturierte AusgabenAntworten können technischer wirken
Llama 3.2 Vision 11Bca. 7,8 GB128KBildreasoning, Captioning, VQAImage+Text offiziell mit Englisch-Fokus
Moondreamca. 1,7 GB2Kklein, schnell startklar, einfache Fragenbegrenzter Kontext, weniger zuverlässig bei Details

Wichtig: Die Download-Größe ist nicht der komplette RAM-Verbrauch im Betrieb. Bei Vision-Aufgaben kommen Bildverarbeitung, Kontext, KV-Cache und macOS-Speicherbedarf dazu. Ein Modell mit 8 GB Paketgröße kann in der Praxis spürbar mehr Unified Memory belegen.

Meine Empfehlung nach Mac-Konfiguration

8 GB Unified Memory

Auf 8-GB-Macs würde ich Vision-LLMs nur sehr vorsichtig nutzen. Moondream ist hier die realistischste Option. Es eignet sich für einfache Fragen wie “Was ist auf dem Bild zu sehen?” oder “Welche UI-Elemente erkennst du?”. Für OCR, lange Antworten oder mehrere Bilder ist das Setup schnell am Limit.

Empfehlung:

ollama pull moondream
ollama run moondream ./screenshot.png "Beschreibe kurz, was auf diesem Screenshot zu sehen ist."

16 GB Unified Memory

Mit 16 GB wird es interessanter. Qwen2.5-VL 7B und Gemma 3 12B können je nach restlicher Systemlast funktionieren, aber du solltest keine Wunder erwarten. Browser, IDE, Docker und viele offene Apps können die Erfahrung schnell verschlechtern.

Empfehlung:

  • Für Dokumente: Qwen2.5-VL 7B
  • Für allgemeine Bildanalyse: Gemma 3 12B testen
  • Bei Speicherproblemen: Moondream als Fallback

24 GB oder 32 GB Unified Memory

Hier beginnt der angenehme Bereich. Gemma 3 12B ist für viele Mac-Nutzer der beste Standard. Qwen2.5-VL 7B ergänzt es sinnvoll für OCR und Dokumente. Auf einem Mac mini M4 mit 32 GB ist das ein realistisches lokales Setup.

Empfehlung:

ollama pull gemma3:12b
ollama pull qwen2.5vl:7b

64 GB und mehr

Mit 64 GB oder mehr kannst du größere Modelle testen, etwa Gemma 3 27B oder Qwen2.5-VL 32B. Das lohnt sich aber nur, wenn du wirklich bessere Qualität brauchst und bereit bist, längere Antwortzeiten zu akzeptieren. Für viele Alltagsaufgaben ist ein gutes 7B- bis 12B-Modell angenehmer.

Benchmark-Einordnung: Was die Zahlen sagen — und was nicht

Benchmarks sind hilfreich, aber sie ersetzen keinen lokalen Praxistest. DocVQA misst Dokumentenverständnis. ChartQA misst Fragen zu Diagrammen. TextVQA misst Text in Bildern. MMMU prüft multimodales Reasoning über verschiedene Fachgebiete.

Diese Zahlen stammen aus offiziellen Modellkarten bzw. Modellseiten. Sie sind keine Messung auf einem Mac mini M4.

Benchmark-Kontext für Vision-LLMs

ModellDocVQAChartQATextVQAMMMUEinordnung
Gemma 3 12B82,360,966,550,3guter Allrounder, aber nicht OCR-Spitze
Qwen2.5-VL 7B95,787,384,958,6sehr stark für Dokumente, Charts und Text im Bild
Llama 3.2 Vision 11B Instruct88,483,450,7stark bei DocVQA/ChartQA, aber Sprachhinweis beachten
Moondreamnicht sinnvoll direkt mit den großen Modellkarten-Benchmarks vergleichbar

Die Tabelle zeigt ziemlich klar: Wenn dein Hauptproblem Text im Bild ist, spricht vieles für Qwen2.5-VL 7B. Wenn du ein Modell willst, das mit deutschen Prompts angenehm antwortet und auch allgemeine Bildbeschreibung kann, ist Gemma 3 12B meist die bessere erste Wahl.

Praxistest: So solltest du Vision-Modelle wirklich vergleichen

Viele Modellvergleiche sind nutzlos, weil sie nur einmal ein Bild zeigen und dann das “besser klingende” Ergebnis nehmen. Besser ist ein kleiner reproduzierbarer Test.

Nimm fünf Bildtypen:

  1. Screenshot einer App oder Website
  2. Quittung oder Rechnung
  3. Diagramm oder Chart
  4. Foto mit mehreren Objekten
  5. unscharfer oder kleiner Textausschnitt

Stelle jedem Modell dieselben Fragen:

Beschreibe das Bild in maximal fünf Sätzen. 
Trenne sichtbare Fakten von Vermutungen.
Wenn du Text liest, gib unsichere Stellen mit [?] aus.

Für OCR:

Lies den sichtbaren Text aus dem Bild.
Gib ihn als Markdown-Tabelle aus.
Markiere unlesbare oder unsichere Stellen mit [?].
Erfinde keine fehlenden Zahlen.

Für Diagramme:

Analysiere das Diagramm.
Nenne zuerst Achsen, Einheiten und Legende.
Fasse dann den Trend zusammen.
Berechne nichts, wenn die Werte nicht eindeutig ablesbar sind.

Für UI-Screenshots:

Analysiere diesen Screenshot einer Benutzeroberfläche.
Was ist der wahrscheinlich nächste sinnvolle Klick?
Nenne mögliche Fehlerquellen.
Unterscheide sichtbare UI-Elemente von Vermutungen.

Workflow zum Testen lokaler Vision-LLMs

Gemma 3 12B: bester Allrounder für lokale Vision auf dem Mac

Gemma 3 12B ist für mich die naheliegendste Standardempfehlung. Es ist groß genug, um nicht sofort an einfachen Bildaufgaben zu scheitern, aber noch klein genug, um auf vielen Apple-Silicon-Macs realistisch zu laufen.

Stärken:

  • gute allgemeine Bildbeschreibung
  • brauchbar für Screenshots und UI-Fragen
  • angenehme deutsche Antworten
  • 12B ist ein guter Kompromiss aus Qualität und Speicherbedarf
  • mit Ollama sehr einfach nutzbar

Schwächen:

  • nicht immer die beste Wahl für exaktes OCR
  • Tabellen und kleine Zahlen müssen geprüft werden
  • bei komplexen Dokumenten weniger überzeugend als Qwen2.5-VL

Guter Startprompt:

ollama run gemma3:12b ./screenshot.png "Analysiere diesen Screenshot. Nenne zuerst nur sichtbare Fakten, danach mögliche Interpretation. Keine erfundenen Details."

Qwen2.5-VL 7B: beste Wahl für OCR, Dokumente und Layouts

Qwen2.5-VL 7B ist das Modell, das ich für Quittungen, Tabellen, Dokumente und Screenshots mit viel Text zuerst testen würde. Die offiziellen Benchmarks und die Modellbeschreibung passen genau zu diesem Einsatzgebiet: Texte, Charts, Icons, Grafiken, Layouts und strukturierte Ausgaben.

Stärken:

  • sehr stark bei Text im Bild
  • gut für Quittungen, Rechnungen und Formulare
  • gute strukturierte Ausgaben
  • stark bei Diagrammen und Layouts
  • 7B/6,0 GB ist für viele Macs noch realistisch

Schwächen:

  • nicht automatisch besser für jede normale Bildbeschreibung
  • kann bei deutschen Antworten trockener wirken
  • auch hier gilt: Zahlen gegenprüfen

Guter OCR-Prompt:

ollama run qwen2.5vl:7b ./rechnung.jpg "Extrahiere alle sichtbaren Felder. Gib Betrag, Datum, Händler, Steuern und Positionen als Markdown-Tabelle aus. Markiere unsichere Werte mit [?]."

Für Website-Screenshots:

ollama run qwen2.5vl:7b ./website.png "Analysiere diesen Website-Screenshot aus UX-Sicht. Nenne sichtbare Probleme, unklare Elemente und konkrete Verbesserungsvorschläge."

Llama 3.2 Vision 11B: stark, aber nicht immer die beste Mac-Empfehlung

Llama 3.2 Vision 11B ist ein ernstzunehmendes Vision-Modell. Es ist für visuelle Erkennung, Bildreasoning, Captioning und allgemeine Fragen zu Bildern gedacht. Die offiziellen Benchmarks für DocVQA und ChartQA sind stark.

Trotzdem würde ich es für deutschsprachige Mac-Nutzer nicht automatisch auf Platz eins setzen. Der wichtige Haken: In der Modellkarte wird darauf hingewiesen, dass bei Image+Text-Anwendungen Englisch offiziell unterstützt wird. Das heißt nicht, dass deutsche Prompts nie funktionieren. Es heißt aber, dass du bei deutscher Nutzung vorsichtiger testen solltest.

Stärken:

  • gutes Bildreasoning
  • starke offizielle DocVQA- und ChartQA-Werte
  • nützlich für allgemeine VQA-Aufgaben
  • etabliertes Meta-Modell

Schwächen:

  • größer als Qwen2.5-VL 7B
  • Image+Text offiziell mit Englisch-Fokus
  • für deutsche Alltagsnutzung nicht immer so angenehm wie Gemma 3

Guter Testprompt auf Englisch:

ollama run llama3.2-vision:11b ./chart.png "Analyze this chart. First list the axes and legend, then summarize the visible trend. Do not infer values that are not readable."

Moondream: klein, praktisch, aber kein Ersatz für größere Modelle

Moondream ist spannend, weil es sehr klein ist. Das macht es für ältere oder knappe Macs interessant. Du solltest es aber nicht wie einen direkten Konkurrenten zu Gemma 3 12B oder Qwen2.5-VL 7B behandeln.

Stärken:

  • sehr kleine Modellgröße
  • schnell installiert
  • gut für einfache Bildfragen
  • sinnvoll als Fallback auf kleinen Macs

Schwächen:

  • kurzer Kontext
  • weniger zuverlässig bei Details
  • nicht ideal für OCR oder komplexe Dokumente
  • kann selbstbewusst falsch antworten

Guter Prompt:

ollama run moondream ./image.jpg "Was ist auf diesem Bild zu sehen? Antworte kurz und nenne nur Dinge, die sichtbar sind."

Lokale Vision-LLMs und Datenschutz

Der größte Vorteil lokaler Vision-Modelle ist nicht immer Geschwindigkeit. Es ist Kontrolle. Ein Screenshot kann private Daten enthalten: E-Mails, Dateinamen, Rechnungsnummern, Gesundheitsinformationen, Uni-Unterlagen oder interne Website-Daten.

Wenn du solche Bilder lokal analysierst, verlassen sie deinen Mac nicht über eine externe API. Das ist ein klarer Vorteil gegenüber Cloud-Vision-Modellen. Aber: Lokal bedeutet nicht automatisch “sicher”. Du musst trotzdem aufpassen, wo die Dateien liegen, ob andere Apps Zugriff haben und ob du Ergebnisse später in Cloud-Tools kopierst.

Praktische Regel:

  • private Screenshots lokal analysieren
  • sensible OCR-Ergebnisse nicht ungeprüft weiterverwenden
  • Rechnungen und Dokumente nach dem Test löschen oder sauber ablegen
  • keine automatisch erzeugten Aussagen ungeprüft in offizielle Dokumente übernehmen

Häufige Fehler bei Vision-LLMs

Fehler 1: Zu allgemeine Prompts

Schlecht:

Was siehst du?

Besser:

Beschreibe nur sichtbare Elemente. Nenne keine Vermutungen. Markiere unsichere Textstellen.

Fehler 2: OCR-Ergebnisse blind übernehmen

Vision-LLMs können Zahlen und Buchstaben verwechseln. Besonders kritisch sind Beträge, IBANs, Rechnungsnummern, Dosierungen und Datumsangaben.

Fehler 3: Benchmark mit Alltag verwechseln

Ein Modell kann bei DocVQA stark sein und trotzdem bei deinem schlecht belichteten Kassenzettel Fehler machen. Benchmarks sind ein Hinweis, kein Garant.

Fehler 4: Zu große Bilder ohne klare Aufgabe

Ein riesiger Screenshot mit vielen Details überfordert kleinere Modelle schneller. Schneide den relevanten Bereich aus, wenn du eine genaue Antwort brauchst.

Fehler 5: Mehrere Bilder ohne Struktur

Wenn du mehrere Bilder analysierst, gib dem Modell klare Labels:

Bild 1: Rechnung
Bild 2: Screenshot des Fehlers
Vergleiche beide nur, wenn es sichtbare Überschneidungen gibt.

Meine finale Empfehlung

Für die meisten Mac-Nutzer ist diese Kombination am sinnvollsten:

  1. Gemma 3 12B als Standardmodell für Screenshots, Bildbeschreibung und deutsche Antworten.
  2. Qwen2.5-VL 7B als Spezialmodell für OCR, Dokumente, Tabellen und Layouts.
  3. Moondream als kleine Notlösung für schwächere Macs.
  4. Llama 3.2 Vision 11B als Alternative, wenn du Bildreasoning und englische Prompts testen willst.

Wenn du einen Mac mit 24 GB oder 32 GB Unified Memory hast, starte mit Gemma 3 12B und Qwen2.5-VL 7B. Das ist aktuell der praktischste lokale Vision-Stack für Apple Silicon.

FAQ

Welches lokale Vision-LLM ist auf dem Mac am besten?

Für die meisten Nutzer ist Gemma 3 12B der beste Allrounder. Für OCR, Quittungen, Tabellen und Dokumente ist Qwen2.5-VL 7B die bessere Spezialwahl.

Kann Ollama Bilder lokal analysieren?

Ja. Ollama unterstützt Vision-Modelle, die ein Bild zusammen mit einem Textprompt erhalten. Du kannst damit zum Beispiel Screenshots oder Fotos lokal analysieren.

Ist Qwen2.5-VL besser als Gemma 3?

Für OCR, Dokumente und Layouts oft ja. Für allgemeine deutsche Antworten und normale Screenshot-Erklärungen ist Gemma 3 12B häufig angenehmer.

Reichen 8 GB RAM für lokale Vision-Modelle?

Nur eingeschränkt. Moondream ist realistisch, größere Vision-Modelle können sehr knapp werden. Für Gemma 3 12B oder Qwen2.5-VL 7B sind 16 GB das Minimum zum Testen, 24 GB oder 32 GB sind deutlich angenehmer.

Können lokale Vision-LLMs Videos analysieren?

Nicht direkt wie ein echtes Videomodell im normalen Ollama-Workflow. Praktisch extrahierst du einzelne Frames aus einem Video und analysierst diese Bilder nacheinander.

Sind lokale Vision-LLMs zuverlässig bei OCR?

Sie sind nützlich, aber nicht perfekt. Beträge, kleine Zahlen, Rechnungsnummern und Tabellen solltest du immer gegenprüfen. Qwen2.5-VL 7B ist für OCR-nahe Aufgaben besonders interessant, aber auch hier gilt: nicht blind übernehmen.

Transparenz

Quellen und Prüfgrundlage

7

Diese Primär- und Referenzquellen bilden die Grundlage der technischen Einordnung. Herstellerangaben und externe Benchmarks werden im Artikel als solche gekennzeichnet.

  1. docs.ollama.comcapabilities / vision
  2. ollama.comlibrary / gemma3
  3. ollama.comlibrary / qwen2.5vl
  4. ollama.comlibrary / llama3.2-vision
  5. ollama.comlibrary / moondream
  6. huggingface.coQwen / Qwen2.5-VL-7B-Instruct
  7. huggingface.cometa-llama / Llama-3.2-11B-Vision-Instruct