Cloud-KI 13 Min. Lesezeit

Gemini 3.5 Flash auf dem Mac: Preise, API und lokale Grenzen

Gemini 3.5 Flash erklärt: API-Setup, 1M Kontext, Preise, Datenschutz, Agenten und warum das Modell nicht lokal in Ollama oder MLX läuft.

Technische Recherche und redaktionelle Prüfung. Eigene Messungen werden im Artikel ausdrücklich gekennzeichnet.

Veröffentlicht: 20. Mai 2026 Aktualisiert: 26. Juni 2026

Redaktionelle Methode

Was Google auf der I/O 2026 angekündigt hat

Google I/O 2026 fand am 19. Mai 2026 statt. Google positionierte die Konferenz als Übergang in eine stärker agentische Gemini-Ära. Zentrale Modellthemen waren Gemini Omni und Gemini 3.5; Gemini 3.5 Flash ist der erste Teil der neuen Gemini-3.5-Familie.

Google positioniert Gemini 3.5 Flash für agentic coding, long-horizon tasks, Tool-Nutzung und reale Workflows. Google nennt bessere Werte als Gemini 3.1 Pro in mehreren Coding- und Agentic-Benchmarks.

Was Gemini 3.5 Flash ist

Gemini 3.5 Flash ist ein stabiles Cloud-/API-Modell von Google. Es kombiniert langen Kontext, multimodalen Input, Thinking, Function Calling, Code Execution, File Search, URL Context und Grounding. Für Mac-Nutzer ist der wichtigste Punkt: Das Modell profitiert nicht direkt von Apple Silicon, weil die Inferenz bei Google läuft.

Apple Silicon beschleunigt lokale Modelle über Ollama, LM Studio, MLX oder llama.cpp. Bei Gemini 3.5 Flash zählen eher Internetverbindung, API-Key, Kostenkontrolle, Datenfluss, Tooling und die Frage, welche Daten dein Gerät verlassen dürfen.

Das 1M-Kontextfenster kann große Repositories und Dokumentbestände aufnehmen, wird aber teuer: 500.000 reine Input-Tokens kosten beim Tarif bis 200K nicht mehr; für solche langen Prompts gilt Googles höhere Preisstufe. Ausgabe-Tokens, Tools und weitere Turns kommen hinzu.

Offizieller Modellcode und technische Daten

Der offizielle Modellcode in der Gemini API lautet:

gemini-3.5-flash

Nicht verwechseln mit Provider- oder Router-Schreibweisen wie google/gemini-3.5-flash, die manche Drittanbieter-Tools verwenden.

Eigenschaft Gemini 3.5 Flash
Status Stable / API-Modell
Offizieller Modellcode gemini-3.5-flash
Input-Kontext 1.048.576 Tokens
Output-Limit 65.536 Tokens
Wissensstand Januar 2025 laut Modellseite
Unterstützte Eingaben Text, Bild, Video, Audio, PDF
Ausgabe Text
Thinking Unterstützt, steuerbar über thinking_level
Nicht unterstützt Audio Generation, Computer Use, Image Generation, Live API
Lokale Mac-Inferenz Nein

Gemini 3.5 Flash ist kein lokales Mac-Modell

Gemini 3.5 Flash läuft nicht lokal in Ollama, LM Studio oder MLX. Es ist auch kein GGUF- oder MLX-Modell, das du auf einem MacBook oder Mac mini laden kannst.

Der Unterschied ist praktisch wichtig:

Ansatz Beispiele Stärke Grenze
Lokale KI Ollama, LM Studio, MLX, kleine bis mittlere Open-Weight-Modelle Private Dateien, Offline-Arbeit, keine Tokenkosten RAM, Modellgröße, Geschwindigkeit und Kontextfenster
Gemini 3.5 Flash Google AI Studio, Gemini API, Managed Agents 1M Kontext, Tools, Code Execution, File Search, Grounding, Cloud-Agenten Datenfluss zu Google, API-Kosten, Internet und Produktverfügbarkeit

API-Setup auf dem Mac

Für Gemini 3.5 Flash nutzt du einen Google-AI-Studio-API-Key, die Umgebungsvariable GEMINI_API_KEY und idealerweise das offizielle Google GenAI SDK.

API-Key setzen

export GEMINI_API_KEY="dein-google-ai-studio-api-key"

Für eine permanente Shell-Konfiguration kannst du die Zeile in ~/.zshrc eintragen und danach source ~/.zshrc ausführen.

Python

from google import genai

client = genai.Client()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Erkläre Unified Memory auf Apple Silicon in drei Sätzen.",
)

print(response.text)

Python mit Thinking Level

from google import genai
from google.genai import types

client = genai.Client()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Analysiere die Vor- und Nachteile von lokaler KI und Cloud-KI auf dem Mac.",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(thinking_level="high")
    ),
)

print(response.text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const response = await ai.models.generateContent({
    model: "gemini-3.5-flash",
    contents: "Erstelle eine Checkliste für einen hybriden lokalen/Cloud-KI-Workflow auf dem Mac."
  });

  console.log(response.text);
}

main();

REST

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
  -H "x-goog-api-key: ***" \
  -H "Content-Type: application/json" \
  -X POST \
  -d '{
    "contents": [{
      "parts": [{
        "text": "Fasse die Unterschiede zwischen lokaler KI auf dem Mac und Gemini 3.5 Flash zusammen."
      }]
    }]
  }'

Security-Hinweis: API-Keys gehören nicht in Browser-Code, öffentliche GitHub-Repositories oder statische Astro-Seiten. Nutze ein Backend, eine Serverless Function, eine Edge Function oder sichere Secret-Verwaltung.

GenerateContent oder Interactions API?

Die Beispiele oben nutzen generateContent, weil das der einfachste Weg für einen ersten funktionierenden Request ist. Google empfiehlt inzwischen die Interactions API Beta für neue Projekte, besonders wenn du agentische Workflows, lang laufende Hintergrundaufgaben oder serverseitige Multi-Turn-Konversationen baust.

Nutze diese Trennung:

  • generateContent für einfache Prompts, bestehende Integrationen, schnelle Tests und Fälle, in denen du Features brauchst, die in der Interactions API noch nicht verfügbar sind, etwa Batch API oder explizites Caching.
  • Interactions API für neue agentische Apps, serverseitige History-Verwaltung, sichtbare Ausführungsschritte, Tool-Orchestrierung, Hintergrundaufgaben und zukünftige Gemini-Funktionen.

Wichtiger Datenschutz-/Kostenpunkt: Die Interactions API speichert Interaction-Objekte standardmäßig (store=true) für serverseitigen Zustand, Hintergrundausführung und Observability. Google nennt 55 Tage Aufbewahrung für Paid-Tier-Interactions und 1 Tag für Free-Tier-Interactions. Mit store=false kannst du für kompatible stateless Requests opt-out nutzen, verlierst dann aber gespeicherte Zustandsfunktionen wie previous_interaction_id; außerdem ist store=false nicht mit Background Execution kompatibel.

Thinking Levels und Thought Preservation

Gemini 3.5 Flash unterstützt Thinking. Für Gemini 3.5 Flash solltest du thinking_level verwenden, nicht das ältere thinkingBudget-Muster aus manchen Beispielen.

Empfohlene Werte:

  • minimal: einfache Klassifikation, kurze Formatierung, sehr niedrige Latenz
  • low: leichte Analyse, kurze Hilfsaufgaben
  • medium: guter Standard für die meisten Aufgaben; laut Migration ist das der Default bei 3.5 Flash
  • high: schwieriges Coding, Debugging, mehrstufige Agentenketten, komplexe Analyse

Thought preservation wird über Thought Signatures und die Gesprächshistorie weitergetragen. Dadurch kann das Modell in mehrstufigen Sessions konsistenter arbeiten, aber erhaltene Gedanken können den Input-Tokenverbrauch über mehrere Turns erhöhen.

Wichtig: Erwarte keine vollständige rohe Chain-of-Thought. Wenn Gedanken angezeigt oder zusammengefasst werden, passiert das nur über die jeweilige API-/SDK-Unterstützung und als kontrollierte Ausgabe oder Summary, nicht als Garantie auf die komplette interne Reasoning-Kette.

Preise: Standard, Batch, Flex, Priority und Grounding

Die Preise unten beziehen sich auf den Paid Tier laut Gemini-API-Pricing, geprüft am 27. Mai 2026. Output-Preise umfassen Thinking Tokens. Search Grounding kann mehrere Suchanfragen pro Request auslösen; Kosten fallen pro einzelner Search Query an.

Variante Input Output inkl. Thinking Context Caching Storage Search/Maps Grounding
Standard $1.50 / 1M Tokens $9.00 / 1M Tokens $0.15 / 1M Tokens $1.00 / 1M Tokens/Stunde 5.000 Prompts/Monat frei, danach $14 / 1.000 Search Queries
Batch $0.75 / 1M Tokens $4.50 / 1M Tokens $0.075 / 1M Tokens $1.00 / 1M Tokens/Stunde 5.000 Requests/Monat frei, danach $14 / 1.000 Search Queries
Flex $0.75 / 1M Tokens $4.50 / 1M Tokens $0.08 / 1M Tokens $1.00 / 1M Tokens/Stunde 5.000 Requests/Monat frei, danach $14 / 1.000 Search Queries
Priority $2.70 / 1M Tokens $16.20 / 1M Tokens $0.27 / 1M Tokens $1.00 / 1M Tokens/Stunde 5.000 Prompts/Monat frei, danach $14 / 1.000 Search Queries

Batch ist günstiger für asynchrone Batch-Workloads. Flex passt eher zu kostenbewussten Workloads mit flexibler Bereitstellung. Priority ist für priorisierte Workloads gedacht, aber nicht der einzige Weg zum 1M-Kontextfenster.

1M Kontext: nützlich, aber nicht kostenlos

Gemini 3.5 Flash hat allgemein 1.048.576 Input Tokens und 65.536 Output Tokens. Das 1M-Kontextfenster ist eine Modelleigenschaft, nicht nur ein Priority-Feature.

Langer Kontext ist trotzdem kein Freifahrtschein. Er erhöht Kosten, Latenz und Fehlerfläche. Gute Strategien:

  • Input strukturieren
  • irrelevante Teile entfernen
  • File Search oder RAG nutzen
  • Context Caching prüfen
  • lange Gespräche zusammenfassen
  • Ausgabeformat streng vorgeben
  • nicht blind ganze Repos, Logordner oder PDFs in jeden Request kopieren

Managed Agents in der Gemini API

Managed Agents in der Gemini API erlauben, mit einem API-Call einen Agenten zu starten. Der Agent kann Reasoning, Tools und Code Execution nutzen und läuft in einer isolierten, ephemeren Linux-Umgebung.

Laut Google werden Managed Agents vom Antigravity-Agenten angetrieben und basieren auf Gemini 3.5 Flash. Sie sind über die Interactions API und Google AI Studio verfügbar. Für Mac-Nutzer ist das ein Cloud-Agenten-Workflow, aber keine lokale Apple-Silicon-Inferenz.

Verfügbarkeits-Hinweis: Google beschreibt Managed Agents als Preview/Rollout in der Gemini API. Behandle es deshalb als Google-Cloud-/Preview-Funktion, deren Verfügbarkeit von Account, Region, API-Zugriff und Produktänderungen abhängen kann.

Antigravity 2.0 und Mac-Entwickler-Workflows

Antigravity 2.0 ist eine agent-first Developer Platform beziehungsweise Desktop-App. Sie soll die Orchestrierung mehrerer Agenten, Subagents, scheduled tasks und Integrationen ermöglichen.

Für Mac-Entwickler ist das interessant, weil Coding-Workflows stärker agentisch werden. Es ist aber nicht mit lokaler Ollama-Inferenz zu verwechseln. Antigravity gehört zum Google-/Cloud-Ökosystem; lokale Open-Weight-Modelle auf Apple Silicon bleiben ein anderer Workflow.

Gemini Spark und macOS-App

Google arbeitet an Updates der Gemini-App für macOS. Gemini Spark soll im Sommer in die Gemini-Desktop-App kommen und Aufgaben mit lokalen Dateien und Desktop-Workflows unterstützen.

Wichtig ist die Trennung: Spark soll zwar mit lokalen Dateien und macOS-Workflows arbeiten, ist laut Google aber cloud-basiert und läuft nicht als lokales LLM auf dem Mac. Auch wenn Spark über die macOS-App mit lokalen Dateien arbeiten kann, ist die Modellinferenz keine lokale Apple-Silicon-Inferenz.

  • lokale Inferenz: Ollama, LM Studio, MLX
  • Cloud-Agenten: Gemini Spark, Antigravity, Managed Agents

Gemini 3.5 Flash vs lokale KI auf dem Mac

Kriterium Gemini 3.5 Flash Lokale KI auf dem Mac
Private Dateien Nur nach bewusster Cloud-Freigabe Besser geeignet, weil Daten auf dem Gerät bleiben können
Offline-Arbeit Nicht geeignet Geeignet
Großer Kontext Klarer Vorteil durch 1M Input Tokens Abhängig von RAM, Runtime und Modell
Tool Calling / Code Execution Gut im Gemini-API-Ökosystem Möglich, aber meist mit eigener Tool-Schicht
Kosten Token-, Caching- und Grounding-Kosten möglich Keine Tokenkosten, aber Hardware- und Stromkosten
Reproduzierbare Open-Weight-Tests Nicht der Fokus Besser geeignet

Lokale Modelle gewinnen bei vertraulichen Dateien, Offline-Arbeit, reproduzierbaren Open-Weight-Tests, Datenschutz-first und Workflows ohne Tokenkosten. Gemini 3.5 Flash gewinnt bei 1M Kontext, multimodalem Input, Tool Calling, Code Execution, File Search, Search/Maps Grounding, Managed Agents und längeren agentischen Workflows.

Datenschutz, Logs und Abuse Monitoring

Die pauschale Aussage “Prompts werden immer zum Training genutzt” ist zu grob. Die sinnvolle Differenzierung hängt von Tier, API-Oberfläche und Projektkonfiguration ab:

  • Free Tier: Laut Pricing kann Content zur Verbesserung von Google-Produkten genutzt werden.
  • Paid Tier: Laut Pricing wird Content nicht zur Produktverbesserung genutzt.
  • Billing-enabled Logs: Laut Data Logging Policy werden Prompts und Responses standardmäßig nicht zur Produktverbesserung genutzt, außer Nutzer teilen Datasets oder Feedback aktiv.
  • Abuse Monitoring: Google kann Prompts, Kontextinformationen und Outputs für 55 Tage zur Missbrauchserkennung und Policy Enforcement speichern.
  • Interactions API Storage: Interactions werden standardmäßig für serverseitigen Zustand und Observability gespeichert; Google nennt 55 Tage Aufbewahrung im Paid Tier und 1 Tag im Free Tier. Mit store=false kannst du für kompatible stateless Requests opt-out nutzen.

Das macht Gemini 3.5 Flash nicht automatisch “vollständig privat”. Es ist weiterhin ein Cloud-Modell. Für sensible Daten bleiben lokale Modelle, ein Enterprise-/Vertex-AI-Setup oder eine klare Compliance-Prüfung die bessere Standardwahl.

Wann Gemini 3.5 Flash sinnvoll ist

Gemini 3.5 Flash ist besonders sinnvoll für:

  • große Codebases oder lange Dokumente mit klarer Aufgabenstellung
  • multimodale Analyse
  • Tool Calling und Code Execution
  • File Search und RAG-nahe Workflows
  • Search/Maps Grounding, wenn aktuelle oder ortsbezogene Informationen nötig sind
  • Managed Agents und längere agentische Coding-Flows
  • Aufgaben, bei denen 1M Kontext wichtiger ist als lokale Datenhaltung

Wann lokale KI besser ist

Lokale KI auf dem Mac ist besser für:

  • private Dokumente
  • Offline-Arbeit
  • Open-Weight-Experimente
  • reproduzierbare Modelltests
  • Workflows ohne Tokenkosten
  • kurze Aufgaben, bei denen ein kleines oder mittleres lokales Modell reicht
  • Fälle, in denen Daten das Gerät nicht verlassen sollen

Typische Fehler bei Gemini 3.5 Flash

  • Den offiziellen Modellcode mit Provider-Aliasen verwechseln: In der Gemini API heißt das Modell gemini-3.5-flash, nicht automatisch google/gemini-3.5-flash.
  • Alte oder fremde API-Beispiele übernehmen: Nutze für Gemini die offizielle Google GenAI SDK- oder REST-Syntax.
  • Veraltete Thinking-Parameter verwenden: Für Gemini 3.x ist thinking_level die richtige Einordnung, nicht ältere Budget-Beispiele aus anderen Modellgenerationen.
  • Gemini 3.5 Flash in Ollama, LM Studio oder MLX suchen: Es ist kein lokales Open-Weight-Modell.
  • Das 1M-Kontextfenster blind voll ausnutzen: Langer Kontext erhöht Kosten, Latenz und Fehleranfälligkeit.
  • Free Tier und Paid Tier beim Datenschutz vermischen: Datenverwendung und Produktverbesserung unterscheiden sich je nach Nutzung.
  • Search Grounding als kostenlos einplanen: Grounding kann nach Freikontingent Kosten pro Suchanfrage verursachen.
  • Gemini Spark als lokale Inferenz missverstehen: Spark kann Mac-Workflows integrieren, ist aber keine lokale Apple-Silicon-Inferenz.
  • Computer Use, Bildgenerierung oder Audioausgabe erwarten: Gemini 3.5 Flash unterstützt multimodalen Input und Text-Output, aber diese Features aktuell nicht.

FAQ

Läuft Gemini 3.5 Flash lokal auf dem Mac? Nein. Gemini 3.5 Flash ist ein Cloud-/API-Modell von Google. Es läuft nicht lokal in Ollama, LM Studio oder MLX.

Wie lautet der offizielle Modellcode? In der Gemini API lautet der offizielle Modellcode gemini-3.5-flash.

Warum steht manchmal google/gemini-3.5-flash? Das ist meist eine Provider-/Router-Schreibweise in Drittanbieter-Tools. In Googles Gemini API nutzt du gemini-3.5-flash.

Was kostet Gemini 3.5 Flash? Im Paid Tier kostet Standard $1.50 Input und $9.00 Output pro 1M Tokens. Batch und Flex sind günstiger, Priority teurer. Output-Preise enthalten Thinking Tokens. Grounding und Caching können zusätzliche Kosten verursachen.

Ist 1M Kontext nur bei Priority verfügbar? Nein. 1M Input-Kontext ist eine Modelleigenschaft von Gemini 3.5 Flash. Priority ist eher für priorisierte Workloads gedacht, nicht der einzige Weg zu 1M Kontext.

Welche Thinking-Einstellung soll ich nutzen? Für die meisten Aufgaben medium. Für einfache Aufgaben minimal oder low. Für schwieriges Coding, Debugging und komplexe Agentenketten high.

Sollten neue Agenten-Apps GenerateContent oder Interactions API nutzen? Für einfache Prompts und bestehende Integrationen ist generateContent passend. Für neue agentische Apps empfiehlt Google die Interactions API Beta, weil sie für serverseitigen Zustand, sichtbare Ausführungsschritte, Hintergrundaufgaben und zukünftige Gemini-Funktionen ausgelegt ist.

Ist Gemini 3.5 Flash datenschutzfreundlich? Es ist ein Cloud-Modell. Daten verlassen dein Gerät. Paid/Billing-enabled API-Nutzung wird laut Google nicht standardmäßig zur Produktverbesserung genutzt, aber Abuse Monitoring, Logs und Interactions-API-Speichereinstellungen bleiben relevant. Für vertrauliche Dateien bleiben lokale Modelle die sicherere Standardwahl.

Was sind Managed Agents? Managed Agents sind cloudbasierte Gemini-API-Agenten, die Reasoning, Tools und Code Execution in einer isolierten Linux-Umgebung nutzen können. Sie sind nützlich für agentische Workflows, aber nicht lokal auf deinem Mac.

Ist Gemini Spark lokale Mac-KI? Nein. Gemini Spark soll zwar in die macOS-App kommen und lokale Dateien/Desktop-Workflows unterstützen, bleibt aber ein cloudbasierter Gemini-Agent.

Wann ist lokale KI besser? Bei privaten Dokumenten, Offline-Arbeit, Open-Weight-Experimenten, reproduzierbaren Modelltests und Workflows ohne Tokenkosten.

Fazit

Gemini 3.5 Flash ist für Mac-Nutzer nicht deshalb relevant, weil es auf Apple Silicon läuft - das tut es nicht. Relevant ist es, weil es 1M Kontext, multimodalen Input, Thinking, Tool-Nutzung, Code Execution, File Search, Grounding und Managed Agents in einem schnellen Cloud-Modell kombiniert.

Für private Dateien, Offline-Arbeit und lokale Open-Weight-Experimente bleiben Ollama, LM Studio und MLX die bessere Wahl. Für große Kontexte, agentische Coding-Workflows, Tool-Ketten und Cloud-Agenten ist Gemini 3.5 Flash eine praktische Cloud-Ergänzung.

Die richtige Frage lautet also nicht: Gemini oder lokal? Sondern: Welche Daten müssen auf dem Mac bleiben, und welche Aufgaben profitieren wirklich von Googles Cloud-Agenten?

Quellen und Stand

Stand: geprüft am 27. Mai 2026, nach Google I/O 2026. Modellnamen, Preise, Limits, Produktverfügbarkeit und unterstützte Features können sich ändern. Die Angaben zu Modellcode, Status, Kontextfenster, Output-Limit, Features, Thinking Levels, Preisen und Google-I/O-Ankündigungen stammen aus offiziellen Google-/Gemini-Quellen.

Häufig gestellte Fragen

Was ist Gemini 3.5 Flash?

Gemini 3.5 Flash ist Googles mittlere Modellstufe in der Gemini-3.5-Familie, positioniert zwischen Gemini 3.5 Pro (Qualität) und Gemini 3.5 Flash-Lite (Kosten). Es zielt auf latenzkritische Anwendungen wie Chat, agentenbasierten Tool Use und große Kontexte, mit 1M-Token-Kontextfenster und niedrigerem Pro-Token-Preis als die Pro-Stufe.

Was kostet Gemini 3.5 Flash?

Googles Listenpreise liegen bei 1,50 US-Dollar pro 1M Input-Tokens und 9 US-Dollar pro 1M Output-Tokens für Prompts bis 200K Kontext. Über 200K steigt der Preis. Cached Inputs sind günstiger. Vor produktiver Nutzung aktuelle Preise auf ai.google.dev prüfen.

Läuft Gemini 3.5 Flash lokal auf dem Mac in Ollama oder MLX?

Nein. Gemini ist ein Google-gehostetes API-Modell. Es gibt keinen Ollama-Tag, keinen MLX-Checkpoint und kein LM-Studio-Preset für Gemini 3.5 Flash. Für lokale Mac-Workflows brauchst du offene Alternativen wie Qwen3, Llama 3.3, Mistral oder Gemma. Der Artikel zeigt, wie du Gemini per API vom Mac aus aufrufst und wo die Grenze zwischen lokal und Cloud sinnvoll verläuft.

Trainiert Google meine Gemini-3.5-Flash-API-Prompts?

Standardmäßig nutzt Google Paid-Tier-API-Daten nicht für Training. Free-Tier-API und Consumer-Produkte (Gemini App, AI Studio Free) haben andere Aufbewahrungs- und Trainingsregeln. Sensible Daten gehören redaktionell gekürzt, Prompts eng gescoped und idealerweise zuerst durch ein lokales Modell geleitet. Vor personenbezogenen Daten Googles aktuelle Policy auf ai.google.dev lesen.

Was ist der beste Mac-Workflow mit Gemini 3.5 Flash?

Gemini 3.5 Flash für: lange Kontexte (>200K Tokens), Agent-Workflows mit Googles Managed Tools, multimodale Inputs (Bild, Video, Audio), wo lokale Modelle schwach sind. Lokales Modell (Ollama, LM Studio, MLX) für: private Dokumente, Offline-Arbeit, reproduzierbare Tests, alltäglicher Chat. Empfohlen ist ein Hybrid-Router, der pro Task das passende Modell wählt.