Was ist der Unterschied zwischen DeepSeek V4 Pro und Flash?

DeepSeek V4 Pro ist das größere Modell mit 1.6T Gesamtparametern und 49B aktiven Parametern pro Token. Flash ist kleiner und günstiger mit 284B Gesamtparametern und 13B aktiven Parametern. Beide unterstützen 1M Kontext und Thinking/Non-Thinking-Modi, aber Pro ist stärker bei schwierigen Wissens-, Long-Context- und Agentenaufgaben.

Was ist Thinking Mode bei DeepSeek V4?

Thinking Mode ist bei DeepSeek V4 standardmäßig aktiv. Per API kann Thinking aktiviert oder deaktiviert und mit `reasoning_effort` auf `high` oder `max` gesteuert werden. Im Thinking Mode wirken Parameter wie `temperature` oder `top_p` laut DeepSeek-Dokumentation nicht.

Soll ich Flash oder Pro nutzen?

Flash ist der sinnvolle Einstieg für Kostenkontrolle, Chat, viele Coding-Aufgaben und Agentenläufe. Pro lohnt sich, wenn Long-Context-Verständnis, schwierige Wissensfragen, Browse-/Agenten-Benchmarks oder hohe Trefferquote wichtiger sind als der Preis.

DeepSeek V4 Pro vs Flash auf dem Mac: API-Kosten, 1M Kontext und Cloud-Realität

Q: Was kostet DeepSeek V4?

Stand 19. Juni 2026: Flash kostet laut offizieller DeepSeek-Preisseite $0.0028 pro 1M Cache-Hit-Input-Tokens, $0.14 pro 1M Cache-Miss-Input-Tokens und $0.28 pro 1M Output-Tokens. Pro kostet $0.003625, $0.435 und $0.87. Preise können sich ändern.

Q: Läuft DeepSeek V4 lokal auf dem Mac?

Für normale Mac-Nutzer praktisch nein. Die Gewichte sind zwar unter MIT-Lizenz verfügbar, aber Pro und Flash sind sehr große MoE-Modelle. In Ollama werden sie als Cloud-Modelle mit `:cloud`-Tag genutzt. Das ist bequem, aber nicht lokale Inferenz auf Apple Silicon.

Q: Ist DeepSeek V4 Open Source?

DeepSeek nennt V4 open-sourced, und die Hugging-Face-Modellkarten listen Repository und Modellgewichte unter MIT-Lizenz. Sauberer für Nutzer ist trotzdem die Formulierung: offene Gewichte unter MIT-Lizenz. Das bedeutet nicht automatisch, dass das Modell einfach auf einem normalen Mac läuft.

Kurzantwort: DeepSeek V4 Flash ist der bessere Startpunkt für die meisten Mac-Nutzer, die DeepSeek per API, OpenRouter-kompatiblem Tooling oder Ollama Cloud testen wollen. Es ist deutlich günstiger und kommt in mehreren Coding- und Reasoning-Werten nah an Pro heran. DeepSeek V4 Pro ist die stärkere Wahl für schwierige Wissensfragen, große Codebases, Long-Context-Analysen und Agenten-Workflows, bei denen höhere Kosten akzeptabel sind. Beide Modelle sind aber keine normalen lokalen Mac-Modelle: Auf Apple Silicon nutzt du sie praktisch als API-/Cloud-Modelle, nicht wie ein 7B-, 14B- oder 27B-Modell in Ollama, LM Studio oder MLX.

Dieser Artikel ist bewusst kein Hype-Vergleich. Es geht um die nüchterne Frage: Wann reicht Flash, wann lohnt Pro, und was bedeutet das für Mac-Nutzer?

DeepSeek V4 Pro vs Flash Entscheidungskarte für Mac-Nutzer

Grafikvorschlag: Decision Map mit drei Wegen: Flash für Preis/Alltag/Agenten-Einstieg, Pro für schwere Long-Context-/Wissensaufgaben, lokale Modelle für private Offline-Arbeit. Quelle: DeepSeek API Docs, Hugging Face Model Cards, Ollama Library. Stand: 19. Juni 2026.

Warum DeepSeek V4 für Mac-Nutzer interessant ist

DeepSeek V4 ist nicht spannend, weil es plötzlich lokal auf jedem Mac läuft. Das tut es nicht. Interessant ist V4, weil es drei Dinge kombiniert, die für moderne KI-Workflows wichtig sind:

1M Kontext für lange Dokumente, große Repositories und Agentenläufe.
Thinking/Non-Thinking-Modi für schnelle Antworten oder aufwendigeres Reasoning.
Sehr aggressive API-Preise, besonders bei Flash.

Das passt gut zu einem Mac-Workflow: Du entwickelst, schreibst, recherchierst oder organisierst lokal auf macOS, nutzt kleine lokale Modelle für private Dateien und holst DeepSeek V4 nur dann dazu, wenn Kontext, Reasoning oder Agentenfähigkeit wichtiger sind als vollständige Offline-Verarbeitung.

DeepSeek V4 in einem Satz

DeepSeek V4 ist eine Preview-Serie aus zwei großen Mixture-of-Experts-Textmodellen:

Modell	Gesamtparameter	Aktiv pro Token	Kontext	Rolle
DeepSeek V4 Flash	284B	13B	1M	günstiger, schneller, effizienter Einstieg
DeepSeek V4 Pro	1.6T	49B	1M	stärker für Wissen, Long Context, Agenten, schwere Coding-Aufgaben

Beide Modelle sind Textmodelle. Sie sollten nicht als Vision-, Audio- oder lokale Mac-Modelle verkauft werden.

Faktenstand: was offiziell belegt ist

Eigenschaft	DeepSeek V4 Flash	DeepSeek V4 Pro
Release	24. April 2026	24. April 2026
Status	Preview	Preview
Modelltyp	MoE-Textmodell	MoE-Textmodell
Gesamtparameter	284B	1.6T
Aktive Parameter pro Token	13B	49B
Kontextfenster	1M Tokens	1M Tokens
Maximale Ausgabe laut API Docs	bis zu 384K Tokens	bis zu 384K Tokens
API-Modellname	`deepseek-v4-flash`	`deepseek-v4-pro`
OpenAI-kompatible API	ja	ja
Anthropic-kompatible API	ja	ja
JSON Output	ja	ja
Tool Calls	ja	ja
FIM Completion	nur Non-Thinking	nur Non-Thinking
Lizenz der Gewichte	MIT	MIT
Normale lokale Mac-Nutzung	nein	nein
Ollama-Nutzung	`deepseek-v4-flash:cloud`	`deepseek-v4-pro:cloud`

Wichtig: deepseek-chat und deepseek-reasoner sind Übergangsnamen. Laut DeepSeek zeigen sie aktuell auf V4 Flash: deepseek-chat entspricht Non-Thinking, deepseek-reasoner entspricht Thinking. Beide Legacy-Namen sollen am 24. Juli 2026 eingestellt werden. Für neue Integrationen solltest du deshalb direkt deepseek-v4-flash oder deepseek-v4-pro nutzen.

Drei Aussagen, die im Artikel nicht fehlen dürfen

„1M context is now the default across all official DeepSeek services.”

DeepSeek positioniert V4 klar als Long-Context-Modell. Das heißt aber nicht, dass 1M Kontext immer sinnvoll, billig oder schnell ist.

„The thinking toggle defaults to enabled.”

Thinking ist bei DeepSeek V4 nicht nur ein Zusatzmodus. Es ist standardmäßig aktiv und muss bewusst deaktiviert werden, wenn du schnelle, günstigere Antworten willst.

„The model weights are licensed under the MIT License.”

Das ist stark für offene Forschung und Infrastruktur. Trotzdem gilt: offene Gewichte sind nicht gleich „läuft bequem lokal auf einem normalen Mac”.

API-Preise: Flash ist der klare Preis-Leistungs-Kandidat

Stand: 19. Juni 2026. Preise können sich ändern.

Preis pro 1M Tokens	V4 Flash	V4 Pro	Verhältnis
Input, Cache Hit	$0.0028	$0.003625	Pro ca. 1.3× teurer
Input, Cache Miss	$0.14	$0.435	Pro ca. 3.1× teurer
Output	$0.28	$0.87	Pro ca. 3.1× teurer
Concurrency Limit	2500	500	Flash deutlich höher

Die wichtigste Kostenregel ist simpel:

Wenn du nicht sicher weißt, dass Pro deine Aufgabe besser löst, starte mit Flash.

Pro lohnt sich erst, wenn du bei Flash echte Schwächen siehst: falsche Schlussfolgerungen über lange Kontexte, schwache Recherche-/Browse-Ergebnisse, instabile Agentenläufe oder zu viele Fehlentscheidungen in einer großen Codebase.

DeepSeek V4 API-Preise Flash vs Pro

Grafikvorschlag: Balkendiagramm mit Cache-Hit-Input, Cache-Miss-Input und Output. Zusätzlich kleine Notiz: Cache-Hits können massive Kostenunterschiede machen.

Mini-Kostenrechnung: 200K Input, 8K Output

Eine einfache Rechnung zeigt den Unterschied besser als reine Preislisten.

Szenario	Flash	Pro
200K Cache-Miss Input	ca. $0.028	ca. $0.087
8K Output	ca. $0.0022	ca. $0.0070
Summe	ca. $0.030	ca. $0.094

Das ist nur ein Beispiel ohne Tool-Calls, Wiederholungen, Agentenschleifen oder Cache-Hits. Bei langen Agentenläufen kann der Unterschied größer werden. Für ein einzelnes wichtiges Refactoring ist Pro trotzdem billig genug. Für viele tägliche Requests ist Flash deutlich sinnvoller.

Benchmarks: Herstellerwerte, kein eigener Mac-Test

Die folgenden Werte stammen aus offiziellen DeepSeek-/Hugging-Face-Materialien. Sie sind nützlich, aber keine eigenen ai-on-mac.com-Benchmarks. Vergleiche sie nicht blind mit Claude, Gemini, Qwen oder lokalen Ollama-Werten, wenn Setup, Tool-Zugriff, Shot-Zahl, Harness oder Reasoning-Modus nicht identisch sind.

Ausgewählte Max-Reasoning-Werte

Benchmark	Flash Max	Pro Max	Was man daraus lesen kann
LiveCodeBench	91.6	93.5	Flash ist beim Coding sehr nah dran
SWE Verified	79.0	80.6	kleine Lücke bei diesem Setup
Terminal Bench 2.0	56.9	67.9	Pro klar stärker bei Terminal-/Agentenaufgaben
SimpleQA Verified	34.1	57.9	Pro deutlich stärker bei Wissensgenauigkeit
BrowseComp	73.2	83.4	Pro stärker bei Browse-/Rechercheaufgaben
MRCR 1M	78.7	83.5	Pro besser bei 1M-Long-Context
CorpusQA 1M	60.5	62.0	Pro nur leicht vorn
HLE w/ tools	45.1	48.2	Pro vorn, aber kein riesiger Abstand

Die pauschale Aussage „Flash ist nur 1–2 Prozent schlechter” wäre falsch. Sie stimmt nur für einzelne Coding-Werte wie LiveCodeBench oder SWE Verified. Bei SimpleQA, BrowseComp und Terminal Bench ist Pro deutlich stärker.

DeepSeek V4 Benchmark-Gaps

Grafikvorschlag: horizontale Balken mit Abstand Pro minus Flash. Markiere: kleiner Abstand bei Coding, großer Abstand bei Wissen/Browse/Terminal.

Base-Modelle: Pro ist nicht nur größer, sondern anders positioniert

Benchmark	Shots	V4 Flash Base	V4 Pro Base
MMLU	5-shot	88.7	90.1
MMLU-Pro	5-shot	68.3	73.5
SimpleQA verified	25-shot	30.1	55.2
HumanEval	0-shot	69.5	76.8
MATH	4-shot	57.4	64.5
LongBench-V2	1-shot	44.7	51.5

Auch hier ist die Richtung klar: Flash ist effizient und stark, aber Pro ist nicht nur ein teureres Etikett. Besonders bei Wissen und Long-Context ist die Lücke relevant.

Thinking Mode: nicht einfach „mehr ist besser”

DeepSeek V4 kann im Non-Thinking Mode oder im Thinking Mode laufen. Thinking ist standardmäßig aktiv. Der Aufwand wird über reasoning_effort gesteuert:

high: Standard für normale Thinking-Anfragen
max: für schwierige Aufgaben und manche Agenten-Workflows
low und medium: werden aus Kompatibilitätsgründen auf high gemappt
xhigh: wird auf max gemappt

Im Thinking Mode ignoriert DeepSeek laut Dokumentation temperature, top_p, presence_penalty und frequency_penalty. Das ist wichtig, weil viele Nutzer versuchen, Reasoning-Modelle über Temperature „kreativer” oder „stabiler” zu machen. Hier ist das nicht der richtige Hebel.

OpenAI-kompatibles API-Beispiel

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com",
)

response = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[
        {
            "role": "user",
            "content": "Prüfe diesen Refactoring-Plan auf Risiken und gib nur konkrete Gegenargumente aus."
        }
    ],
    reasoning_effort="high",
    extra_body={"thinking": {"type": "enabled"}},
)

print(response.choices[0].message.content)

Non-Thinking für schnelle Antworten

response = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[
        {
            "role": "user",
            "content": "Fasse diese Release Notes in fünf Bulletpoints zusammen."
        }
    ],
    extra_body={"thinking": {"type": "disabled"}},
)

Non-Thinking ist sinnvoll für Zusammenfassungen, einfache Umformulierungen, kurze Klassifikationen und schnelle Chat-Antworten. Thinking lohnt sich bei Debugging, Architekturentscheidungen, schwieriger Mathematik, Tool-Use und Agentenketten.

Welche Variante für welche Aufgabe?

Aufgabe	Empfehlung	Warum
kurze Chat-Antworten	Flash Non-Thinking	günstig, schnell, ausreichend
Zusammenfassungen	Flash Non-Thinking oder High	abhängig von Länge und Risiko
Coding-Fragen	Flash High starten	gutes Preis-Leistungs-Verhältnis
schwieriges Debugging	Flash High, bei Fehlern Pro High	erst günstig testen
große Codebase	Pro High oder Pro Max	bessere Long-Context- und Agentenwerte
Recherche/Browse-Agent	Pro Max	BrowseComp-Lücke ist deutlich
Wissensgenauigkeit	Pro	SimpleQA-Lücke ist groß
viele Batch-Aufgaben	Flash	Kosten und Concurrency sprechen dafür
private Offline-Dateien	lokale Modelle	Daten bleiben auf dem Mac
Mac-Experiment ohne Cloud	Qwen/Gemma/Llama lokal	DeepSeek V4 ist dafür zu groß

Mac-Realität: Apple Silicon beschleunigt DeepSeek V4 nicht

Wenn du DeepSeek V4 über die API nutzt, rechnet nicht dein M1, M2, M3 oder M4. Dein Mac ist dann Client: Er schickt Prompts, empfängt Antworten und führt lokale Tools aus. Die Modellinferenz läuft bei DeepSeek, Ollama Cloud oder einem anderen Anbieter.

Das ist kein Nachteil, solange du es bewusst nutzt. Es wird aber problematisch, wenn ein Artikel DeepSeek V4 wie ein normales lokales Ollama-Modell verkauft.

Lokal vs Cloud sauber trennen

Workflow	Lokal?	Datenfluss	Empfehlung
`ollama run llama3.2:3b`	ja	auf deinem Mac	gut für private lokale Arbeit
`ollama run deepseek-v4-flash:cloud`	nein	Ollama Cloud	bequem, aber Cloud
DeepSeek API	nein	DeepSeek API	gut für Coding, Agenten, 1M Kontext
eigene Server-Inferenz	theoretisch	eigener Server	nur mit sehr starker Infrastruktur
LM Studio/MLX auf Mac	für kleinere Modelle ja	auf deinem Mac	besser für Offline-Datenschutz

Merksatz: Lokal ist nicht die App-Oberfläche. Lokal ist der Ort, an dem die Inferenz läuft.

Ollama Cloud: praktisch, aber nicht lokal

Ollama listet DeepSeek V4 Flash und Pro mit :cloud-Tags. Das ist für Nutzer bequem, weil der Workflow wie Ollama aussieht:

ollama run deepseek-v4-flash:cloud

oder:

ollama run deepseek-v4-pro:cloud

Das bedeutet aber nicht, dass dein Mac die Gewichte geladen hat. Der lokale Ollama-Client startet den Workflow, aber die eigentliche Inferenz läuft in der Cloud.

Das sollte im Artikel sichtbar sein, weil sonst genau die falsche Erwartung entsteht: „Ich nutze Ollama, also ist es lokal.” Bei :cloud stimmt das nicht.

Datenschutz: DeepSeek V4 ist kein Ersatz für lokale Modelle

DeepSeek V4 kann technisch stark sein. Trotzdem ist es ein Cloud-/API-Workflow. Für sensible Daten musst du vorher klären:

Dürfen die Daten den Mac verlassen?
Welche API-Plattform nutzt du konkret?
Welche Logging-/Retention-Regeln gelten?
Nutzt du DeepSeek direkt, Ollama Cloud, OpenRouter oder einen anderen Anbieter?
Werden Tool-Outputs, Dateien oder Terminal-Logs mitgesendet?
Sind Kundendaten, personenbezogene Daten oder unveröffentlichter Code betroffen?

Für private Notizen, vertrauliche Dokumente, Kundendateien oder nicht veröffentlichten Code bleibt lokale KI auf dem Mac oft die bessere Standardwahl. DeepSeek V4 ist stark, aber nicht automatisch datenschutzfreundlicher als andere Cloud-KI.

So würde ich DeepSeek V4 auf dem Mac einsetzen

Mein sinnvoller Workflow wäre hybrid:

Lokales Modell für private Erstprüfung — z. B. ein kleineres Qwen-, Gemma- oder Llama-Modell über Ollama, LM Studio oder MLX.
Flash für günstige Cloud-Eskalation — wenn das lokale Modell zu schwach ist oder der Kontext zu groß wird.
Pro nur für die schweren Fälle — große Codebase, komplexer Agent, schwierige Wissensfrage, Browse-/Rechercheaufgabe.
Keine sensiblen Rohdaten blind hochladen — erst reduzieren, anonymisieren oder mit Testdaten arbeiten.
Kosten pro Aufgabe messen — nicht nur Tokenpreis anschauen, sondern echte Agentenläufe mit Wiederholungen, Tool-Calls und Output zählen.

Was im alten Vergleich zu schwach war

Der bisherige Artikel hatte schon richtige Grunddaten, aber er wirkte zu sehr wie ein Datenblatt. Für eine bessere User Experience braucht der Artikel:

klarere Kurzantwort direkt am Anfang,
sichtbare Entscheidung „Flash oder Pro?”,
Kostenbeispiel statt nur Preistabelle,
stärkere Warnung vor falscher lokaler Mac-Einordnung,
Benchmark-Gaps statt großer Zahlenwand,
Cloud-/Datenschutz-Matrix,
Codebeispiele für Thinking und Non-Thinking,
bessere Bild-/SVG-Platzhalter,
Quellenstand im Fazit.

FAQ

Was ist DeepSeek V4?

DeepSeek V4 ist eine Preview-Serie aus zwei großen MoE-Textmodellen: DeepSeek V4 Flash und DeepSeek V4 Pro. Beide unterstützen 1M Kontext und Thinking/Non-Thinking-Modi. Flash ist günstiger und effizienter, Pro ist stärker bei schwierigen Wissens-, Agenten- und Long-Context-Aufgaben.

Was ist der Unterschied zwischen Pro und Flash?

Flash hat 284B Gesamtparameter und 13B aktive Parameter pro Token. Pro hat 1.6T Gesamtparameter und 49B aktive Parameter pro Token. Dadurch ist Pro teurer, aber bei mehreren schwierigen Benchmarks klar stärker.

Was kostet DeepSeek V4?

Stand 19. Juni 2026 kostet Flash laut offizieller Preisseite $0.14 pro 1M Cache-Miss-Input-Tokens und $0.28 pro 1M Output-Tokens. Pro kostet $0.435 pro 1M Cache-Miss-Input-Tokens und $0.87 pro 1M Output-Tokens. Cache-Hits sind deutlich günstiger.

Läuft DeepSeek V4 lokal auf dem Mac?

Für normale Mac-Nutzer praktisch nein. Die Gewichte sind offen verfügbar, aber die Modellgrößen sind zu groß für typische MacBook-, Mac-mini- oder Mac-Studio-Setups. In Ollama sind DeepSeek V4 Flash und Pro als Cloud-Modelle nutzbar.

Ist DeepSeek V4 Open Source?

DeepSeek nennt V4 open-sourced, und die Modellkarten listen die Gewichte unter MIT-Lizenz. Für Nutzer ist die präzisere Formulierung: offene Gewichte unter MIT-Lizenz. Das sagt nichts darüber aus, ob lokale Consumer-Hardware ausreicht.

Ist Flash fast so gut wie Pro?

Bei einigen Coding-Werten ist Flash nah an Pro. Bei Wissen, Browse-/Rechercheaufgaben, Terminal Bench und bestimmten Long-Context-Werten ist Pro deutlich stärker. Flash ist also nicht pauschal „fast gleich gut”, sondern stark abhängig vom Einsatzgebiet.

Wann sollte ich Pro nehmen?

Nimm Pro, wenn Flash bei deiner echten Aufgabe scheitert oder wenn die Aufgabe hohe Genauigkeit rechtfertigt: große Codebase, schwierige Recherche, Long-Context-Analyse, komplexer Agentenlauf oder Wissensfragen mit hoher Fehlerkosten.

Wann ist lokale KI besser?

Lokale KI ist besser für private Dateien, Offline-Arbeit, reproduzierbare Experimente ohne Tokenkosten und Workflows, bei denen Daten den Mac nicht verlassen sollen. DeepSeek V4 ist besser, wenn 1M Kontext und starke Cloud-Reasoning-Leistung wichtiger sind.

Fazit

DeepSeek V4 Flash ist der richtige Einstieg für die meisten Mac-Nutzer, die DeepSeek testen wollen: günstig, stark genug für viele Coding- und Agentenaufgaben und durch 1M Kontext deutlich flexibler als klassische Chatmodelle.

DeepSeek V4 Pro ist kein Muss für jede Aufgabe. Es lohnt sich dort, wo die offiziellen Werte echte Vorteile zeigen: Wissen, Browse-/Recherche, Terminal-/Agentenaufgaben und schwierige Long-Context-Analysen.

Für ai-on-mac.com ist aber die wichtigste Einordnung klar: DeepSeek V4 ist kein normales lokales Apple-Silicon-Modell. Nutze lokale Modelle für private Offline-Arbeit. Nutze Flash als günstige Cloud-Eskalation. Nutze Pro für Aufgaben, bei denen ein Fehler teurer ist als der höhere Tokenpreis.

Quellen und Stand

Stand: 19. Juni 2026.

DeepSeek V4 Preview Release: https://api-docs.deepseek.com/news/news260424
DeepSeek Transparency Center: https://www.deepseek.com/en/transparency/
DeepSeek API Models & Pricing: https://api-docs.deepseek.com/quick_start/pricing/
DeepSeek Thinking Mode Docs: https://api-docs.deepseek.com/guides/thinking_mode
DeepSeek-V4-Pro auf Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
DeepSeek-V4-Flash auf Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash
Ollama DeepSeek V4 Flash: https://ollama.com/library/deepseek-v4-flash
Ollama DeepSeek V4 Pro: https://ollama.com/library/deepseek-v4-pro