Xiaomi MiMo-V2.5-Pro: 1M Kontext, sehr günstige API - aber nichts für den normalen Mac
Xiaomi MiMo-V2.5 und MiMo-V2.5-Pro im ehrlichen Check: Preise, offizielle Benchmarks, Token Plan, API-Setup und warum offene Gewichte nicht automatisch lokale Mac-KI bedeuten.
Xiaomi MiMo-V2.5-Pro ist kein weiteres Modell, das man einfach in Ollama auf einem MacBook lädt. Es ist ein sehr großes Sparse-MoE-Modell mit 1,02 Billionen Gesamtparametern, 42 Milliarden aktivierten Parametern und einem Kontextfenster von bis zu 1 Million Tokens. Der vernünftige Weg für Mac-Nutzer ist deshalb die Xiaomi-API oder ein Token Plan für Coding-Tools.
Das Interessante ist nicht nur die Größe. Xiaomi hat die Overseas-API-Preise stark gesenkt: MiMo-V2.5-Pro kostet laut aktueller Preisdokumentation $0,435 pro 1 Million Input-Tokens bei Cache Miss und $0,87 pro 1 Million Output-Tokens. Der oft genannte Wert „bis zu 99 % günstiger” ist dabei eine Xiaomi-Aussage im Vergleich zu früheren eigenen Preisen. Er ist kein unabhängiger Qualitäts- oder Marktvergleich.
Die Grafik fasst veröffentlichte Modellgrößen und Fähigkeiten zusammen. Quellen: MiMo-V2.5-Pro Model Card, MiMo-V2.5 Model Card.
Kurzurteil
MiMo-V2.5-Pro ist spannend für günstige Cloud-Coding-Agenten, große Repositories und lange Kontexte. Für lokale KI auf Apple Silicon ist es keine realistische Option.
Die offene Lizenz ist positiv für Forschung, Self-Hosting auf Servern und das Ökosystem. Sie verändert aber nicht die Hardware-Rechnung: Bei einem Modell mit 1,02T Parametern sind selbst FP8-Gewichte grob in der Größenordnung eines Terabytes, bevor Laufzeit-Overhead, KV-Cache und Parallelisierung hinzukommen.
MiMo-V2.5 vs. MiMo-V2.5-Pro
| Eigenschaft | MiMo-V2.5 | MiMo-V2.5-Pro |
|---|---|---|
| Hauptzweck | Omnimodale Aufgaben | Text, Coding, Agenten |
| Eingaben | Text, Bild, Video, Audio | Text |
| Architektur | Sparse MoE | Sparse MoE |
| Gesamtparameter | 310B | 1,02T |
| Aktive Parameter pro Token | 15B | 42B |
| Kontextfenster | bis 1M Tokens | bis 1M Tokens |
| Modell-ID | mimo-v2.5 | mimo-v2.5-pro |
| Gewichte | MIT-Lizenz laut Xiaomi | MIT-Lizenz laut Xiaomi |
| Realistischer Weg auf dem Mac | API | API |
MiMo-V2.5 ist der multimodale Ableger. Xiaomi beschreibt ein Modell für Text, Bilder, Video und Audio mit 310B Gesamtparametern. MiMo-V2.5-Pro ist stärker auf textbasierte Agenten, komplexe Softwareaufgaben und lange Tool-Ketten ausgerichtet.
Die aktive Parameterzahl ist bei MoE-Modellen wichtig für Rechenaufwand pro Token. Sie ist aber keine Speicheranforderung. Beim Laden müssen die Gewichte des gesamten Modells verfügbar sein. Deshalb sind weder 15B aktiv bei MiMo-V2.5 noch 42B aktiv bei Pro ein Argument dafür, dass die Modelle auf einem gewöhnlichen Mac mini oder MacBook sinnvoll lokal laufen.
Was sagen die offiziellen Benchmarks?
Xiaomi veröffentlicht Benchmarkwerte in der Model Card von MiMo-V2.5-Pro. Die folgende Tabelle zeigt einige Werte der Base-Model-Evaluation, nicht unabhängige Tests des API-Produkts und nicht zwingend die Leistung einer konkreten Agent-Konfiguration.
| Benchmark | Einstellung | MiMo-V2.5-Pro Base | MiMo-V2.5 Base |
|---|---|---|---|
| MMLU | 5-shot | 89,4 | 86,3 |
| MMLU-Pro | 5-shot | 68,5 | 65,8 |
| HumanEval+ | 1-shot | 75,6 | 71,3 |
| MBPP+ | 3-shot | 74,1 | 70,9 |
| LiveCodeBench v6 | 1-shot | 39,6 | 35,5 |
| SWE-Bench, Agentless | 3-shot | 35,7 | 30,8 |
Quelle: Xiaomis MiMo-V2.5-Pro Model Card. Die Werte stammen aus einer Hersteller-Model-Card. Unterschiedliche Benchmarks, Prompts, Harnesses und Agent-Setups sind nicht direkt austauschbar.
Die Zahlen sind nützlich, aber sie beantworten nicht die wichtigste Praxisfrage: Funktioniert das Modell mit deinem Repository, deinen Tools, deinem Sicherheitsmodell und deinem Budget?
Für einen Coding-Agenten solltest du deshalb nicht nach einem einzelnen Leaderboard entscheiden. Teste wenigstens:
- einen kleinen Bugfix mit Tests,
- ein Refactoring über mehrere Dateien,
- eine Aufgabe mit unvollständiger Spezifikation,
- Kosten, Laufzeit und Fehlerrate über mehrere Durchläufe.
1 Million Kontext: nützlich, aber kein Freifahrtschein
Ein Kontextfenster von 1M Tokens kann bei großen Codebasen, langen Logs oder vielen Dokumenten helfen. Es bedeutet nicht, dass du eine gesamte Firma in einen Prompt werfen solltest.
Große Kontexte haben drei praktische Nachteile:
- Ein einmaliger großer Input wird typischerweise zum Cache-Miss-Preis abgerechnet.
- Relevante Informationen können in sehr langen Prompts schlechter auffindbar werden.
- Mehr Kontext erhöht das Risiko, sensible Dateien versehentlich an einen Cloud-Anbieter zu senden.
Für Coding-Workflows ist meist besser: Repository gezielt durchsuchen, relevante Dateien auswählen, klare Aufgabe formulieren und dann nur den nötigen Kontext senden.
Aktuelle API-Preise
Die folgende Tabelle zeigt Xiaomis Overseas-Pay-as-you-go-Preise pro 1 Million Tokens. Stand der Xiaomi-Preisseite: 17. Juni 2026.
| Modell | Input: Cache Hit | Input: Cache Miss | Output |
|---|---|---|---|
mimo-v2.5-pro | $0,0036 | $0,435 | $0,87 |
mimo-v2.5 | $0,0028 | $0,14 | $0,28 |
Quelle: Xiaomi MiMo API Pricing, Overseas Pricing. Preise können sich ändern.
Ein Cache Hit ist besonders günstig, weil ein bereits verwendeter Prompt-Präfix aus dem Prompt Cache bedient werden kann. Für eine einmalige Analyse eines großen Repositories solltest du konservativ mit dem Cache-Miss-Preis rechnen.
Websuche wird getrennt abgerechnet. Xiaomi nennt für den Overseas Internet Connectivity Service $5 pro 1.000 Aufrufe. Bei Agenten mit Websuche gehören ein Limit für Suchaufrufe und ein Kostenprotokoll deshalb in die Standardkonfiguration.
Migrationshinweis für ältere MiMo-Namen
Xiaomi kündigt an, dass ältere V2-Modelle auf V2.5 geroutet werden und am 30. Juni 2026 eingestellt werden. Neue Integrationen sollten daher die aktuellen Modell-IDs mimo-v2.5 oder mimo-v2.5-pro verwenden, statt sich auf mimo-v2-* zu verlassen.
Pay-as-you-go oder Token Plan?
| Thema | Pay-as-you-go | Token Plan |
|---|---|---|
| Schlüssel | sk-xxxxx | tp-xxxxx |
| Abrechnung | Tatsächlich verbrauchte Tokens | Paket mit gemeinsamer Credit-Quote |
| Gedacht für | API-Integration und eigene Anwendungen | Unterstützte Coding- und Agent-Tools |
| Schlüssel austauschbar? | Nein | Nein |
| Base URL | Xiaomi API | Die im Token-Plan-Konto angezeigte URL |
Der Token Plan ist interessant, wenn du MiMo gezielt in unterstützten Entwicklerwerkzeugen nutzen möchtest. Xiaomi nennt unter anderem Claude Code, Cline, OpenCode und weitere Coding-Tools. Die Quote ist zwischen den verwendeten Tools geteilt.
Wichtig: Xiaomi beschränkt den Token Plan laut Dokumentation auf Programming-Tools. Automatisierte Skripte, eigene App-Backends und andere eindeutig nicht auf Coding bezogene API-Nutzung gehören laut Nutzungsbedingungen nicht in diesen Tarif. Für eigene Anwendungen ist Pay-as-you-go der sauberere Weg.
Verlasse dich bei der Konfiguration immer auf die im Token-Plan-Konto angezeigte Base URL. Xiaomi bietet je nach Cluster unterschiedliche OpenAI- und Anthropic-kompatible Endpunkte an.
MiMo API auf dem Mac testen
Für einen ersten Pay-as-you-go-Test genügt curl. Lege den API-Key vorher als Umgebungsvariable an:
export MIMO_API_KEY="sk-dein-key"
Dann sendest du eine kurze, kontrollierbare Anfrage:
curl --request POST "https://api.xiaomimimo.com/v1/chat/completions" \
--header "api-key: $MIMO_API_KEY" \
--header "Content-Type: application/json" \
--data '{
"model": "mimo-v2.5-pro",
"messages": [
{
"role": "user",
"content": "Review this refactoring plan. Identify missing tests, risky assumptions and rollback steps."
}
],
"max_completion_tokens": 800,
"temperature": 1.0,
"top_p": 0.95,
"stream": false
}'
Xiaomi dokumentiert sowohl den Header api-key als auch Authorization: Bearer .... API-Keys gehören niemals in Astro-Frontend-Code, öffentliche Git-Repositories oder Client-seitiges JavaScript. Für eine Website brauchst du einen serverseitigen Endpunkt oder eine Serverless Function.
Was gehört lokal auf den Mac, was in die MiMo-Cloud?
Lokal bleiben sollte
- private Notizen, Forschungsdaten und Kundendokumente
- Dateien mit personenbezogenen Daten
- Offline-Workflows
- kurze, wiederkehrende Aufgaben
- Aufgaben, für die ein lokales 7B-, 14B- oder 32B-Modell ausreicht
MiMo API kann sinnvoll sein für
- lange, nicht vertrauliche Code- und Dokumentkontexte
- Agenten-Experimente mit Tool Calling
- große Refactoring-Pläne
- multimodale Cloud-Aufgaben mit MiMo-V2.5
- einen zweiten Blick neben einem lokalen Modell
Vor produktiver Nutzung solltest du Xiaomis aktuelle Datenschutzinformationen, Vertragsbedingungen, Datenregion und Aufbewahrungspraxis für deinen konkreten Anwendungsfall prüfen. „Cloud” ist kein neutraler Speicherort.
Empfehlung
MiMo-V2.5-Pro ist ein interessanter Cloud-Kandidat, wenn du lange Kontexte und Coding-Agenten zu klaren, aktuell sehr niedrigen API-Preisen ausprobieren möchtest. Die offene Veröffentlichung der Gewichte ist ein Pluspunkt, aber kein Grund, eine lokale Mac-Nutzung zu versprechen, die praktisch nicht existiert.
Für AI on Mac lautet die sinnvolle Aufteilung:
Lokale Modelle für private und alltägliche Arbeit. MiMo gezielt für nicht vertrauliche Langkontexte, Coding-Agenten und API-Experimente.
Quellen und Stand
Stand: 21. Juni 2026.
Häufig gestellte Fragen
Kann Xiaomi MiMo-V2.5-Pro sinnvoll lokal auf einem normalen Mac laufen?
Nein. MiMo-V2.5-Pro hat 1,02 Billionen Gesamtparameter. Die offiziellen Deployments sind auf verteilte Server-Infrastruktur mit SGLang oder vLLM ausgelegt. Ein Mac ist für die API-Nutzung geeignet, nicht als realistischer lokaler Host für dieses Modell.
Was kostet MiMo-V2.5-Pro über die API?
Für Overseas Pay-as-you-go nennt Xiaomi derzeit 0,0036 US-Dollar pro 1 Million Input-Tokens bei Cache Hit, 0,435 US-Dollar bei Cache Miss und 0,87 US-Dollar pro 1 Million Output-Tokens.
Was ist der Unterschied zwischen Pay-as-you-go und Xiaomi Token Plan?
Pay-as-you-go rechnet API-Nutzung tokenbasiert über sk-Keys ab. Der Token Plan nutzt getrennte tp-Keys und ist laut Xiaomi für unterstützte Coding- und Agent-Tools vorgesehen, nicht für beliebige Skripte oder eigene Produkt-Backends.
Sind MiMo-V2.5 und MiMo-V2.5-Pro Open Source?
Xiaomi veröffentlicht die Modellgewichte unter der MIT-Lizenz auf Hugging Face. Offen verfügbare Gewichte bedeuten aber nicht, dass die Modelle auf üblicher Consumer-Hardware praktisch lokal betrieben werden können.