Qwen3.7 Max auf OpenRouter: Preise, Benchmarks & Mac

Q: Was kostet Qwen3.7-Max auf OpenRouter?

OpenRouter listet bis einschließlich 22. Juni 2026 einen Aktionspreis von 1,25 US-Dollar pro 1M Input-Tokens, 3,75 US-Dollar pro 1M Output-Tokens und 1,5625 US-Dollar pro 1M Cache-Write-Tokens. Danach können wieder die doppelten Listenpreise gelten.

Q: Welche Modell-ID nutze ich bei OpenRouter?

Für OpenRouter nutzt du qwen/qwen3.7-max.

Was ist Qwen3.7-Max?

Qwen3.7-Max ist das Flaggschiffmodell der Qwen3.7-Serie von Alibaba. Alibaba beschreibt es als proprietäres Modell für die “Agent Era”: Der Fokus liegt auf Coding-Agenten, Office-Workflows, MCP-Integrationen, Multi-Agent-Orchestrierung und langen autonomen Ausführungen.

Für normale Nutzer heißt das: Qwen3.7-Max ist nicht einfach ein weiteres Chatmodell. Es ist vor allem für Aufgaben gedacht, bei denen ein Modell plant, Tools nutzt, Code schreibt, Dateien bearbeitet und über längere Zeit an einem Ziel arbeitet.

Typische Einsatzbereiche sind:

Coding-Agenten und Repository-Arbeit
Frontend-Prototyping
Multi-File-Refactoring
Office-Automation
Tabellen, Dokumente und Reports
Tool-Use über MCP
lange Agentenläufe
mehrstufige Produktivitätsaufgaben

Die wichtigsten Fakten

Eigenschaft	Qwen3.7-Max über OpenRouter
OpenRouter-Modell-ID	`qwen/qwen3.7-max`
Anbieter	Qwen / Alibaba
Modelltyp	proprietäres Cloud-/API-Modell
Eingabe	Text
Ausgabe	Text
Kontextfenster	1M Tokens
Preis Input	$2,50 / 1M Tokens
Preis Output	$7,50 / 1M Tokens
Cache Write	$3,125 / 1M Tokens laut OpenRouter-API
OpenRouter-Release	21. Mai 2026
Max. Output	65.536 Tokens laut OpenRouter-Endpoint
OpenRouter-Provider	Alibaba
Unterstützte Parameter	u.a. `tools`, `tool_choice`, `structured_outputs`, `reasoning`, `include_reasoning`
Lokale Nutzung mit Ollama	Nein
Lokale Nutzung mit LM Studio	Nein
Lokale Nutzung mit MLX	Nein
Bestes Einsatzgebiet	Agenten, Coding, Office, lange Workflows

OpenRouter beschreibt Qwen3.7-Max als Text-zu-Text-Modell für agentenzentrierte Workloads, besonders für Coding, Office-/Produktivitätsaufgaben und long-horizon autonomous execution. Die OpenRouter-API-Daten listen außerdem 1M Kontext, 65.536 maximale Output-Tokens und Alibaba als aktuellen Provider.

OpenRouter-Preise und Limits für Qwen3.7-Max: Input, Cache Write, Output, Kontextfenster und maximale Output-Tokens

Datengrafik auf Basis der OpenRouter Models API und der Qwen3.7-Max-Endpoint-Daten. Die Grafik zeigt API-gelistete Preise und Limits, keine gemessene Latenz oder Qualität. Geprüft am 27. Mai 2026.

Läuft Qwen3.7-Max lokal auf dem Mac?

Nein. Das ist der wichtigste Punkt für AI on Mac.

Qwen3.7-Max ist ein proprietäres Cloud-/API-Modell. Du kannst es über OpenRouter nutzen; Alibaba dokumentiert zusätzlich Model-Studio-Endpunkte für Qwen3.7-Max, deren Verfügbarkeit von Konto, Region und Produktzugang abhängen kann. Du kannst es aber nicht einfach mit diesem Befehl lokal starten:

ollama run qwen3.7-max

Das unterscheidet es klar von lokalen Qwen-Modellen wie qwen3, qwen3.6 oder bestimmten Qwen-Varianten in Ollama. Ollama listet lokale Qwen3-Modelle und Qwen3.6-Varianten, aber das ist nicht dasselbe wie Qwen3.7-Max. Die lokalen Modelle haben eigene Größen, eigene Kontextfenster und laufen abhängig von RAM, Quantisierung und Runtime auf deinem Mac.

Die saubere Einordnung lautet deshalb:

Qwen3.7-Max passt zu Cloud-Agenten. Lokale Qwen-Modelle passen zu privaten Offline-Workflows.

Warum ist Qwen3.7-Max für Mac-Nutzer trotzdem interessant?

Ein Mac beschleunigt Qwen3.7-Max nicht direkt, weil die Inferenz nicht auf deinem Apple-Silicon-Chip läuft. Trotzdem kann das Modell für Mac-Nutzer sehr nützlich sein, besonders wenn du auf deinem Mac entwickelst, dokumentierst oder Agenten-Workflows baust.

Du kannst Qwen3.7-Max auf dem Mac nutzen für:

Code-Reviews großer Projekte
Refactoring-Pläne
Bug-Analyse
Agentenläufe mit OpenRouter-kompatiblen Tools
Dokumenten- und Office-Workflows
strukturierte Extraktion aus langen Texten
mehrstufige Planungsaufgaben
Prototyping von Web-Apps
Vergleich mit lokalen Qwen-, Gemma- oder Llama-Modellen

Der robusteste Workflow ist hybrid: Lokale Modelle für private Dateien und Offline-Arbeit, Qwen3.7-Max für große Kontexte, Tool-Nutzung und Aufgaben, bei denen Cloud-Verarbeitung akzeptabel ist.

OpenRouter-Setup auf dem Mac

OpenRouter stellt eine OpenAI-kompatible Chat-Completions-API bereit. Das bedeutet: Du kannst viele bestehende OpenAI-kompatible Clients mit einem anderen Base-URL und dem Modellnamen qwen/qwen3.7-max nutzen. OpenRouter dokumentiert den Endpoint /api/v1/chat/completions und Bearer-Token-Authentifizierung.

Python-Beispiel

import json
import os
import requests

response = requests.post(
    url="https://openrouter.ai/api/v1/chat/completions",
    headers={
        "Authorization": f"Bearer {os.environ['OPENROUTER_API_KEY']}",
        "Content-Type": "application/json",
        "HTTP-Referer": "https://ai-on-mac.com",
        "X-OpenRouter-Title": "AI on Mac",
    },
    data=json.dumps({
        "model": "qwen/qwen3.7-max",
        "messages": [
            {
                "role": "system",
                "content": "You are a precise coding and Mac AI assistant."
            },
            {
                "role": "user",
                "content": "Explain how I should split a private local AI workflow and a cloud agent workflow on macOS."
            }
        ],
        "max_tokens": 1200
    })
)

print(response.json()["choices"][0]["message"]["content"])

JavaScript-Beispiel

const response = await fetch("https://openrouter.ai/api/v1/chat/completions", {
  method: "POST",
  headers: {
    "Authorization": `Bearer ${process.env.OPENROUTER_API_KEY}`,
    "Content-Type": "application/json",
    "HTTP-Referer": "https://ai-on-mac.com",
    "X-OpenRouter-Title": "AI on Mac"
  },
  body: JSON.stringify({
    model: "qwen/qwen3.7-max",
    messages: [
      {
        role: "system",
        content: "You are a precise coding and Mac AI assistant."
      },
      {
        role: "user",
        content: "Create a safe hybrid workflow using local Ollama models and Qwen3.7-Max via OpenRouter."
      }
    ],
    max_tokens: 1200
  })
});

const data = await response.json();
console.log(data.choices[0].message.content);

API-Keys gehören nicht in Frontend-Code, öffentliche GitHub-Repositories oder statische Astro-Seiten. Nutze eine Serverless Function, ein Backend oder sichere Secret-Verwaltung.

OpenRouter oder Alibaba Model Studio?

OpenRouter ist sinnvoll, wenn du mehrere Modelle über eine einheitliche API testen willst, Routing/Provider-Auswahl brauchst oder bereits OpenRouter-Credits nutzt. Alibaba Model Studio ist näher am Originalanbieter und dokumentiert Qwen-spezifische Parameter wie enable_thinking, Streaming und reasoning_content. Der Alibaba-Blog nennt außerdem preserve_thinking als Funktion für agentische Mehrturn-Aufgaben.

Für diesen Artikel bleibt OpenRouter der einfachste Einstieg, weil die Modell-ID, Preise, Kontextlänge und Provider-Daten öffentlich über OpenRouter abrufbar sind. Wenn du direkt über Alibaba gehst, prüfe Region, Account-Zugang, aktuelle Modellliste und Billing vorher in Model Studio.

Preise: nicht billig, aber interessant für Agenten

OpenRouter listet Qwen3.7-Max aktuell mit diesen Preisen (OpenRouter-Modellseite und OpenRouter-API, geprüft am 27. Mai 2026):

Kostenart	Preis
Input	$2,50 / 1M Tokens
Output	$7,50 / 1M Tokens
Input Cache Write	$3,125 / 1M Tokens
Kontext	1M Tokens
Max. Output	65.536 Tokens

Das ist deutlich teurer als lokale Inferenz mit einem bereits vorhandenen Mac, aber lokale Inferenz ist nicht wirklich kostenlos: Du bezahlst mit Hardware, Strom, Speicherplatz, Einrichtung, Wartezeit und oft geringerer Modellqualität. Bei Qwen3.7-Max zahlst du pro Token und bekommst dafür ein Cloud-Modell mit Fokus auf Agenten- und Coding-Workflows.

Rechenbeispiel: 200.000 Input-Tokens und 20.000 Output-Tokens kosten bei den aktuellen OpenRouter-Preisen grob $0,65 ohne zusätzliche Cache-Write-Kosten. Ein langer Agentenlauf mit mehreren Iterationen kann dadurch schnell mehrere Dollar verbrauchen. Für kurze Chats ist Qwen3.7-Max deshalb meist überdimensioniert; für lange Agentenläufe, schwierige Coding-Aufgaben oder Office-Automation kann der Preis eher nachvollziehbar sein.

1M Kontext: groß, aber nicht automatisch besser

Das 1M-Kontextfenster ist einer der auffälligsten Unterschiede zu lokalen Mac-Modellen. Lokale Modelle auf Apple Silicon werden bei langen Kontexten schnell durch Unified Memory, KV-Cache, Runtime-Grenzen und Geschwindigkeit begrenzt. Qwen3.7-Max läuft dagegen in der Cloud und kann sehr große Eingaben verarbeiten.

Trotzdem solltest du nicht blind riesige Dateien in jeden Prompt kopieren. Lange Kontexte erhöhen Kosten, Latenz und Fehlerfläche.

Bessere Strategie:

nur relevante Dateien senden
Code vorab zusammenfassen
große Repositories in Module aufteilen
klare Aufgabenstellung am Ende setzen
Output-Format streng vorgeben
wiederholte Kontexte cachen, falls unterstützt
sensible Dateien lokal halten

Benchmarks: nützlich, aber vorsichtig lesen

Alibaba nennt für Qwen3.7-Max viele Benchmarkwerte. Im Coding-Agenten-Bereich werden unter anderem SWE-Pro, SWE-Multilingual, SciCode, Terminal Bench 2.0 und SWE-Verified genannt. Alibaba sagt außerdem, Qwen3.7-Max sei auf SWE-Verified ungefähr auf Höhe von Opus-4.6 Max und DS-V4-Pro Max. Für allgemeine Agentenaufgaben nennt Alibaba unter anderem MCP-Mark, MCP-Atlas, SkillsBench, BFCL-V4 und QwenClaw.

Ausgewählte Alibaba-Benchmarkwerte für Qwen3.7-Max: GPQA Diamond, SpreadsheetBench-v1, SWE-Verified, MCP-Atlas, Terminal Bench und SkillsBench

Datengrafik auf Basis von Alibabas Qwen3.7: The Agent Frontier. Geprüft am 27. Mai 2026.

Für Mac-Nutzer ist nicht ein einzelner Leaderboard-Wert entscheidend, sondern das Muster über verschiedene Aufgaben: Alibaba berichtet starke Coding-Agent-Werte wie SWE-Verified 80,4, Terminal Bench 2.0 69,7, SWE-Pro 60,6 und SWE-Multilingual 78,3; Office-Automation erscheint mit SpreadsheetBench-v1 87; allgemeine Agentenwerte umfassen MCP-Atlas 76,4, MCP-Mark 60,8 und SkillsBench 59,2; bei Reasoning nennt Alibaba unter anderem GPQA Diamond 92,4 und HMMT 2026 Feb 97,1.

Das klingt beeindruckend, muss aber sauber eingeordnet werden. Viele dieser Werte hängen von Agent-Scaffold, Tools, Zeitlimit, Kontextfenster, Prompting, Temperatur, Bewertungslogik und internen Benchmarks ab. Alibaba dokumentiert einige Benchmark-Setups, etwa Terminal-Bench mit 5-Stunden-Timeout, 12 CPU / 24 GB RAM, 256K Kontext und Durchschnitt über fünf Runs. Solche Ergebnisse sind aber nicht automatisch identisch mit deinem Alltagserlebnis.

Die faire Aussage lautet:

Qwen3.7-Max schneidet in Alibabas Agenten-, Coding- und Reasoning-Benchmarks gut ab.

Qwen3.7-Max vs. lokale KI auf dem Mac

Kriterium	Qwen3.7-Max	Lokale KI auf dem Mac
Läuft offline	Nein	Ja, wenn Modell lokal installiert
Datenschutz	Cloud-Verarbeitung	kann vollständig lokal sein
Kontext	1M Tokens	stark abhängig von RAM und Runtime
Kosten	pro Token	Hardware, Strom und Zeit
Geschwindigkeit	abhängig von Cloud und Provider	abhängig von Mac, Modell und Quantisierung
Modellwahl	Qwen3.7-Max über API	viele Open-Weight-Modelle
Coding-Agenten	vom Anbieter klar dafür positioniert	möglich, aber hardwareabhängig
Private Dateien	nur wenn Cloud okay ist	besser lokal
Einfache Nutzung	API-Key nötig	Ollama oder LM Studio nötig
Bestes Szenario	Agenten, Coding, Office, lange Tasks	Datenschutz, Offline, reproduzierbare Tests

Für AI on Mac ist die wichtigste Empfehlung: Nutze Qwen3.7-Max nicht als Ersatz für lokale KI, sondern als Ergänzung.

Wann Qwen3.7-Max sinnvoll ist

Qwen3.7-Max passt gut, wenn:

du ein großes Repository analysieren willst
du lange Agentenketten brauchst
du viele Tool-Calls erwartest
du komplexe Coding-Probleme lösen willst
du Office-Workflows automatisieren willst
du 1M Kontext sinnvoll nutzen kannst
du mit Cloud-Verarbeitung einverstanden bist
du OpenRouter ohnehin als Modell-Router nutzt
du verschiedene Frontier-Modelle vergleichen willst

Wann lokale KI besser ist

Lokale KI ist besser, wenn:

die Daten privat bleiben müssen
du offline arbeiten willst
du keine API-Kosten willst
du reproduzierbare lokale Modelltests machst
du mit Ollama, LM Studio oder MLX experimentierst
du kleinere Aufgaben mit einem 7B-, 14B-, 27B- oder 35B-Modell lösen kannst
du Kundendaten, unveröffentlichten Code oder persönliche Dokumente verarbeitest

Gerade auf Apple Silicon reicht lokale KI für viele Alltagsaufgaben. Qwen3.7-Max lohnt sich vor allem dann, wenn lokale Modelle an Kontext, Agentenfähigkeit oder Qualität scheitern.

Typische Fehler

Fehler 1: Qwen3.7-Max in Ollama suchen

Qwen3.7-Max ist kein lokales Ollama-Modell. Lokale Qwen-Modelle existieren, aber sie sind nicht dasselbe wie Qwen3.7-Max.

Fehler 2: `qwen3.7-max` und `qwen/qwen3.7-max` verwechseln

Bei OpenRouter lautet die Modell-ID qwen/qwen3.7-max. In Alibaba-/Qwen-Kontexten kann der Modellname ohne Provider-Präfix erscheinen. Für OpenRouter-Code solltest du den vollständigen OpenRouter-Slug verwenden.

Fehler 3: 1M Kontext blind voll ausnutzen

1M Kontext ist groß, aber teuer und nicht immer sinnvoll. Besser ist eine saubere Kontextstrategie.

Fehler 4: Cloud-Agenten mit lokaler KI gleichsetzen

Qwen3.7-Max kann ein nützlicher Agenten-Backbone sein. Das bedeutet aber nicht, dass deine Daten lokal bleiben.

Empfehlung für Mac-Nutzer

Meine Empfehlung ist ein hybrider Workflow:

Lokal auf dem Mac:

Ollama für private Prompts
LM Studio für Modelltests und lokale Chats
MLX für Apple-Silicon-Experimente
Whisper für lokale Transkription
lokale RAG-Workflows für vertrauliche Dokumente

Qwen3.7-Max über OpenRouter:

lange Codebase-Analysen
Agentenläufe
Tool-Use
Office-Automation
komplexe Refactorings
große Kontextfenster
Modellvergleich mit anderen Cloud-Modellen

Die einfache Regel:

Private Dateien lokal. Lange Agenten- und Coding-Aufgaben bei Bedarf mit Qwen3.7-Max.

FAQ

Ist Qwen3.7-Max Open Source?

Nein. Alibaba beschreibt Qwen3.7-Max als proprietäres Modell. Es ist nicht dasselbe wie offene oder lokale Qwen-Modelle.

Kann ich Qwen3.7-Max mit Ollama nutzen?

Nein. Qwen3.7-Max läuft nicht lokal in Ollama. Für Ollama gibt es andere Qwen-Modelle wie Qwen3 oder Qwen3.6-Varianten.

Was kostet Qwen3.7-Max auf OpenRouter?

OpenRouter listet aktuell $2,50 pro 1M Input Tokens, $7,50 pro 1M Output Tokens und $3,125 pro 1M Input-Cache-Write-Tokens.

Welche Modell-ID nutze ich bei OpenRouter?

Für OpenRouter nutzt du:

qwen/qwen3.7-max

Ist Qwen3.7-Max besser als lokale Modelle?

Für Agenten, Coding und lange Kontexte kann es deutlich stärker sein. Für Datenschutz, Offline-Arbeit und Kostenkontrolle sind lokale Modelle auf dem Mac oft besser.

Ist Qwen3.7-Max ein Vision-Modell?

Auf OpenRouter ist Qwen3.7-Max als Text-Eingabe und Text-Ausgabe beschrieben. Für Bild- oder Video-Workflows solltest du nicht einfach annehmen, dass es ein Vision-Modell ist.

Fazit

Qwen3.7-Max ist ein relevantes Cloud-Modell für Entwickler, die mit Agenten, Coding und langen Aufgabenketten arbeiten. Der OpenRouter-Zugang macht es leicht, das Modell in bestehende OpenAI-kompatible Workflows einzubauen. Für Mac-Nutzer ist aber die klare Trennung entscheidend: Qwen3.7-Max kann hilfreich sein, ist aber nicht lokal.

Wer private Dateien, vertraulichen Code oder Offline-Workflows braucht, sollte weiter auf Ollama, LM Studio, MLX und lokale Open-Weight-Modelle setzen. Wer dagegen ein großes Kontextfenster, Tool-Use und Cloud-Agenten braucht, kann Qwen3.7-Max über OpenRouter gezielt testen.

Die sauberste Strategie ist nicht Cloud oder lokal. Sie ist: lokal zuerst, Cloud bewusst.

Meine persönliche Empfehlung: Nutze Qwen3.7-Max gezielt für große Agenten-Aufgaben — aber behalte die lokale Modellbasis als Fundament. Das ist die nachhaltigste Strategie für Mac-Nutzer.

Quellen und Stand

Stand: 27. Mai 2026. Modellnamen, Preise, Limits, Provider-Verfügbarkeit und OpenRouter-Routing können sich ändern. Die Angaben zu Modell-ID, Preisen, Kontextfenster, Release-Datum, Modalitäten, unterstützten Parametern und maximalen Output-Tokens stammen aus OpenRouter-Modell- und Endpoint-Daten. Die Einordnung zu Agenten, Coding, Office-Workflows und Benchmarks stammt aus Alibabas Qwen3.7-Vorstellung. Die lokale Abgrenzung zu Ollama bezieht sich auf die Ollama-Qwen3- und Qwen3.6-Library-Seiten.

Qwen3.7 Max: Lohnt sich OpenRouter?

Was ist Qwen3.7-Max?

Die wichtigsten Fakten

Läuft Qwen3.7-Max lokal auf dem Mac?

Warum ist Qwen3.7-Max für Mac-Nutzer trotzdem interessant?

OpenRouter-Setup auf dem Mac

Python-Beispiel

JavaScript-Beispiel

OpenRouter oder Alibaba Model Studio?

Preise: nicht billig, aber interessant für Agenten

1M Kontext: groß, aber nicht automatisch besser

Benchmarks: nützlich, aber vorsichtig lesen

Qwen3.7-Max vs. lokale KI auf dem Mac

Wann Qwen3.7-Max sinnvoll ist

Wann lokale KI besser ist

Typische Fehler

Fehler 1: Qwen3.7-Max in Ollama suchen

Fehler 2: `qwen3.7-max` und `qwen/qwen3.7-max` verwechseln

Fehler 3: 1M Kontext blind voll ausnutzen

Fehler 4: Cloud-Agenten mit lokaler KI gleichsetzen

Empfehlung für Mac-Nutzer

FAQ

Ist Qwen3.7-Max Open Source?

Kann ich Qwen3.7-Max mit Ollama nutzen?

Was kostet Qwen3.7-Max auf OpenRouter?

Welche Modell-ID nutze ich bei OpenRouter?

Ist Qwen3.7-Max besser als lokale Modelle?

Ist Qwen3.7-Max ein Vision-Modell?

Fazit

Quellen und Stand

Häufig gestellte Fragen

Was ist Qwen3.7-Max?

Die wichtigsten Fakten

Läuft Qwen3.7-Max lokal auf dem Mac?

Warum ist Qwen3.7-Max für Mac-Nutzer trotzdem interessant?

OpenRouter-Setup auf dem Mac

Python-Beispiel

JavaScript-Beispiel

OpenRouter oder Alibaba Model Studio?

Preise: nicht billig, aber interessant für Agenten

1M Kontext: groß, aber nicht automatisch besser

Benchmarks: nützlich, aber vorsichtig lesen

Qwen3.7-Max vs. lokale KI auf dem Mac

Wann Qwen3.7-Max sinnvoll ist

Wann lokale KI besser ist

Typische Fehler

Fehler 1: Qwen3.7-Max in Ollama suchen

Fehler 2: qwen3.7-max und qwen/qwen3.7-max verwechseln

Fehler 3: 1M Kontext blind voll ausnutzen

Fehler 4: Cloud-Agenten mit lokaler KI gleichsetzen

Empfehlung für Mac-Nutzer

FAQ

Ist Qwen3.7-Max Open Source?

Kann ich Qwen3.7-Max mit Ollama nutzen?

Was kostet Qwen3.7-Max auf OpenRouter?

Welche Modell-ID nutze ich bei OpenRouter?

Ist Qwen3.7-Max besser als lokale Modelle?

Ist Qwen3.7-Max ein Vision-Modell?

Fazit

Quellen und Stand

Häufig gestellte Fragen

Weiterlesen

Fehler 2: `qwen3.7-max` und `qwen/qwen3.7-max` verwechseln