Nex N2 Pro auf dem Mac: 397B MoE realistisch eingeordnet

Nex N2 Pro klingt auf dem Papier nach einem Traum für lokale KI: offene Gewichte, starke Coding- und Agenten-Benchmarks, 397 Milliarden Parameter und nur 17 Milliarden aktive Parameter pro Token. Die entscheidende Frage für Mac-Nutzer ist aber nicht, ob das Modell beeindruckend ist. Sie lautet: Kann ich es sinnvoll auf meinem Mac verwenden?

Für fast alle lautet die ehrliche Antwort: nicht lokal, nicht als Pro-Modell und nicht als unkompliziertes Ollama- oder MLX-Setup.

Nex N2 Pro ist ein großes Modell für GPU-Server. Ein Mac kann trotzdem eine Rolle spielen, aber eher als Entwicklungsrechner oder Client für einen extern betriebenen Inference-Server. Wer lokal arbeiten möchte, sollte sich den kleineren Nex-N2-mini-Ableger oder andere Modelle in einer realistischeren Größenklasse ansehen.

Diagramm: Nex N2 Pro - 397B Gesamtparameter, 17B aktiv pro Token, etwa 794 GB BF16-Gewichte und mindestens rund 200 GB für reine 4-Bit-Gewichte

Kurzfassung: Lohnt sich Nex N2 Pro auf dem Mac?

Frage	Ehrliche Antwort
Läuft Nex N2 Pro auf einem normalen MacBook oder Mac mini?	Nein.
Reichen 64 GB oder 128 GB Unified Memory?	Nein.
Ist es ein 17B-Modell, weil 17B Parameter aktiv sind?	Nein. Die übrigen Experten müssen weiterhin gespeichert werden.
Gibt es einen offiziellen MLX- oder Ollama-Workflow?	Die offizielle Dokumentation beschreibt SGLang und vLLM, nicht MLX oder Ollama auf Apple Silicon.
Kann ein Mac trotzdem mit Nex N2 Pro arbeiten?	Ja, als Client für einen Remote-Server oder eine API.
Welche Nex-Variante ist für lokale Macs interessanter?	Nex-N2-mini mit 35B Gesamtparametern ist deutlich plausibler, aber ebenfalls kein Modell für kleine Macs.

Was ist Nex N2 Pro?

Nex N2 Pro ist ein offen gewichtetes Agentenmodell von Nex AGI unter Apache-2.0-Lizenz. Es basiert laut Model Card auf Qwen3.5-397B-A17B: einem Mixture-of-Experts-Modell mit 397 Milliarden Gesamtparametern und ungefähr 17 Milliarden aktiven Parametern pro Token.

Der Schwerpunkt liegt nicht auf einem einzelnen Chat-Prompt, sondern auf Aufgabenketten:

Code schreiben, ausführen und überarbeiten
Tools und APIs aufrufen
Recherche- und Browser-Workflows strukturieren
Terminal-Aufgaben durchführen
Ergebnisse gegen Feedback aus der Umgebung prüfen

Nex AGI nennt diesen Ansatz „Agentic Thinking”. Hinter dem Begriff steckt eine nachvollziehbare Idee: Das Modell soll bei einfachen Aufgaben schnell handeln und bei schwierigen Aufgaben mehr Zwischenschritte, Planung und Prüfung einsetzen. Das ist sinnvoll für Agenten-Workflows, sagt aber noch nichts darüber aus, ob ein Modell auf deiner Hardware gut läuft.

Die wichtigste Zahl ist nicht 17B, sondern 397B

Bei MoE-Modellen werden pro Token nur Teile des gesamten Modells aktiviert. Das senkt den Rechenaufwand pro erzeugtem Token. Es senkt jedoch nicht den Speicherbedarf auf die Größe eines 17B-Modells.

Das Modell muss seine Experten im Speicher behalten, damit der Router je nach Eingabe die passenden Experten auswählen kann. Daher gilt:

17B aktive Parameter beschreiben vor allem die Rechenarbeit pro Token. Für das Laden des Modells zählt weiterhin die Größe aller Gewichte.

Die offizielle Hugging-Face-Ablage von Nex N2 Pro umfasst rund 794 GB. Das entspricht grob einer BF16-Variante der Gewichte. Selbst eine aggressive 4-Bit-Quantisierung kann die reine Gewichtsmenge nur auf ungefähr 200 GB drücken. Dazu kommen Speicher für Laufzeit, Kontext, KV-Cache, Betriebssystem und mögliche Grafik- oder Tool-Workloads.

Speicherbedarf: Die lokale Realität auf Apple Silicon

Die Tabelle ist keine Garantie für jede künftige Quantisierung. Sie zeigt die Größenordnung, die man vor einem Download verstehen sollte.

Speicherklasse	Nex N2 Pro lokal?	Einordnung
16-32 GB	Nein	Bereits deutlich kleinere lokale Modelle müssen stark quantisiert werden.
64 GB	Nein	Für 397B-Gewichte auch in 4 Bit viel zu wenig.
128 GB	Nein	Nicht genug Platz für eine realistische Pro-Quantisierung samt Laufzeitpuffer.
192 GB	Praktisch nein	Die theoretische 4-Bit-Untergrenze liegt bereits ungefähr in dieser Größenordnung.
256 GB	Experiment statt Empfehlung	Gewichte, Kontext und Laufzeitpuffer machen das Setup unattraktiv und unbestätigt.
512 GB	Spezialfall	Ein denkbares Forschungsprojekt, aber kein offiziell dokumentierter Mac-Workflow.

Diagramm: Vergleich zwischen 64 GB, 128 GB, 192 GB, 256 GB und 512 GB Unified Memory gegenüber den rund 200 GB reinen 4-Bit-Gewichten von Nex N2 Pro

Der häufige Denkfehler ist: „Mein Mac hat viel Unified Memory, also kann er jedes quantisierte Modell laden.” Unified Memory ist für lokale KI hervorragend, beseitigt aber keine Größenordnung von mehreren hundert Gigabyte. Ein Modell, das gerade eben in den Speicher passt, ist außerdem noch nicht angenehm nutzbar. Lange Kontexte, Tool-Aufrufe und parallele Apps verringern den verfügbaren Spielraum weiter.

Warum die offizielle Deployment-Anleitung wichtig ist

Die Model Card nennt für Nex N2 Pro als Referenz einen Multi-Node-Start mit zwei Servern und insgesamt 16 H100-GPUs. Das ist keine Mindestanforderung für jede denkbare Inferenz, aber es zeigt eindeutig, für welche Umgebung Nex AGI das Pro-Modell optimiert und getestet hat.

Offiziell beschrieben werden:

ein angepasster Fork von SGLang
vLLM
CUDA-basierte GPU-Server
Tensor Parallelism über mehrere GPUs und Server

Nicht beschrieben wird ein getesteter Apple-Silicon-Workflow mit MLX, LM Studio oder Ollama. Das ist ein wichtiger Unterschied zwischen „die Gewichte sind offen verfügbar” und „das Modell ist lokal auf dem Mac alltagstauglich”.

Funktioniert Nex N2 Pro mit Ollama oder MLX?

Für eine klare Anleitung würde ich derzeit keinen einzelnen Ollama- oder MLX-Befehl empfehlen.

Es kann künftig Community-Konvertierungen nach GGUF oder MLX geben. Eine Konvertierung allein löst aber nicht die entscheidenden Probleme:

Speicher: Eine 4-Bit-Variante bleibt grob ein 200-GB-Projekt, bevor Kontext und Laufzeit dazukommen.
Kompatibilität: MoE-Architektur, Chat-Template, Tool Calling und Reasoning-Ausgabe müssen in der jeweiligen Runtime korrekt unterstützt werden.
Geschwindigkeit: Selbst wenn das Modell startet, kann die Ausgabe so langsam sein, dass Agenten-Workflows kaum noch sinnvoll sind.
Reproduzierbarkeit: Ohne dokumentierte Mac-Benchmarks und eine gepflegte Modellvariante ist das Setup eher Experiment als Empfehlung.

Das ist keine Kritik an MLX oder Ollama. Beide sind für viele lokale Modelle auf Apple Silicon sehr gut. Nex N2 Pro liegt schlicht in einer anderen Gewichtsklasse.

Benchmarks: Stark, aber richtig lesen

Nex AGI veröffentlicht für Nex N2 Pro sehr starke Werte in agentischen und Coding-nahen Benchmarks. Einige Beispiele aus der offiziellen Tabelle:

Benchmark	Nex N2 Pro	Was der Wert grob abbildet
BrowseComp	83.7	Recherche und informationsintensive Browser-Aufgaben
GDPval	1585	Langfristige, wirtschaftlich orientierte Agentenaufgaben
Toolathlon	51.9	Tool-Nutzung in mehreren Schritten
SWE-Bench Pro	58.8	Software-Engineering-Aufgaben
Terminal-Bench 2.1	75.3	Aufgaben im Terminal und in realen Umgebungen
SWE-Bench Verified	80.8	Behebung realer Software-Issues
GPQA Diamond	90.7	Anspruchsvolle wissenschaftliche Fragen

Balkendiagramm: Offiziell gemeldete Nex N2 Pro Ergebnisse - BrowseComp 83.7, Toolathlon 51.9, SWE-Bench Pro 58.8, Terminal-Bench 2.1 75.3, SWE-Bench Verified 80.8 und GPQA Diamond 90.7

Diese Zahlen machen Nex N2 Pro interessant, besonders für Teams mit eigener GPU-Infrastruktur. Sie sind aber Herstellerangaben. Benchmarks hängen an Versionen, Harness, Tool-Umgebung, Prompting, Limits und Auswertungsregeln. Ein hoher Terminal-Bench-Wert bedeutet nicht automatisch, dass das Modell jedes lokale Projekt zuverlässig implementiert oder auf einem Mac flott genug reagiert.

Die faire Schlussfolgerung lautet: Nex N2 Pro ist ein ernstzunehmendes offenes Agentenmodell. Seine veröffentlichten Zahlen sind ein Anlass zum Testen, keine Abkürzung um eigene Evaluierung.

Wo Nex N2 Pro sinnvoll eingesetzt wird

Nex N2 Pro passt eher zu diesen Szenarien:

Ein Team betreibt mehrere NVIDIA-GPUs oder mietet passende Inferenzkapazität.
Ein Unternehmen möchte ein offen lizenziertes Modell in einer eigenen Agenten-Architektur evaluieren.
Tool Calling, Terminal-Interaktion und mehrstufige Coding-Aufgaben sind wichtiger als eine kleine lokale Desktop-App.
Der Mac dient als Editor, Terminal und Steuerzentrale für einen Remote-Server.

Für einen Mac als Client ist das Modell durchaus relevant. Du kannst beispielsweise deinen Code lokal schreiben, den Agenten auf einem externen Server ausführen lassen und die Änderungen anschließend lokal prüfen. Die Daten verlassen in diesem Fall jedoch deinen Mac. Ob das akzeptabel ist, hängt von Serverstandort, Vertrag, Zugriffsrechten und deinem Umgang mit Quellcode ab.

Wann du stattdessen ein kleineres Modell wählen solltest

Wenn dein Ziel wirklich lokale KI auf dem Mac ist, sind diese Kriterien wichtiger als eine spektakuläre Gesamtparameterzahl:

Das Modell passt mit brauchbarer Quantisierung und Kontextreserve in deinen Unified Memory.
Es gibt eine gepflegte MLX- oder GGUF-Variante.
Die Runtime unterstützt Tool Calling und das Chat-Template zuverlässig.
Es existieren nachvollziehbare Mac-Benchmarks oder zumindest praktische Erfahrungsberichte.
Die Antwortgeschwindigkeit passt zu deinem Workflow.

Nex-N2-mini basiert laut Nex AGI auf Qwen3.5-35B-A3B-Base. Mit 35B Gesamtparametern ist es deutlich näher an einer realistischen lokalen Mac-Klasse als Nex N2 Pro. Trotzdem sollte man auch beim Mini-Modell nicht nur auf die drei Milliarden aktiven Parameter schauen: Für Speicherplanung zählt weiterhin die gesamte Gewichtemenge.

Für viele Nutzer ist ein gut laufendes 14B-, 24B- oder 32B-Modell produktiver als ein Pro-Modell, das nur mit Mühe startet. Ein lokaler Coding-Workflow lebt von kurzen Wartezeiten, stabiler Tool-Nutzung und genug Reserven für Editor, Browser und Tests.

Fazit: Ein starkes Servermodell, kein normaler Mac-Download

Nex N2 Pro zeigt, wie weit offene Agentenmodelle inzwischen reichen: starke veröffentlichte Werte in Coding, Terminal-Aufgaben, Tool-Nutzung und komplexeren Workflows, kombiniert mit einer permissiven Apache-2.0-Lizenz.

Für lokale KI auf einem normalen Mac ist die Empfehlung trotzdem klar: Nex N2 Pro nicht als primäres Modell einplanen. Die 17B aktiven Parameter machen es rechenökonomischer als ein dichtes 397B-Modell, aber nicht klein. Die Gewichte, der Kontext und die Runtime-Anforderungen bleiben weit oberhalb dessen, was MacBook, Mac mini und die meisten Mac-Studio-Konfigurationen sinnvoll abdecken.

Nutze Nex N2 Pro, wenn du Zugriff auf passende GPU-Server hast und ein offenes Agentenmodell ernsthaft evaluieren möchtest. Für lokale Apple-Silicon-KI ist Nex-N2-mini oder ein kleineres, gut unterstütztes Modell die deutlich bessere Ausgangsbasis.

FAQ

Ist Nex N2 Pro Open Source?

Die Gewichte von Nex N2 Pro werden auf Hugging Face unter der Apache-2.0-Lizenz bereitgestellt. „Open Source” beschreibt dabei Lizenz und Verfügbarkeit der Gewichte; es bedeutet nicht automatisch, dass jede Trainingskomponente, jeder Datensatz oder jede Produktionspipeline vollständig offengelegt ist.

Kann ich Nex N2 Pro mit 128 GB Unified Memory auf einem Mac nutzen?

Nicht sinnvoll lokal. Selbst eine theoretische 4-Bit-Variante der reinen 397B-Gewichte liegt deutlich über 128 GB. Für Kontext, Runtime und macOS bliebe ohnehin kein praktikabler Puffer.

Warum helfen die 17B aktiven Parameter nicht genug?

Bei MoE wird pro Token nur ein Teil der Experten berechnet. Damit die Runtime aber den passenden Experten wählen kann, müssen die Modellgewichte weiterhin verfügbar sein. Rechenbedarf und Speicherbedarf sind deshalb zwei unterschiedliche Fragen.

Ist Nex N2 Pro besser als ein kleineres Modell für Coding?

Bei anspruchsvollen, serverseitigen Agentenaufgaben kann Nex N2 Pro laut den veröffentlichten Ergebnissen sehr stark sein. Für lokale Coding-Arbeit auf einem Mac ist ein kleineres Modell, das schnell und stabil läuft, meist die produktivere Wahl.

Quellen und Methodik

Stand der Angaben: 21. Juni 2026. Speicherwerte für Quantisierungen sind bewusst als Größenordnung formuliert, da eine fertige Quantisierung zusätzlich Metadaten, Laufzeit-Overhead und Kontextspeicher benötigt.