Nex N2 Pro auf dem Mac: Was 397B MoE in der Praxis bedeuten
Nex N2 Pro ist ein offenes 397B-MoE-Agentenmodell. Hier steht, was die 17B aktiven Parameter bedeuten, wie viel Speicher realistisch nötig ist und warum ein normaler Mac nicht das Zielsystem ist.
Nex N2 Pro klingt auf dem Papier nach einem Traum für lokale KI: offene Gewichte, starke Coding- und Agenten-Benchmarks, 397 Milliarden Parameter und nur 17 Milliarden aktive Parameter pro Token. Die entscheidende Frage für Mac-Nutzer ist aber nicht, ob das Modell beeindruckend ist. Sie lautet: Kann ich es sinnvoll auf meinem Mac verwenden?
Für fast alle lautet die ehrliche Antwort: nicht lokal, nicht als Pro-Modell und nicht als unkompliziertes Ollama- oder MLX-Setup.
Nex N2 Pro ist ein großes Modell für GPU-Server. Ein Mac kann trotzdem eine Rolle spielen, aber eher als Entwicklungsrechner oder Client für einen extern betriebenen Inference-Server. Wer lokal arbeiten möchte, sollte sich den kleineren Nex-N2-mini-Ableger oder andere Modelle in einer realistischeren Größenklasse ansehen.
Kurzfassung: Lohnt sich Nex N2 Pro auf dem Mac?
| Frage | Ehrliche Antwort |
|---|---|
| Läuft Nex N2 Pro auf einem normalen MacBook oder Mac mini? | Nein. |
| Reichen 64 GB oder 128 GB Unified Memory? | Nein. |
| Ist es ein 17B-Modell, weil 17B Parameter aktiv sind? | Nein. Die übrigen Experten müssen weiterhin gespeichert werden. |
| Gibt es einen offiziellen MLX- oder Ollama-Workflow? | Die offizielle Dokumentation beschreibt SGLang und vLLM, nicht MLX oder Ollama auf Apple Silicon. |
| Kann ein Mac trotzdem mit Nex N2 Pro arbeiten? | Ja, als Client für einen Remote-Server oder eine API. |
| Welche Nex-Variante ist für lokale Macs interessanter? | Nex-N2-mini mit 35B Gesamtparametern ist deutlich plausibler, aber ebenfalls kein Modell für kleine Macs. |
Was ist Nex N2 Pro?
Nex N2 Pro ist ein offen gewichtetes Agentenmodell von Nex AGI unter Apache-2.0-Lizenz. Es basiert laut Model Card auf Qwen3.5-397B-A17B: einem Mixture-of-Experts-Modell mit 397 Milliarden Gesamtparametern und ungefähr 17 Milliarden aktiven Parametern pro Token.
Der Schwerpunkt liegt nicht auf einem einzelnen Chat-Prompt, sondern auf Aufgabenketten:
- Code schreiben, ausführen und überarbeiten
- Tools und APIs aufrufen
- Recherche- und Browser-Workflows strukturieren
- Terminal-Aufgaben durchführen
- Ergebnisse gegen Feedback aus der Umgebung prüfen
Nex AGI nennt diesen Ansatz „Agentic Thinking”. Hinter dem Begriff steckt eine nachvollziehbare Idee: Das Modell soll bei einfachen Aufgaben schnell handeln und bei schwierigen Aufgaben mehr Zwischenschritte, Planung und Prüfung einsetzen. Das ist sinnvoll für Agenten-Workflows, sagt aber noch nichts darüber aus, ob ein Modell auf deiner Hardware gut läuft.
Die wichtigste Zahl ist nicht 17B, sondern 397B
Bei MoE-Modellen werden pro Token nur Teile des gesamten Modells aktiviert. Das senkt den Rechenaufwand pro erzeugtem Token. Es senkt jedoch nicht den Speicherbedarf auf die Größe eines 17B-Modells.
Das Modell muss seine Experten im Speicher behalten, damit der Router je nach Eingabe die passenden Experten auswählen kann. Daher gilt:
17B aktive Parameter beschreiben vor allem die Rechenarbeit pro Token. Für das Laden des Modells zählt weiterhin die Größe aller Gewichte.
Die offizielle Hugging-Face-Ablage von Nex N2 Pro umfasst rund 794 GB. Das entspricht grob einer BF16-Variante der Gewichte. Selbst eine aggressive 4-Bit-Quantisierung kann die reine Gewichtsmenge nur auf ungefähr 200 GB drücken. Dazu kommen Speicher für Laufzeit, Kontext, KV-Cache, Betriebssystem und mögliche Grafik- oder Tool-Workloads.
Speicherbedarf: Die lokale Realität auf Apple Silicon
Die Tabelle ist keine Garantie für jede künftige Quantisierung. Sie zeigt die Größenordnung, die man vor einem Download verstehen sollte.
| Speicherklasse | Nex N2 Pro lokal? | Einordnung |
|---|---|---|
| 16-32 GB | Nein | Bereits deutlich kleinere lokale Modelle müssen stark quantisiert werden. |
| 64 GB | Nein | Für 397B-Gewichte auch in 4 Bit viel zu wenig. |
| 128 GB | Nein | Nicht genug Platz für eine realistische Pro-Quantisierung samt Laufzeitpuffer. |
| 192 GB | Praktisch nein | Die theoretische 4-Bit-Untergrenze liegt bereits ungefähr in dieser Größenordnung. |
| 256 GB | Experiment statt Empfehlung | Gewichte, Kontext und Laufzeitpuffer machen das Setup unattraktiv und unbestätigt. |
| 512 GB | Spezialfall | Ein denkbares Forschungsprojekt, aber kein offiziell dokumentierter Mac-Workflow. |
Der häufige Denkfehler ist: „Mein Mac hat viel Unified Memory, also kann er jedes quantisierte Modell laden.” Unified Memory ist für lokale KI hervorragend, beseitigt aber keine Größenordnung von mehreren hundert Gigabyte. Ein Modell, das gerade eben in den Speicher passt, ist außerdem noch nicht angenehm nutzbar. Lange Kontexte, Tool-Aufrufe und parallele Apps verringern den verfügbaren Spielraum weiter.
Warum die offizielle Deployment-Anleitung wichtig ist
Die Model Card nennt für Nex N2 Pro als Referenz einen Multi-Node-Start mit zwei Servern und insgesamt 16 H100-GPUs. Das ist keine Mindestanforderung für jede denkbare Inferenz, aber es zeigt eindeutig, für welche Umgebung Nex AGI das Pro-Modell optimiert und getestet hat.
Offiziell beschrieben werden:
- ein angepasster Fork von SGLang
- vLLM
- CUDA-basierte GPU-Server
- Tensor Parallelism über mehrere GPUs und Server
Nicht beschrieben wird ein getesteter Apple-Silicon-Workflow mit MLX, LM Studio oder Ollama. Das ist ein wichtiger Unterschied zwischen „die Gewichte sind offen verfügbar” und „das Modell ist lokal auf dem Mac alltagstauglich”.
Funktioniert Nex N2 Pro mit Ollama oder MLX?
Für eine klare Anleitung würde ich derzeit keinen einzelnen Ollama- oder MLX-Befehl empfehlen.
Es kann künftig Community-Konvertierungen nach GGUF oder MLX geben. Eine Konvertierung allein löst aber nicht die entscheidenden Probleme:
- Speicher: Eine 4-Bit-Variante bleibt grob ein 200-GB-Projekt, bevor Kontext und Laufzeit dazukommen.
- Kompatibilität: MoE-Architektur, Chat-Template, Tool Calling und Reasoning-Ausgabe müssen in der jeweiligen Runtime korrekt unterstützt werden.
- Geschwindigkeit: Selbst wenn das Modell startet, kann die Ausgabe so langsam sein, dass Agenten-Workflows kaum noch sinnvoll sind.
- Reproduzierbarkeit: Ohne dokumentierte Mac-Benchmarks und eine gepflegte Modellvariante ist das Setup eher Experiment als Empfehlung.
Das ist keine Kritik an MLX oder Ollama. Beide sind für viele lokale Modelle auf Apple Silicon sehr gut. Nex N2 Pro liegt schlicht in einer anderen Gewichtsklasse.
Benchmarks: Stark, aber richtig lesen
Nex AGI veröffentlicht für Nex N2 Pro sehr starke Werte in agentischen und Coding-nahen Benchmarks. Einige Beispiele aus der offiziellen Tabelle:
| Benchmark | Nex N2 Pro | Was der Wert grob abbildet |
|---|---|---|
| BrowseComp | 83.7 | Recherche und informationsintensive Browser-Aufgaben |
| GDPval | 1585 | Langfristige, wirtschaftlich orientierte Agentenaufgaben |
| Toolathlon | 51.9 | Tool-Nutzung in mehreren Schritten |
| SWE-Bench Pro | 58.8 | Software-Engineering-Aufgaben |
| Terminal-Bench 2.1 | 75.3 | Aufgaben im Terminal und in realen Umgebungen |
| SWE-Bench Verified | 80.8 | Behebung realer Software-Issues |
| GPQA Diamond | 90.7 | Anspruchsvolle wissenschaftliche Fragen |
Diese Zahlen machen Nex N2 Pro interessant, besonders für Teams mit eigener GPU-Infrastruktur. Sie sind aber Herstellerangaben. Benchmarks hängen an Versionen, Harness, Tool-Umgebung, Prompting, Limits und Auswertungsregeln. Ein hoher Terminal-Bench-Wert bedeutet nicht automatisch, dass das Modell jedes lokale Projekt zuverlässig implementiert oder auf einem Mac flott genug reagiert.
Die faire Schlussfolgerung lautet: Nex N2 Pro ist ein ernstzunehmendes offenes Agentenmodell. Seine veröffentlichten Zahlen sind ein Anlass zum Testen, keine Abkürzung um eigene Evaluierung.
Wo Nex N2 Pro sinnvoll eingesetzt wird
Nex N2 Pro passt eher zu diesen Szenarien:
- Ein Team betreibt mehrere NVIDIA-GPUs oder mietet passende Inferenzkapazität.
- Ein Unternehmen möchte ein offen lizenziertes Modell in einer eigenen Agenten-Architektur evaluieren.
- Tool Calling, Terminal-Interaktion und mehrstufige Coding-Aufgaben sind wichtiger als eine kleine lokale Desktop-App.
- Der Mac dient als Editor, Terminal und Steuerzentrale für einen Remote-Server.
Für einen Mac als Client ist das Modell durchaus relevant. Du kannst beispielsweise deinen Code lokal schreiben, den Agenten auf einem externen Server ausführen lassen und die Änderungen anschließend lokal prüfen. Die Daten verlassen in diesem Fall jedoch deinen Mac. Ob das akzeptabel ist, hängt von Serverstandort, Vertrag, Zugriffsrechten und deinem Umgang mit Quellcode ab.
Wann du stattdessen ein kleineres Modell wählen solltest
Wenn dein Ziel wirklich lokale KI auf dem Mac ist, sind diese Kriterien wichtiger als eine spektakuläre Gesamtparameterzahl:
- Das Modell passt mit brauchbarer Quantisierung und Kontextreserve in deinen Unified Memory.
- Es gibt eine gepflegte MLX- oder GGUF-Variante.
- Die Runtime unterstützt Tool Calling und das Chat-Template zuverlässig.
- Es existieren nachvollziehbare Mac-Benchmarks oder zumindest praktische Erfahrungsberichte.
- Die Antwortgeschwindigkeit passt zu deinem Workflow.
Nex-N2-mini basiert laut Nex AGI auf Qwen3.5-35B-A3B-Base. Mit 35B Gesamtparametern ist es deutlich näher an einer realistischen lokalen Mac-Klasse als Nex N2 Pro. Trotzdem sollte man auch beim Mini-Modell nicht nur auf die drei Milliarden aktiven Parameter schauen: Für Speicherplanung zählt weiterhin die gesamte Gewichtemenge.
Für viele Nutzer ist ein gut laufendes 14B-, 24B- oder 32B-Modell produktiver als ein Pro-Modell, das nur mit Mühe startet. Ein lokaler Coding-Workflow lebt von kurzen Wartezeiten, stabiler Tool-Nutzung und genug Reserven für Editor, Browser und Tests.
Fazit: Ein starkes Servermodell, kein normaler Mac-Download
Nex N2 Pro zeigt, wie weit offene Agentenmodelle inzwischen reichen: starke veröffentlichte Werte in Coding, Terminal-Aufgaben, Tool-Nutzung und komplexeren Workflows, kombiniert mit einer permissiven Apache-2.0-Lizenz.
Für lokale KI auf einem normalen Mac ist die Empfehlung trotzdem klar: Nex N2 Pro nicht als primäres Modell einplanen. Die 17B aktiven Parameter machen es rechenökonomischer als ein dichtes 397B-Modell, aber nicht klein. Die Gewichte, der Kontext und die Runtime-Anforderungen bleiben weit oberhalb dessen, was MacBook, Mac mini und die meisten Mac-Studio-Konfigurationen sinnvoll abdecken.
Nutze Nex N2 Pro, wenn du Zugriff auf passende GPU-Server hast und ein offenes Agentenmodell ernsthaft evaluieren möchtest. Für lokale Apple-Silicon-KI ist Nex-N2-mini oder ein kleineres, gut unterstütztes Modell die deutlich bessere Ausgangsbasis.
FAQ
Ist Nex N2 Pro Open Source?
Die Gewichte von Nex N2 Pro werden auf Hugging Face unter der Apache-2.0-Lizenz bereitgestellt. „Open Source” beschreibt dabei Lizenz und Verfügbarkeit der Gewichte; es bedeutet nicht automatisch, dass jede Trainingskomponente, jeder Datensatz oder jede Produktionspipeline vollständig offengelegt ist.
Kann ich Nex N2 Pro mit 128 GB Unified Memory auf einem Mac nutzen?
Nicht sinnvoll lokal. Selbst eine theoretische 4-Bit-Variante der reinen 397B-Gewichte liegt deutlich über 128 GB. Für Kontext, Runtime und macOS bliebe ohnehin kein praktikabler Puffer.
Warum helfen die 17B aktiven Parameter nicht genug?
Bei MoE wird pro Token nur ein Teil der Experten berechnet. Damit die Runtime aber den passenden Experten wählen kann, müssen die Modellgewichte weiterhin verfügbar sein. Rechenbedarf und Speicherbedarf sind deshalb zwei unterschiedliche Fragen.
Ist Nex N2 Pro besser als ein kleineres Modell für Coding?
Bei anspruchsvollen, serverseitigen Agentenaufgaben kann Nex N2 Pro laut den veröffentlichten Ergebnissen sehr stark sein. Für lokale Coding-Arbeit auf einem Mac ist ein kleineres Modell, das schnell und stabil läuft, meist die produktivere Wahl.
Quellen und Methodik
- Nex AGI: Nex-N2-Pro Model Card
- Nex-N2-Pro: Dateigröße, Lizenz und bereitgestellte Runtime-Hinweise
- Nex AGI: Nex-N2 Repository
Stand der Angaben: 21. Juni 2026. Speicherwerte für Quantisierungen sind bewusst als Größenordnung formuliert, da eine fertige Quantisierung zusätzlich Metadaten, Laufzeit-Overhead und Kontextspeicher benötigt.