Modelle & Konfigurator

Welches Modell passt zu dir?

Alle Modelle die wir lokal deployen. Wähle ein Modell, konfiguriere deine Hardware und berechne die Kosten.

DeepSeek V3.2

moe

DeepSeek AI · 685B (37B aktiv)

Layers

Context

128K

404.0GB

715.0GB

Konfigurator: DeepSeek V3.2

DeepSeek V3.2 baut auf der 671B-MoE-Architektur von V3 auf und fügt DeepSeek Sparse Attention (DSA) hinzu, die die Rechenkosten langer Kontexte drastisch reduziert. Das Modell unterstützt einen hybriden Modus (Thinking + Non-Thinking) und erzielt durch ein skaliertes RL-Post-Training mit über 10 % des Pre-Training-Budgets Leistung auf GPT-5-Niveau. Die Speciale-Variante erreicht Gold-Medaille-Niveau bei IMO und IOI 2025. MMMU-Pro nicht anwendbar (Text-only), Wert entspricht MMLU-Pro 85 %.

Empfohlen für Coding-Workflows, komplexe Reasoning-Aufgaben und agentic Tool-Use – kosteneffizientestes Frontier-Modell mit offenem Gewicht.

KV Heads

Head Dim

128

KV/Token

31 KB

Lizenz: MIT

Sprachen: EN, ZH, Multilingual

Release: Feb. 2026

HuggingFace ↗

Coding Reasoning Agentic Tasks Long Context Math

Konfigurieren

Hardware

Quantisierung

Kontext pro User

Gleichzeitige Nutzer

Ergebnis

Modell-Weights

—

KV-Cache

—

VRAM Total

—

Hardware

—

Speed

—

Geschätzte Kosten

—

Angebot anfragen →

GLM-5

moe

Z.ai (Zhipu AI) · 744B (40B aktiv)

Layers

Context

198K

457.0GB

801.0GB

Konfigurator: GLM-5

GLM-5 skaliert von 355B (GLM-4.5) auf 744B Gesamtparameter mit 40B aktiven Parametern und integriert DeepSeek Sparse Attention (DSA) für effizientes Long-Context-Handling bei bis zu 202K Tokens. Das Modell wurde vollständig auf 100.000 Huawei Ascend Chips mit dem MindSpore-Framework trainiert und nutzt ein neuartiges asynchrones RL-Framework namens 'Slime'. Es erreicht 77.8% auf SWE-bench Verified und ist damit das führende Open-Weight-Modell für Software-Engineering-Aufgaben.

Empfohlen für komplexe Software-Engineering-Aufgaben und Long-Horizon-Agentic-Workflows mit Open-Weight-Anforderungen.

KV Heads

Head Dim

KV/Token

1248 KB

Lizenz: MIT

Sprachen: EN, ZH

Release: Feb. 2026

HuggingFace ↗

Agentic Engineering Coding Software Engineering Reasoning

Konfigurieren

Hardware

Quantisierung

Kontext pro User

Gleichzeitige Nutzer

Ergebnis

Modell-Weights

—

KV-Cache

—

VRAM Total

—

Hardware

—

Speed

—

Geschätzte Kosten

—

Angebot anfragen →

gpt-oss-120b

moe

OpenAI · 117B (5.1B aktiv)

Layers

Context

128K

63.0GB

Konfigurator: gpt-oss-120b

gpt-oss-120b ist ein autoregessives MoE-Transformer mit 36 Schichten, alternierenden Sliding-Window- und Full-Attention-Mustern sowie Grouped Query Attention (64Q/8KV). Die MoE-FFN-Gewichte (>90% aller Parameter) werden nativ in MXFP4 gespeichert – daher unterscheiden sich Q4_K_M und Q8_0 kaum in der Dateigröße. Das Modell wurde mit RL auf Basis von o3 und anderen OpenAI-Frontiermodellen trainiert und bietet verstellbare Reasoning-Tiefe sowie vollständige CoT-Ausgabe. Nur Textinput (kein Vision).

Empfohlen für starke Reasoning- und Coding-Aufgaben auf einer einzelnen H100 (80 GB); verstellbare Reasoning-Tiefe (low/medium/high).

KV Heads

Head Dim

KV/Token

72 KB

Lizenz: Apache-2.0

Sprachen: EN (primär), +multilingual begrenzt

Release: Aug. 2025

HuggingFace ↗

Reasoning Coding Agents Tool Use STEM

Konfigurieren

Hardware

Quantisierung

Kontext pro User

Gleichzeitige Nutzer

Ergebnis

Modell-Weights

—

KV-Cache

—

VRAM Total

—

Hardware

—

Speed

—

Geschätzte Kosten

—

Angebot anfragen →

gpt-oss-20b

moe

OpenAI · 21B (3.6B aktiv)

Layers

Context

128K

12.0GB

Konfigurator: gpt-oss-20b

gpt-oss-20b teilt dieselbe Architektur wie das 120b-Modell (Sliding-Window + Full-Attention, GQA 64Q/8KV, MXFP4 MoE-FFN), hat aber nur 24 Schichten und 32 statt 128 Experten. Trotz der kleinen Größe übertrifft es o3-mini auf AIME 2024/2025 und HealthBench. Drittanbieter-Evaluierungen zeigen, dass es 120b auf HumanEval und MMLU schlägt. Text-only, keine Bildverarbeitung.

Empfohlen für On-Device-Inferenz und Consumer-Hardware (16 GB); rivalisiert mit o3-mini bei Mathe und Health; übertrifft 120b auf HumanEval.

KV Heads

Head Dim

KV/Token

48 KB

Lizenz: Apache-2.0

Sprachen: EN (primär), +multilingual begrenzt

Release: Aug. 2025

HuggingFace ↗

Reasoning Coding Agents Edge Deployment STEM

Konfigurieren

Hardware

Quantisierung

Kontext pro User

Gleichzeitige Nutzer

Ergebnis

Modell-Weights

—

KV-Cache

—

VRAM Total

—

Hardware

—

Speed

—

Geschätzte Kosten

—

Angebot anfragen →

Kimi K2.5

moe

Moonshot AI · 1T (32B aktiv)

Layers

Context

256K

621.0GB

1090.0GB

Konfigurator: Kimi K2.5

Kimi K2.5 ist Moonshot AIs Open-Source-Flaggschiff mit 1 Billion Gesamtparametern und nur 32 Milliarden aktiven Parametern pro Token dank eines ultra-sparse MoE mit 384 Experten (top-8 Routing). Multi-Head Latent Attention (MLA) komprimiert den KV-Cache auf rund ein Zehntel des Standardumfangs und ermöglicht so den 256K-Kontextfenster. Der native Vision-Encoder MoonViT (400M Parameter) verarbeitet Bilder und Videos direkt im gemeinsamen Token-Raum. Die Thinking- und Instant-Modi sowie die Agent-Swarm-Funktion (Parallel Agent Reinforcement Learning) machen das Modell sowohl für interaktive als auch vollautomatisierte Multi-Agenten-Pipelines geeignet.

Empfohlen für agentic Workflows mit Agent Swarm (bis zu 100 Sub-Agenten), Coding mit Bild-/Videoinput sowie anspruchsvolle mathematische und wissenschaftliche Reasoning-Aufgaben.

KV Heads

Head Dim

128

KV/Token

31 KB

Lizenz: Modified MIT

Sprachen: EN, ZH, Multilingual

Release: Jän. 2026

HuggingFace ↗

Coding Vision Agentic Tasks Reasoning Multimodal

Konfigurieren

Hardware

Quantisierung

Kontext pro User

Gleichzeitige Nutzer

Ergebnis

Modell-Weights

—

KV-Cache

—

VRAM Total

—

Hardware

—

Speed

—

Geschätzte Kosten

—

Angebot anfragen →

MiMo-V2-Flash

moe

Xiaomi · 309B (15B aktiv)

Layers

Context

256K

187.0GB

328.0GB

Konfigurator: MiMo-V2-Flash

MiMo-V2-Flash kombiniert 309B Gesamtparameter mit nur 15B aktiven Parametern durch 256 Fine-Grained MoE-Experten. Die 5:1-Hybrid-SWA-Architektur mit 128-Token-Fenster reduziert den KV-Cache um ca. 6× gegenüber Full-Attention-Modellen. Trainiert auf 27 Billionen Tokens mit FP8-Präzision und nativem MTP (Multi-Token Prediction), erreicht es bis zu 120+ tok/s API-Durchsatz. Die Post-Training-Pipeline nutzt Multi-Teacher On-Policy Distillation (MOPD) und Large-Scale Agentic RL für Frontier-Reasoning bei bestem Preis-Leistungs-Verhältnis.

Empfohlen für schnelle Reasoning- und Coding-Workflows mit sehr geringen API-Kosten ($0.10/$0.30 per 1M) – ideal für latenzempfindliche Agentic-Systeme.

KV Heads

Head Dim

128

KV/Token

192 KB

Lizenz: MIT

Sprachen: EN, ZH, +multilingual

Release: Dez. 2025

HuggingFace ↗

Coding Agentic AI Reasoning Math Long Context

Konfigurieren

Hardware

Quantisierung

Kontext pro User

Gleichzeitige Nutzer

Ergebnis

Modell-Weights

—

KV-Cache

—

VRAM Total

—

Hardware

—

Speed

—

Geschätzte Kosten

—

Angebot anfragen →

MiniMax-M2.5

moe

MiniMax · 230B (10B aktiv)

Layers

Context

200K

140.0GB

243.0GB

Konfigurator: MiniMax-M2.5

MiniMax-M2.5 ist das bisher leistungsfähigste Modell der M2-Serie und wurde intensiv mit Reinforcement Learning in über 200.000 realen Umgebungen trainiert. Es erzielt 80,2 % auf SWE-Bench Verified und konkurriert damit mit führenden proprietären Modellen. Das MoE-Design mit 256 Experten (8 aktiv) und Lightning Attention ermöglicht 100 Tokens/s zu einem Bruchteil der Kosten vergleichbarer Modelle. Die Gewichte sind vollständig Open-Source und für lokales Deployment mit vLLM oder SGLang optimiert.

Empfohlen für komplexe Coding-Agenten, SWE-Bench-nahe Aufgaben und autonome Office-Workflows – mit exzellentem Preis-Leistungs-Verhältnis.

KV Heads

Head Dim

128

KV/Token

248 KB

Lizenz: Modified-MIT

Sprachen: EN, ZH, DE, FR, +multilingual

Release: Feb. 2026

HuggingFace ↗

Coding Agentic AI Tool Use Office Automation Search

Konfigurieren

Hardware

Quantisierung

Kontext pro User

Gleichzeitige Nutzer

Ergebnis

Modell-Weights

—

KV-Cache

—

VRAM Total

—

Hardware

—

Speed

—

Geschätzte Kosten

—

Angebot anfragen →

Nemotron 3 Nano 30B-A3B

moe

NVIDIA · 30B (3.5B aktiv)

Layers

Context

1024K

24.0GB

36.0GB

Konfigurator: Nemotron 3 Nano 30B-A3B

Nemotron 3 Nano nutzt eine Hybrid-Architektur aus Mamba-2 State-Space-Modellen, Mixture-of-Experts FFN-Schichten und klassischen GQA-Attention-Layern im Verhältnis 23:23:6. Nur die 6 Attention-Layer bauen einen KV-Cache auf, weshalb die effektive Cache-Größe viel kleiner ist als die Formel suggeriert – damit wird der 1M-Token-Kontext praktisch handhabbar. Das granulare MoE aktiviert 6 aus 128 Experten (+1 shared expert) pro Token. Trainiert mit 25T Tokens; post-trainiert mit GRPO und RLHF; bietet konfigurierbares Reasoning-Budget. Nicht Apache-2.0: NVIDIA Nemotron Open Model License (kommerziell nutzbar, aber mit Einschränkungen). Kein Multimodal-Support.

Empfohlen für Edge-Deployment und Single-GPU Szenarien mit langen Kontexten (bis 1M Token); 3.3x höherer Durchsatz als Qwen3-30B bei gleicher oder besserer Genauigkeit. Reasoning-Modus ein/ausschaltbar.

KV Heads

Head Dim

128

KV/Token

52 KB

Lizenz: NVIDIA Nemotron Open Model License

Sprachen: EN, DE, ES, FR, IT, JA

Release: Dez. 2025

HuggingFace ↗

Reasoning Agents Tool Use Coding Long Context STEM

Konfigurieren

Hardware

Quantisierung

Kontext pro User

Gleichzeitige Nutzer

Ergebnis

Modell-Weights

—

KV-Cache

—

VRAM Total

—

Hardware

—

Speed

—

Geschätzte Kosten

—

Angebot anfragen →

Nemotron 3 Super 120B-A12B

moe

NVIDIA · 120B (12B aktiv)

Layers

Context

1024K

66.0GB

67.0GB

Konfigurator: Nemotron 3 Super 120B-A12B

Nemotron 3 Super führt LatentMoE ein: Tokens werden in einen kleineren latenten Raum projiziert, bevor 22 aus 512 Experten aktiviert werden – das entspricht 4x mehr Experten bei gleichem Rechenaufwand wie ein Standard-MoE. Zusätzlich nutzt das Modell Multi-Token Prediction (MTP)-Heads als integrierten Speculative-Decoder (~97% Akzeptanzrate für 2 Draft-Tokens). Als erstes Nemotron-Modell wird es nativ in NVFP4 vortrainiert (nicht nur post-quantisiert), was die BF16-Qualität bei 1/4 der Gewichtsgröße erhält. Die Hybrid-Architektur (Mehrheit Mamba-2 + selektive Attention-Layer) macht 1M-Token-Kontext praktikabel. Nicht Apache-2.0: NVIDIA Nemotron Open Model License. Kein Multimodal-Support.

Empfohlen für komplexe Multi-Agent-Systeme und Agentic-Coding-Tasks (SWE-bench 60.5%). Benötigt 8×H100 im BF16-Modus; läuft als NVFP4 auf einer B200 (192 GB) oder DGX Spark. 2.2x schneller als gpt-oss-120b.

KV Heads

Head Dim

128

KV/Token

88 KB

Lizenz: NVIDIA Nemotron Open Model License

Sprachen: EN, FR, DE, IT, JA, ES, ZH

Release: März 2026

HuggingFace ↗

Agentic Workflows SWE Long Context Reasoning Coding Multi-Agent IT Automation

Konfigurieren

Hardware

Quantisierung

Kontext pro User

Gleichzeitige Nutzer

Ergebnis

Modell-Weights

—

KV-Cache

—

VRAM Total

—

Hardware

—

Speed

—

Geschätzte Kosten

—

Angebot anfragen →

Qwen3.5-122B-A10B

moe

Alibaba / Qwen · 122B (10B aktiv)

Layers

Context

256K

75.0GB

130.0GB

Konfigurator: Qwen3.5-122B-A10B

Qwen3.5-122B-A10B nutzt 48 Hybrid-Schichten (Gated DeltaNet + MoE) mit 256 Experten und 8+1 aktiven Experten je Token. Es führt die mittlere Modellreihe bei BrowseComp (63.8), Terminal-Bench 2 (49.4) und BFCL-V4 (72.2) an. Native Vision-Integration erlaubt Text-, Bild- und Videoverarbeitung.

Empfohlen für produktive Multi-GPU-Deployments, insbesondere für agentic Workflows und Function Calling (BFCL-V4: 72.2).

KV Heads

Head Dim

256

KV/Token

96 KB

Lizenz: Apache-2.0

Sprachen: EN, ZH, DE, +198

Release: Feb. 2026

HuggingFace ↗

Agents Tool Use Coding Reasoning Vision

Konfigurieren

Hardware

Quantisierung

Kontext pro User

Gleichzeitige Nutzer

Ergebnis

Modell-Weights

—

KV-Cache

—

VRAM Total

—

Hardware

—

Speed

—

Geschätzte Kosten

—

Angebot anfragen →

Qwen3.5-27B

dense

Alibaba / Qwen · 27B (27B aktiv)

Layers

Context

256K

17.0GB

30.0GB

Konfigurator: Qwen3.5-27B

Qwen3.5-27B ist das einzige Dense-Modell der mittleren Serie und aktiviert alle 27B Parameter je Forward Pass. Mit 64 Hybrid-Layern (Gated DeltaNet + FFN, 3:1) erzielt es 72.4 auf SWE-bench Verified – auf Augenhöhe mit GPT-5 mini. Das Modell unterstützt 201 Sprachen, native Vision-Eingabe und 262K Kontext.

Empfohlen für Single-GPU-Nutzer (24 GB VRAM) die maximale Reasoning-Dichte und SWE-bench-Stärke bei 27B Parametern suchen.

KV Heads

Head Dim

256

KV/Token

256 KB

Lizenz: Apache-2.0

Sprachen: EN, ZH, DE, +198

Release: Feb. 2026

HuggingFace ↗

Coding Reasoning Chat Vision Long Context

Konfigurieren

Hardware

Quantisierung

Kontext pro User

Gleichzeitige Nutzer

Ergebnis

Modell-Weights

—

KV-Cache

—

VRAM Total

—

Hardware

—

Speed

—

Geschätzte Kosten

—

Angebot anfragen →

Qwen3.5-35B-A3B

moe

Alibaba / Qwen · 35B (3B aktiv)

Layers

Context

256K

22.0GB

37.0GB

Konfigurator: Qwen3.5-35B-A3B

Qwen3.5-35B-A3B aktiviert mit 3B Parametern nur 8.6% der Gesamtkapazität je Token und übertrifft dennoch das frühere 235B-Flagship-Modell auf mehreren Benchmarks. Die 40-Schichten-Hybrid-Architektur (Gated DeltaNet + MoE, 256 Experten) ermöglicht sehr hohen Durchsatz bei minimaler Latenz. Läuft nativ auf Mac M-Chips mit 22 GB unified Memory.

Empfohlen für schnelle Inferenz auf Consumer-Hardware (ab 8 GB VRAM) mit frontier-naher Qualität dank MoE-Effizienz.

KV Heads

Head Dim

256

KV/Token

80 KB

Lizenz: Apache-2.0

Sprachen: EN, ZH, DE, +198

Release: Feb. 2026

HuggingFace ↗

Coding Chat Agents Reasoning Vision

Konfigurieren

Hardware

Quantisierung

Kontext pro User

Gleichzeitige Nutzer

Ergebnis

Modell-Weights

—

KV-Cache

—

VRAM Total

—

Hardware

—

Speed

—

Geschätzte Kosten

—

Angebot anfragen →

Qwen3.5-397B-A17B

moe

Alibaba / Qwen · 397B (17B aktiv)

Layers

Context

256K

242.0GB

428.0GB

Konfigurator: Qwen3.5-397B-A17B

Qwen3.5-397B-A17B kombiniert Gated Delta Networks mit Sparse MoE und aktiviert pro Token nur 17B der 397B Gesamtparameter. Das Modell unterstützt nativ Text, Bild und Video durch Early-Fusion-Training. Mit 512 Experten, 10+1 aktivierten und 262K nativem Kontextfenster (erweiterbar auf 1M via YaRN) ist es für agentic Workflows mit Denk- und Nicht-Denk-Modus optimiert.

Empfohlen für frontier-nahe Reasoning- und Coding-Aufgaben mit Multi-Modal-Anforderungen auf Mehrmehrfach-GPU-Hardware.

KV Heads

Head Dim

256

KV/Token

120 KB

Lizenz: Apache-2.0

Sprachen: EN, ZH, DE, +198

Release: Feb. 2026

HuggingFace ↗

Reasoning Coding Vision Agents Multimodal

Konfigurieren

Hardware

Quantisierung

Kontext pro User

Gleichzeitige Nutzer

Ergebnis

Modell-Weights

—

KV-Cache

—

VRAM Total

—

Hardware

—

Speed

—

Geschätzte Kosten

—

Angebot anfragen →

Step-3.5-Flash

moe

StepFun · 196B (11B aktiv)

Layers

Context

256K

120.0GB

209.0GB

Konfigurator: Step-3.5-Flash

Step-3.5-Flash ist StepFuns stärkstes Open-Source-Modell und kombiniert 196B Gesamtparameter mit nur 11B aktiven Parametern durch 288 Fine-Grained MoE-Experten. Die 3:1 SWA/Full-Attention-Hybridarchitektur und MTP-3 (Multi-Token Prediction) ermöglichen 100–350 tok/s Durchsatz – schneller als die meisten proprietären Frontiermodelle. Mit 97.3% auf AIME 2025 und 86.4% auf LiveCodeBench-V6 liefert es SOTA-Mathematik- und Codingleistung bei Apache-2.0-Lizenz.

Empfohlen für Hochgeschwindigkeits-Agentic-Workflows, Coding-Agenten und kosteneffiziente Reasoning-Tasks mit exzellenter AIME/IMO-Leistung.

KV Heads

Head Dim

128

KV/Token

180 KB

Lizenz: Apache-2.0

Sprachen: EN, ZH, +multilingual

Release: Feb. 2026

HuggingFace ↗

Coding Agentic AI Reasoning Tool Use Long Context

Konfigurieren

Hardware

Quantisierung

Kontext pro User

Gleichzeitige Nutzer

Ergebnis

Modell-Weights

—

KV-Cache

—

VRAM Total

—

Hardware

—

Speed

—

Geschätzte Kosten

—

Angebot anfragen →

Benchmarks

Modellvergleich

Alle Werte von offiziellen Model Cards und Technical Reports.

Overall (Durchschnitt)

Qwen3.5-397B-A17B

72.3

Kimi K2.5

70.9

Qwen3.5-122B-A10B

69.7

DeepSeek V3.2

68.9

Qwen3.5-27B

68.4

Step-3.5-Flash

68.0

Qwen3.5-35B-A3B

65.9

MiniMax-M2.5

63.8

Nemotron 3 Super 120B-A12B

62.5

MiMo-V2-Flash

62.2

gpt-oss-120b

60.4

GLM-5

59.0

gpt-oss-20b

53.5

Nemotron 3 Nano 30B-A3B

53.4

GPQA-Diamond

Qwen3.5-397B-A17B

88.4

Kimi K2.5

87.6

Qwen3.5-122B-A10B

86.6

DeepSeek V3.2

82.4

Qwen3.5-27B

85.5

Step-3.5-Flash

83.1

Qwen3.5-35B-A3B

84.2

MiniMax-M2.5

85.2

Nemotron 3 Super 120B-A12B

79.2

MiMo-V2-Flash

83.7

gpt-oss-120b

80.1

GLM-5

86.0

gpt-oss-20b

71.5

Nemotron 3 Nano 30B-A3B

73.0

SWE-Bench

Qwen3.5-397B-A17B

76.4

Kimi K2.5

76.8

Qwen3.5-122B-A10B

72.0

DeepSeek V3.2

73.1

Qwen3.5-27B

72.4

Step-3.5-Flash

74.4

Qwen3.5-35B-A3B

69.2

MiniMax-M2.5

80.2

Nemotron 3 Super 120B-A12B

60.5

MiMo-V2-Flash

73.4

gpt-oss-120b

62.0

GLM-5

77.8

gpt-oss-20b

54.2

Nemotron 3 Nano 30B-A3B

38.8

HumanEval

Qwen3.5-397B-A17B

97.1

Kimi K2.5

99.0

Qwen3.5-122B-A10B

96.3

DeepSeek V3.2

93.0

Qwen3.5-27B

96.0

Step-3.5-Flash

81.1

Qwen3.5-35B-A3B

95.2

MiniMax-M2.5

92.0

Nemotron 3 Super 120B-A12B

88.3

MiMo-V2-Flash

80.6

gpt-oss-120b

90.2

GLM-5

97.0

gpt-oss-20b

93.1

Nemotron 3 Nano 30B-A3B

82.4

MATH

Qwen3.5-397B-A17B

97.8

Kimi K2.5

82.0

Qwen3.5-122B-A10B

96.5

DeepSeek V3.2

97.0

Qwen3.5-27B

96.2

Step-3.5-Flash

97.0

Qwen3.5-35B-A3B

95.8

MiniMax-M2.5

78.0

Nemotron 3 Super 120B-A12B

96.5

MiMo-V2-Flash

92.0

gpt-oss-120b

97.6

GLM-5

97.4

gpt-oss-20b

97.8

Nemotron 3 Nano 30B-A3B

95.2

MMMU-Pro

Qwen3.5-397B-A17B

79.0

Kimi K2.5

78.5

Qwen3.5-122B-A10B

76.9

DeepSeek V3.2

85.0

Qwen3.5-27B

75.0

Step-3.5-Flash

83.3

Qwen3.5-35B-A3B

75.1

MiniMax-M2.5

52.0

Nemotron 3 Super 120B-A12B

62.8

MiMo-V2-Flash

84.9

gpt-oss-120b

58.7

GLM-5

0.0

gpt-oss-20b

47.6

Nemotron 3 Nano 30B-A3B

52.1

LiveCodeBench

Qwen3.5-397B-A17B

83.6

Kimi K2.5

85.0

Qwen3.5-122B-A10B

78.9

DeepSeek V3.2

83.3

Qwen3.5-27B

80.7

Step-3.5-Flash

86.4

Qwen3.5-35B-A3B

74.6

MiniMax-M2.5

65.0

Nemotron 3 Super 120B-A12B

78.7

MiMo-V2-Flash

80.6

gpt-oss-120b

82.7

GLM-5

52.0

gpt-oss-20b

68.3

Nemotron 3 Nano 30B-A3B

68.3

IFBench

Qwen3.5-397B-A17B

76.5

Kimi K2.5

70.2

Qwen3.5-122B-A10B

76.1

DeepSeek V3.2

65.0

Qwen3.5-27B

76.5

Step-3.5-Flash

64.6

Qwen3.5-35B-A3B

70.2

MiniMax-M2.5

70.0

Nemotron 3 Super 120B-A12B

72.6

MiMo-V2-Flash

39.9

gpt-oss-120b

69.0

GLM-5

46.5

gpt-oss-20b

61.4

Nemotron 3 Nano 30B-A3B

71.5

HLE

Qwen3.5-397B-A17B

28.7

Kimi K2.5

30.1

Qwen3.5-122B-A10B

25.3

DeepSeek V3.2

25.1

Qwen3.5-27B

24.3

Step-3.5-Flash

19.1

Qwen3.5-35B-A3B

22.4

MiniMax-M2.5

19.4

Nemotron 3 Super 120B-A12B

18.3

MiMo-V2-Flash

22.1

gpt-oss-120b

14.9

GLM-5

30.5

gpt-oss-20b

9.2

Nemotron 3 Nano 30B-A3B

10.6

SciCode

Qwen3.5-397B-A17B

43.2

Kimi K2.5

48.7

Qwen3.5-122B-A10B

38.7

DeepSeek V3.2

38.9

Qwen3.5-27B

35.4

Step-3.5-Flash

40.4

Qwen3.5-35B-A3B

32.1

MiniMax-M2.5

44.4

Nemotron 3 Super 120B-A12B

42.0

MiMo-V2-Flash

25.9

gpt-oss-120b

29.8

GLM-5

46.2

gpt-oss-20b

22.4

Nemotron 3 Nano 30B-A3B

33.3

Terminal-Bench

Qwen3.5-397B-A17B

52.5

Kimi K2.5

50.8

Qwen3.5-122B-A10B

49.4

DeepSeek V3.2

46.4

Qwen3.5-27B

41.6

Step-3.5-Flash

51.0

Qwen3.5-35B-A3B

40.5

MiniMax-M2.5

51.7

Nemotron 3 Super 120B-A12B

25.8

MiMo-V2-Flash

38.5

gpt-oss-120b

18.7

GLM-5

56.2

gpt-oss-20b

9.8

Nemotron 3 Nano 30B-A3B

8.5

Dein Modell ist nicht dabei? Kontaktiere uns. Wir deployen jedes Open-Source Modell.