Modelle & Konfigurator
Alle Modelle die wir lokal deployen. Wähle ein Modell, konfiguriere deine Hardware und berechne die Kosten.
DeepSeek AI · 685B (37B aktiv)
Layers
61
Context
128K
Q4
404.0GB
Q8
715.0GB
Konfigurator: DeepSeek V3.2
DeepSeek V3.2 baut auf der 671B-MoE-Architektur von V3 auf und fügt DeepSeek Sparse Attention (DSA) hinzu, die die Rechenkosten langer Kontexte drastisch reduziert. Das Modell unterstützt einen hybriden Modus (Thinking + Non-Thinking) und erzielt durch ein skaliertes RL-Post-Training mit über 10 % des Pre-Training-Budgets Leistung auf GPT-5-Niveau. Die Speciale-Variante erreicht Gold-Medaille-Niveau bei IMO und IOI 2025. MMMU-Pro nicht anwendbar (Text-only), Wert entspricht MMLU-Pro 85 %.
Empfohlen für Coding-Workflows, komplexe Reasoning-Aufgaben und agentic Tool-Use – kosteneffizientestes Frontier-Modell mit offenem Gewicht.
KV Heads
1
Head Dim
128
KV/Token
31 KB
Konfigurieren
Ergebnis
Modell-Weights
—
KV-Cache
—
—
VRAM Total
—
Hardware
—
Speed
—
Geschätzte Kosten
—
Z.ai (Zhipu AI) · 744B (40B aktiv)
Layers
78
Context
198K
Q4
457.0GB
Q8
801.0GB
Konfigurator: GLM-5
GLM-5 skaliert von 355B (GLM-4.5) auf 744B Gesamtparameter mit 40B aktiven Parametern und integriert DeepSeek Sparse Attention (DSA) für effizientes Long-Context-Handling bei bis zu 202K Tokens. Das Modell wurde vollständig auf 100.000 Huawei Ascend Chips mit dem MindSpore-Framework trainiert und nutzt ein neuartiges asynchrones RL-Framework namens 'Slime'. Es erreicht 77.8% auf SWE-bench Verified und ist damit das führende Open-Weight-Modell für Software-Engineering-Aufgaben.
Empfohlen für komplexe Software-Engineering-Aufgaben und Long-Horizon-Agentic-Workflows mit Open-Weight-Anforderungen.
KV Heads
64
Head Dim
64
KV/Token
1248 KB
Konfigurieren
Ergebnis
Modell-Weights
—
KV-Cache
—
—
VRAM Total
—
Hardware
—
Speed
—
Geschätzte Kosten
—
OpenAI · 117B (5.1B aktiv)
Layers
36
Context
128K
Q4
63.0GB
Q8
63.0GB
Konfigurator: gpt-oss-120b
gpt-oss-120b ist ein autoregessives MoE-Transformer mit 36 Schichten, alternierenden Sliding-Window- und Full-Attention-Mustern sowie Grouped Query Attention (64Q/8KV). Die MoE-FFN-Gewichte (>90% aller Parameter) werden nativ in MXFP4 gespeichert – daher unterscheiden sich Q4_K_M und Q8_0 kaum in der Dateigröße. Das Modell wurde mit RL auf Basis von o3 und anderen OpenAI-Frontiermodellen trainiert und bietet verstellbare Reasoning-Tiefe sowie vollständige CoT-Ausgabe. Nur Textinput (kein Vision).
Empfohlen für starke Reasoning- und Coding-Aufgaben auf einer einzelnen H100 (80 GB); verstellbare Reasoning-Tiefe (low/medium/high).
KV Heads
8
Head Dim
64
KV/Token
72 KB
Lizenz: Apache-2.0
Sprachen: EN (primär), +multilingual begrenzt
Release: Aug. 2025
HuggingFace ↗Konfigurieren
Ergebnis
Modell-Weights
—
KV-Cache
—
—
VRAM Total
—
Hardware
—
Speed
—
Geschätzte Kosten
—
OpenAI · 21B (3.6B aktiv)
Layers
24
Context
128K
Q4
12.0GB
Q8
12.0GB
Konfigurator: gpt-oss-20b
gpt-oss-20b teilt dieselbe Architektur wie das 120b-Modell (Sliding-Window + Full-Attention, GQA 64Q/8KV, MXFP4 MoE-FFN), hat aber nur 24 Schichten und 32 statt 128 Experten. Trotz der kleinen Größe übertrifft es o3-mini auf AIME 2024/2025 und HealthBench. Drittanbieter-Evaluierungen zeigen, dass es 120b auf HumanEval und MMLU schlägt. Text-only, keine Bildverarbeitung.
Empfohlen für On-Device-Inferenz und Consumer-Hardware (16 GB); rivalisiert mit o3-mini bei Mathe und Health; übertrifft 120b auf HumanEval.
KV Heads
8
Head Dim
64
KV/Token
48 KB
Lizenz: Apache-2.0
Sprachen: EN (primär), +multilingual begrenzt
Release: Aug. 2025
HuggingFace ↗Konfigurieren
Ergebnis
Modell-Weights
—
KV-Cache
—
—
VRAM Total
—
Hardware
—
Speed
—
Geschätzte Kosten
—
Moonshot AI · 1T (32B aktiv)
Layers
61
Context
256K
Q4
621.0GB
Q8
1090.0GB
Konfigurator: Kimi K2.5
Kimi K2.5 ist Moonshot AIs Open-Source-Flaggschiff mit 1 Billion Gesamtparametern und nur 32 Milliarden aktiven Parametern pro Token dank eines ultra-sparse MoE mit 384 Experten (top-8 Routing). Multi-Head Latent Attention (MLA) komprimiert den KV-Cache auf rund ein Zehntel des Standardumfangs und ermöglicht so den 256K-Kontextfenster. Der native Vision-Encoder MoonViT (400M Parameter) verarbeitet Bilder und Videos direkt im gemeinsamen Token-Raum. Die Thinking- und Instant-Modi sowie die Agent-Swarm-Funktion (Parallel Agent Reinforcement Learning) machen das Modell sowohl für interaktive als auch vollautomatisierte Multi-Agenten-Pipelines geeignet.
Empfohlen für agentic Workflows mit Agent Swarm (bis zu 100 Sub-Agenten), Coding mit Bild-/Videoinput sowie anspruchsvolle mathematische und wissenschaftliche Reasoning-Aufgaben.
KV Heads
1
Head Dim
128
KV/Token
31 KB
Konfigurieren
Ergebnis
Modell-Weights
—
KV-Cache
—
—
VRAM Total
—
Hardware
—
Speed
—
Geschätzte Kosten
—
Xiaomi · 309B (15B aktiv)
Layers
48
Context
256K
Q4
187.0GB
Q8
328.0GB
Konfigurator: MiMo-V2-Flash
MiMo-V2-Flash kombiniert 309B Gesamtparameter mit nur 15B aktiven Parametern durch 256 Fine-Grained MoE-Experten. Die 5:1-Hybrid-SWA-Architektur mit 128-Token-Fenster reduziert den KV-Cache um ca. 6× gegenüber Full-Attention-Modellen. Trainiert auf 27 Billionen Tokens mit FP8-Präzision und nativem MTP (Multi-Token Prediction), erreicht es bis zu 120+ tok/s API-Durchsatz. Die Post-Training-Pipeline nutzt Multi-Teacher On-Policy Distillation (MOPD) und Large-Scale Agentic RL für Frontier-Reasoning bei bestem Preis-Leistungs-Verhältnis.
Empfohlen für schnelle Reasoning- und Coding-Workflows mit sehr geringen API-Kosten ($0.10/$0.30 per 1M) – ideal für latenzempfindliche Agentic-Systeme.
KV Heads
8
Head Dim
128
KV/Token
192 KB
Konfigurieren
Ergebnis
Modell-Weights
—
KV-Cache
—
—
VRAM Total
—
Hardware
—
Speed
—
Geschätzte Kosten
—
MiniMax · 230B (10B aktiv)
Layers
62
Context
200K
Q4
140.0GB
Q8
243.0GB
Konfigurator: MiniMax-M2.5
MiniMax-M2.5 ist das bisher leistungsfähigste Modell der M2-Serie und wurde intensiv mit Reinforcement Learning in über 200.000 realen Umgebungen trainiert. Es erzielt 80,2 % auf SWE-Bench Verified und konkurriert damit mit führenden proprietären Modellen. Das MoE-Design mit 256 Experten (8 aktiv) und Lightning Attention ermöglicht 100 Tokens/s zu einem Bruchteil der Kosten vergleichbarer Modelle. Die Gewichte sind vollständig Open-Source und für lokales Deployment mit vLLM oder SGLang optimiert.
Empfohlen für komplexe Coding-Agenten, SWE-Bench-nahe Aufgaben und autonome Office-Workflows – mit exzellentem Preis-Leistungs-Verhältnis.
KV Heads
8
Head Dim
128
KV/Token
248 KB
Konfigurieren
Ergebnis
Modell-Weights
—
KV-Cache
—
—
VRAM Total
—
Hardware
—
Speed
—
Geschätzte Kosten
—
NVIDIA · 30B (3.5B aktiv)
Layers
52
Context
1024K
Q4
24.0GB
Q8
36.0GB
Konfigurator: Nemotron 3 Nano 30B-A3B
Nemotron 3 Nano nutzt eine Hybrid-Architektur aus Mamba-2 State-Space-Modellen, Mixture-of-Experts FFN-Schichten und klassischen GQA-Attention-Layern im Verhältnis 23:23:6. Nur die 6 Attention-Layer bauen einen KV-Cache auf, weshalb die effektive Cache-Größe viel kleiner ist als die Formel suggeriert – damit wird der 1M-Token-Kontext praktisch handhabbar. Das granulare MoE aktiviert 6 aus 128 Experten (+1 shared expert) pro Token. Trainiert mit 25T Tokens; post-trainiert mit GRPO und RLHF; bietet konfigurierbares Reasoning-Budget. Nicht Apache-2.0: NVIDIA Nemotron Open Model License (kommerziell nutzbar, aber mit Einschränkungen). Kein Multimodal-Support.
Empfohlen für Edge-Deployment und Single-GPU Szenarien mit langen Kontexten (bis 1M Token); 3.3x höherer Durchsatz als Qwen3-30B bei gleicher oder besserer Genauigkeit. Reasoning-Modus ein/ausschaltbar.
KV Heads
2
Head Dim
128
KV/Token
52 KB
Lizenz: NVIDIA Nemotron Open Model License
Sprachen: EN, DE, ES, FR, IT, JA
Release: Dez. 2025
HuggingFace ↗Konfigurieren
Ergebnis
Modell-Weights
—
KV-Cache
—
—
VRAM Total
—
Hardware
—
Speed
—
Geschätzte Kosten
—
NVIDIA · 120B (12B aktiv)
Layers
88
Context
1024K
Q4
66.0GB
Q8
67.0GB
Konfigurator: Nemotron 3 Super 120B-A12B
Nemotron 3 Super führt LatentMoE ein: Tokens werden in einen kleineren latenten Raum projiziert, bevor 22 aus 512 Experten aktiviert werden – das entspricht 4x mehr Experten bei gleichem Rechenaufwand wie ein Standard-MoE. Zusätzlich nutzt das Modell Multi-Token Prediction (MTP)-Heads als integrierten Speculative-Decoder (~97% Akzeptanzrate für 2 Draft-Tokens). Als erstes Nemotron-Modell wird es nativ in NVFP4 vortrainiert (nicht nur post-quantisiert), was die BF16-Qualität bei 1/4 der Gewichtsgröße erhält. Die Hybrid-Architektur (Mehrheit Mamba-2 + selektive Attention-Layer) macht 1M-Token-Kontext praktikabel. Nicht Apache-2.0: NVIDIA Nemotron Open Model License. Kein Multimodal-Support.
Empfohlen für komplexe Multi-Agent-Systeme und Agentic-Coding-Tasks (SWE-bench 60.5%). Benötigt 8×H100 im BF16-Modus; läuft als NVFP4 auf einer B200 (192 GB) oder DGX Spark. 2.2x schneller als gpt-oss-120b.
KV Heads
2
Head Dim
128
KV/Token
88 KB
Lizenz: NVIDIA Nemotron Open Model License
Sprachen: EN, FR, DE, IT, JA, ES, ZH
Release: März 2026
HuggingFace ↗Konfigurieren
Ergebnis
Modell-Weights
—
KV-Cache
—
—
VRAM Total
—
Hardware
—
Speed
—
Geschätzte Kosten
—
Alibaba / Qwen · 122B (10B aktiv)
Layers
48
Context
256K
Q4
75.0GB
Q8
130.0GB
Konfigurator: Qwen3.5-122B-A10B
Qwen3.5-122B-A10B nutzt 48 Hybrid-Schichten (Gated DeltaNet + MoE) mit 256 Experten und 8+1 aktiven Experten je Token. Es führt die mittlere Modellreihe bei BrowseComp (63.8), Terminal-Bench 2 (49.4) und BFCL-V4 (72.2) an. Native Vision-Integration erlaubt Text-, Bild- und Videoverarbeitung.
Empfohlen für produktive Multi-GPU-Deployments, insbesondere für agentic Workflows und Function Calling (BFCL-V4: 72.2).
KV Heads
2
Head Dim
256
KV/Token
96 KB
Konfigurieren
Ergebnis
Modell-Weights
—
KV-Cache
—
—
VRAM Total
—
Hardware
—
Speed
—
Geschätzte Kosten
—
Alibaba / Qwen · 27B (27B aktiv)
Layers
64
Context
256K
Q4
17.0GB
Q8
30.0GB
Konfigurator: Qwen3.5-27B
Qwen3.5-27B ist das einzige Dense-Modell der mittleren Serie und aktiviert alle 27B Parameter je Forward Pass. Mit 64 Hybrid-Layern (Gated DeltaNet + FFN, 3:1) erzielt es 72.4 auf SWE-bench Verified – auf Augenhöhe mit GPT-5 mini. Das Modell unterstützt 201 Sprachen, native Vision-Eingabe und 262K Kontext.
Empfohlen für Single-GPU-Nutzer (24 GB VRAM) die maximale Reasoning-Dichte und SWE-bench-Stärke bei 27B Parametern suchen.
KV Heads
4
Head Dim
256
KV/Token
256 KB
Konfigurieren
Ergebnis
Modell-Weights
—
KV-Cache
—
—
VRAM Total
—
Hardware
—
Speed
—
Geschätzte Kosten
—
Alibaba / Qwen · 35B (3B aktiv)
Layers
40
Context
256K
Q4
22.0GB
Q8
37.0GB
Konfigurator: Qwen3.5-35B-A3B
Qwen3.5-35B-A3B aktiviert mit 3B Parametern nur 8.6% der Gesamtkapazität je Token und übertrifft dennoch das frühere 235B-Flagship-Modell auf mehreren Benchmarks. Die 40-Schichten-Hybrid-Architektur (Gated DeltaNet + MoE, 256 Experten) ermöglicht sehr hohen Durchsatz bei minimaler Latenz. Läuft nativ auf Mac M-Chips mit 22 GB unified Memory.
Empfohlen für schnelle Inferenz auf Consumer-Hardware (ab 8 GB VRAM) mit frontier-naher Qualität dank MoE-Effizienz.
KV Heads
2
Head Dim
256
KV/Token
80 KB
Konfigurieren
Ergebnis
Modell-Weights
—
KV-Cache
—
—
VRAM Total
—
Hardware
—
Speed
—
Geschätzte Kosten
—
Alibaba / Qwen · 397B (17B aktiv)
Layers
60
Context
256K
Q4
242.0GB
Q8
428.0GB
Konfigurator: Qwen3.5-397B-A17B
Qwen3.5-397B-A17B kombiniert Gated Delta Networks mit Sparse MoE und aktiviert pro Token nur 17B der 397B Gesamtparameter. Das Modell unterstützt nativ Text, Bild und Video durch Early-Fusion-Training. Mit 512 Experten, 10+1 aktivierten und 262K nativem Kontextfenster (erweiterbar auf 1M via YaRN) ist es für agentic Workflows mit Denk- und Nicht-Denk-Modus optimiert.
Empfohlen für frontier-nahe Reasoning- und Coding-Aufgaben mit Multi-Modal-Anforderungen auf Mehrmehrfach-GPU-Hardware.
KV Heads
2
Head Dim
256
KV/Token
120 KB
Konfigurieren
Ergebnis
Modell-Weights
—
KV-Cache
—
—
VRAM Total
—
Hardware
—
Speed
—
Geschätzte Kosten
—
StepFun · 196B (11B aktiv)
Layers
45
Context
256K
Q4
120.0GB
Q8
209.0GB
Konfigurator: Step-3.5-Flash
Step-3.5-Flash ist StepFuns stärkstes Open-Source-Modell und kombiniert 196B Gesamtparameter mit nur 11B aktiven Parametern durch 288 Fine-Grained MoE-Experten. Die 3:1 SWA/Full-Attention-Hybridarchitektur und MTP-3 (Multi-Token Prediction) ermöglichen 100–350 tok/s Durchsatz – schneller als die meisten proprietären Frontiermodelle. Mit 97.3% auf AIME 2025 und 86.4% auf LiveCodeBench-V6 liefert es SOTA-Mathematik- und Codingleistung bei Apache-2.0-Lizenz.
Empfohlen für Hochgeschwindigkeits-Agentic-Workflows, Coding-Agenten und kosteneffiziente Reasoning-Tasks mit exzellenter AIME/IMO-Leistung.
KV Heads
8
Head Dim
128
KV/Token
180 KB
Konfigurieren
Ergebnis
Modell-Weights
—
KV-Cache
—
—
VRAM Total
—
Hardware
—
Speed
—
Geschätzte Kosten
—
Benchmarks
Alle Werte von offiziellen Model Cards und Technical Reports.
Overall (Durchschnitt)
Qwen3.5-397B-A17B
72.3
Kimi K2.5
70.9
Qwen3.5-122B-A10B
69.7
DeepSeek V3.2
68.9
Qwen3.5-27B
68.4
Step-3.5-Flash
68.0
Qwen3.5-35B-A3B
65.9
MiniMax-M2.5
63.8
Nemotron 3 Super 120B-A12B
62.5
MiMo-V2-Flash
62.2
gpt-oss-120b
60.4
GLM-5
59.0
gpt-oss-20b
53.5
Nemotron 3 Nano 30B-A3B
53.4
GPQA-Diamond
Qwen3.5-397B-A17B
88.4
Kimi K2.5
87.6
Qwen3.5-122B-A10B
86.6
DeepSeek V3.2
82.4
Qwen3.5-27B
85.5
Step-3.5-Flash
83.1
Qwen3.5-35B-A3B
84.2
MiniMax-M2.5
85.2
Nemotron 3 Super 120B-A12B
79.2
MiMo-V2-Flash
83.7
gpt-oss-120b
80.1
GLM-5
86.0
gpt-oss-20b
71.5
Nemotron 3 Nano 30B-A3B
73.0
SWE-Bench
Qwen3.5-397B-A17B
76.4
Kimi K2.5
76.8
Qwen3.5-122B-A10B
72.0
DeepSeek V3.2
73.1
Qwen3.5-27B
72.4
Step-3.5-Flash
74.4
Qwen3.5-35B-A3B
69.2
MiniMax-M2.5
80.2
Nemotron 3 Super 120B-A12B
60.5
MiMo-V2-Flash
73.4
gpt-oss-120b
62.0
GLM-5
77.8
gpt-oss-20b
54.2
Nemotron 3 Nano 30B-A3B
38.8
HumanEval
Qwen3.5-397B-A17B
97.1
Kimi K2.5
99.0
Qwen3.5-122B-A10B
96.3
DeepSeek V3.2
93.0
Qwen3.5-27B
96.0
Step-3.5-Flash
81.1
Qwen3.5-35B-A3B
95.2
MiniMax-M2.5
92.0
Nemotron 3 Super 120B-A12B
88.3
MiMo-V2-Flash
80.6
gpt-oss-120b
90.2
GLM-5
97.0
gpt-oss-20b
93.1
Nemotron 3 Nano 30B-A3B
82.4
MATH
Qwen3.5-397B-A17B
97.8
Kimi K2.5
82.0
Qwen3.5-122B-A10B
96.5
DeepSeek V3.2
97.0
Qwen3.5-27B
96.2
Step-3.5-Flash
97.0
Qwen3.5-35B-A3B
95.8
MiniMax-M2.5
78.0
Nemotron 3 Super 120B-A12B
96.5
MiMo-V2-Flash
92.0
gpt-oss-120b
97.6
GLM-5
97.4
gpt-oss-20b
97.8
Nemotron 3 Nano 30B-A3B
95.2
MMMU-Pro
Qwen3.5-397B-A17B
79.0
Kimi K2.5
78.5
Qwen3.5-122B-A10B
76.9
DeepSeek V3.2
85.0
Qwen3.5-27B
75.0
Step-3.5-Flash
83.3
Qwen3.5-35B-A3B
75.1
MiniMax-M2.5
52.0
Nemotron 3 Super 120B-A12B
62.8
MiMo-V2-Flash
84.9
gpt-oss-120b
58.7
GLM-5
0.0
gpt-oss-20b
47.6
Nemotron 3 Nano 30B-A3B
52.1
LiveCodeBench
Qwen3.5-397B-A17B
83.6
Kimi K2.5
85.0
Qwen3.5-122B-A10B
78.9
DeepSeek V3.2
83.3
Qwen3.5-27B
80.7
Step-3.5-Flash
86.4
Qwen3.5-35B-A3B
74.6
MiniMax-M2.5
65.0
Nemotron 3 Super 120B-A12B
78.7
MiMo-V2-Flash
80.6
gpt-oss-120b
82.7
GLM-5
52.0
gpt-oss-20b
68.3
Nemotron 3 Nano 30B-A3B
68.3
IFBench
Qwen3.5-397B-A17B
76.5
Kimi K2.5
70.2
Qwen3.5-122B-A10B
76.1
DeepSeek V3.2
65.0
Qwen3.5-27B
76.5
Step-3.5-Flash
64.6
Qwen3.5-35B-A3B
70.2
MiniMax-M2.5
70.0
Nemotron 3 Super 120B-A12B
72.6
MiMo-V2-Flash
39.9
gpt-oss-120b
69.0
GLM-5
46.5
gpt-oss-20b
61.4
Nemotron 3 Nano 30B-A3B
71.5
HLE
Qwen3.5-397B-A17B
28.7
Kimi K2.5
30.1
Qwen3.5-122B-A10B
25.3
DeepSeek V3.2
25.1
Qwen3.5-27B
24.3
Step-3.5-Flash
19.1
Qwen3.5-35B-A3B
22.4
MiniMax-M2.5
19.4
Nemotron 3 Super 120B-A12B
18.3
MiMo-V2-Flash
22.1
gpt-oss-120b
14.9
GLM-5
30.5
gpt-oss-20b
9.2
Nemotron 3 Nano 30B-A3B
10.6
SciCode
Qwen3.5-397B-A17B
43.2
Kimi K2.5
48.7
Qwen3.5-122B-A10B
38.7
DeepSeek V3.2
38.9
Qwen3.5-27B
35.4
Step-3.5-Flash
40.4
Qwen3.5-35B-A3B
32.1
MiniMax-M2.5
44.4
Nemotron 3 Super 120B-A12B
42.0
MiMo-V2-Flash
25.9
gpt-oss-120b
29.8
GLM-5
46.2
gpt-oss-20b
22.4
Nemotron 3 Nano 30B-A3B
33.3
Terminal-Bench
Qwen3.5-397B-A17B
52.5
Kimi K2.5
50.8
Qwen3.5-122B-A10B
49.4
DeepSeek V3.2
46.4
Qwen3.5-27B
41.6
Step-3.5-Flash
51.0
Qwen3.5-35B-A3B
40.5
MiniMax-M2.5
51.7
Nemotron 3 Super 120B-A12B
25.8
MiMo-V2-Flash
38.5
gpt-oss-120b
18.7
GLM-5
56.2
gpt-oss-20b
9.8
Nemotron 3 Nano 30B-A3B
8.5
Dein Modell ist nicht dabei? Kontaktiere uns. Wir deployen jedes Open-Source Modell.