KI GPU Server kaufen oder mieten? Vergleich Wien 2026

Du willst KI produktiv in deinem Unternehmen einsetzen — aber welcher Weg ist der richtige? Cloud-API, gemietete GPU-Kapazität oder eigene Hardware? Alle drei Wege funktionieren. Welcher sich rechnet, hängt davon ab wie viel du nutzt, welche Daten du verarbeitest, und wie lange du planst.

Die drei Wege im Überblick

Cloud-API bedeutet: Du schickst Anfragen an OpenAI oder ähnliche Anbieter und zahlst pro Token. Keine eigene Infrastruktur, keine Einrichtungszeit. Dafür laufende Kosten ohne Ende und deine Daten auf US-Servern.

EU-Cloud-Miete bedeutet: Du mietest GPU-Kapazität bei einem europäischen Anbieter wie AWS EU oder Azure EU, betreibst dort dein eigenes Open-Source-Modell und bleibst damit DSGVO-konform. Mehr Kontrolle als die API, aber weiterhin Stundensätze.

Eigene Hardware bedeutet: Einmal kaufen, unbegrenzt nutzen. Daten verlassen das Firmennetzwerk nicht, keine laufenden Lizenzkosten, keine Preisüberraschungen.

Ein Hinweis vorab: Günstige GPU-Anbieter wie RunPod oder Vast.ai sind keine Option für Unternehmen mit sensiblen Daten. Ihre Server stehen in den USA, unterliegen US-Recht und erfüllen keine DSGVO-Anforderungen. Der relevante Vergleich für österreichische Unternehmen ist AWS EU oder Azure EU — und die kosten deutlich mehr.

Was aktuelle Cloud-APIs kosten

GPT-5.4 ist Stand April 2026 das aktive Flaggschiffmodell von OpenAI. Der Preis liegt bei $2,50 pro Million Input-Token und $15 pro Million Output-Token (Quelle: OpenRouter, April 2026). Bei realistischem Unternehmenseinsatz mit 30 Mitarbeitern entstehen schnell 3 bis 10 Millionen Token pro Tag:

Nutzung	Token/Tag	Kosten/Monat GPT-5.4
Leicht	1 Mio.	ca. €320
Mittel	5 Mio.	ca. €1.600
Intensiv	20 Mio.	ca. €6.400

(70% Input / 30% Output, Kurs 1,08 — Stand April 2026)

Das sind laufende Kosten ohne Gegenleistung. Nach drei Jahren hast du nichts in Händen außer Rechnungen.

Was DSGVO-konforme EU-Cloud-Miete kostet

Wer eigene Open-Source-Modelle DSGVO-konform betreiben will, braucht EU-gehostete Infrastruktur mit Data Processing Agreement. Die Realität:

Anbieter	H100 pro GPU/Std.	8x GPUs 24/7/Monat
AWS EU (on-demand)	~$3,90	ca. €21.500
Azure EU (on-demand)	~$12,29	ca. €65.000

(Quelle: intuitionlabs.ai, gpucost.org — Stand April 2026. Ohne Egress, Storage und Netzwerkgebühren, die laut Marktanalysen weitere 20-40% aufschlagen.)

Selbst bei reinem Bürobetrieb (8 Stunden täglich) kostet ein 8-GPU-Cluster bei AWS EU rund €7.200 pro Monat. Bei Azure EU sind es über €21.000 pro Monat — für dieselbe Rechenleistung.

Was eigene Hardware kostet — und was sie kann

Wir bauen GPU-Server auf Basis der NVIDIA RTX PRO 6000 Blackwell (96GB GDDR7 ECC, Blackwell-Architektur, ca. €10.000 pro Karte, Stand April 2026).

Kurz erklärt, was die Modell-Bezeichnungen bedeuten: Wenn wir schreiben "Q4", meinen wir 4-Bit-Quantisierung. Dabei werden die Modellgewichte von 16 Bit auf 4 Bit komprimiert, was den Speicherbedarf auf etwa ein Viertel reduziert. Der Qualitätsverlust ist bei modernen Modellen minimal — in der Praxis kaum messbar. "Q8" ist 8-Bit-Quantisierung, näher am Original, braucht aber doppelt so viel VRAM wie Q4.

Die meisten aktuellen Open-Source-Modelle sind sogenannte MoE-Modelle (Mixture of Experts). Das bedeutet: Trotz Milliarden von Gesamtparametern aktiviert das Modell pro Token nur einen kleinen Bruchteil davon. Ein Modell mit 230 Milliarden Parametern rechnet effektiv wie ein 10-Milliarden-Modell — mit SOTA-Qualität. Das ist entscheidend für die Hardware-Planung: Mehrere GPUs können die Experten untereinander aufteilen, ohne nennenswerten Geschwindigkeitsverlust über PCIe. Kein NVLink nötig.

Konfiguration	VRAM gesamt	Setup-Kosten	Strom/Monat	Lauffähige Modelle
1x RTX PRO 6000	96 GB	ab ~€15.000	~€55	gpt-oss-120b (Q4, 63GB), Qwen3.5-35B
2x RTX PRO 6000	192 GB	ab ~€28.000	~€110	MiniMax-M2.5 (Q4, 140GB), Step-3.5-Flash, Qwen3.5-122B (Q8)
4x RTX PRO 6000	384 GB	ab ~€52.000	~€220	Qwen3.5-397B (Q4, 242GB), MiniMax-M2.5 (Q8)
8x RTX PRO 6000	768 GB	ab ~€95.000	~€580	Kimi K2.5 (Q4, 621GB), GLM-5 (Q4, 457GB), DeepSeek V3.2 (Q4, 404GB)

(Stromkosten auf Basis 22 ct/kWh Gewerbe, 70% Last — Quelle: E-Control Österreich, März 2026)

Ein konkretes Beispiel: MiniMax-M2.5 auf 2 bis 3 RTX PRO 6000 Blackwell erreicht über 100 Token pro Sekunde bei Single-Inference. Das ist schneller als jede Cloud-API unter realen Bedingungen — inklusive Netzwerklatenz und Serverlast.

RTX PRO 6000 Blackwell vs. H100: Was für Inference wirklich zählt

Ein weit verbreitetes Missverständnis: Der H100 gilt als das GPU-Schwergewicht für KI, also muss er auch für Inference die bessere Wahl sein. Das stimmt für Training, aber nicht für Inference.

Der H100 hat seinen Vorteil beim Training großer Modelle, weil er NVLink unterstützt — eine Hochgeschwindigkeitsverbindung zwischen mehreren GPUs mit bis zu 900 GB/s Bandbreite. Das ist entscheidend wenn Gradienten über viele Karten synchronisiert werden müssen.

Für Inference gilt ein anderes Bild. Die RTX PRO 6000 Blackwell bringt 96GB VRAM gegenüber 80GB beim H100 — mehr Platz für größere Modelle und längere Kontextfenster. Dazu kommt die neuere Blackwell-Architektur mit 5th-Gen Tensor Cores und FP4-Unterstützung, die gegenüber dem H100 einen erheblichen Vorsprung bei modernen Modellen liefert.

Das entscheidende Argument: Nahezu alle aktuellen SOTA-Open-Source-Modelle — Kimi K2.5, GLM-5, MiniMax-M2.5, DeepSeek V3.2, Qwen3.5 — sind MoE-Architekturen. Bei MoE-Inference werden die Experten auf mehrere GPUs verteilt. Da nur ein kleiner Bruchteil der Experten pro Token aktiviert wird, entsteht kein nennenswerter Overhead über PCIe. NVLink bringt hier keinen Vorteil. Drei RTX PRO 6000 Blackwell für ~€30.000 liefern mehr VRAM, modernere Architektur und höheren Inference-Durchsatz als ein einzelner H100 für ~€30.000 — und das zu einem Drittel des Preises pro Karte.

Wann sich der Kauf rechnet

Verglichen mit DSGVO-konformer EU-Cloud (AWS EU, Bürobetrieb 8h/Tag):

Setup	Einmalkosten	Break-Even vs. AWS EU	Break-Even vs. Azure EU
2x GPU (192GB)	~€28.000	~7 Monate	~2 Monate
4x GPU (384GB)	~€52.000	~9 Monate	~3 Monate
8x GPU (768GB)	~€95.000	~13 Monate	~4 Monate

Nach dem Break-Even zahlst du nur noch den Strom. Bei einem 8-GPU-System sind das ~€580 pro Monat statt zehntausenden Euro Cloud-Rechnung.

Verglichen mit Cloud-API (GPT-5.4, mittlere bis intensive Nutzung):

Monatliche API-Kosten	Break-Even 2x Setup (~€28.000)
€320	nicht sinnvoll
€1.600	~18 Monate
€6.400	~4 Monate

Was die Rechnung nicht zeigt

DSGVO. Jeder API-Call zu OpenAI geht auf US-Server. Für österreichische Unternehmen, die Kundendaten, Verträge, Personalakten oder medizinische Daten verarbeiten, ist das eine Haftungsfrage. Eigene Hardware löst das strukturell: Daten verlassen das Firmennetzwerk nicht.

Geschwindigkeit. Cloud-APIs antworten unter realen Bedingungen in 500ms bis mehreren Sekunden. Ein lokaler Server mit MiniMax-M2.5 auf drei RTX PRO 6000 Blackwell liefert über 100 Token pro Sekunde — schneller als jede gemietete Instanz, weil keine Netzwerklatenz und keine geteilten Ressourcen dazwischenkommen.

Keine Preisüberraschungen. OpenAI hat GPT-5.4 Pro auf $30/M Input und $180/M Output angesetzt. Wer intensive Workloads fährt, merkt das sofort in der Rechnung. Mit eigener Hardware passiert das nicht.

Wann Mieten trotzdem sinnvoll ist

Wer ein einmaliges Projekt über 4 bis 8 Wochen hat, fährt mit Cloud günstiger. Wer gerade evaluiert ob KI zu den eigenen Prozessen passt, sollte mit einer API starten — und zu uns kommen, wenn die Anforderungen klar sind. Und wer unter 500.000 Token pro Tag verbraucht, zieht keinen klaren wirtschaftlichen Vorteil aus eigener Hardware.

Nächster Schritt

Wir bauen, liefern und installieren GPU-Server in Wien — vom Einzelserver bis zum 8-GPU-Enterprise-System. Vom Erstgespräch bis zur Lieferung dauert es typischerweise 2 bis 6 Wochen. Nutze unseren Konfigurator für eine erste Schätzung, oder schreib uns direkt: office@inhausi.at. Das Erstgespräch ist kostenlos.

KI GPU Server kaufen oder mieten? Was sich für Wiener Unternehmen rechnet