Lokale KI Kosten: Ehrliche Kalkulation 2026

Wie viel gibt dein Unternehmen gerade für KI-APIs aus? Die meisten haben keine genaue Zahl parat. Und genau da liegt das Problem.

Cloud-KI fühlt sich billig an, weil der Einstieg niedrig ist. Kein Setup, kein Server, einfach API-Key rein und loslegen. Aber bei wachsender Nutzung kommen die Rechnungen. Und irgendwann fragt jemand: Wäre das on-premise nicht günstiger gewesen?

Wir machen diese Kalkulation seit Jahren für unsere Kunden. Hier sind die echten Zahlen.

Die zwei Kostenmodelle im Vergleich

Cloud-KI kostet pro Token. Jede Anfrage, jede Antwort, jeder Prompt wird gemessen und abgerechnet. Lokale KI kostet einmal bei der Anschaffung viel, danach kaum noch etwas.

Welches Modell besser ist, hängt von einem einzigen Faktor ab: deinem Nutzungsvolumen.

Was Cloud-KI wirklich kostet

Nehmen wir GPT-4o als Beispiel, weil es das meistgenutzte API-Modell für Business-Anwendungen ist.

Stand April 2026 zahlt man bei OpenAI $2,50 pro Million Input-Tokens und $10 pro Million Output-Tokens. Das klingt wenig. Rechnen wir es durch.

Beispielunternehmen: 15 Mitarbeiter, jeder macht 150 KI-Anfragen pro Arbeitstag. Jede Anfrage hat ca. 2.000 Input-Tokens (Kontext, System-Prompt, Frage) und 800 Output-Tokens (Antwort).

Posten	Tageswert	Monatswert (22 Arbeitstage)
Input-Tokens	15 × 150 × 2.000 = 4,5M	99M Tokens
Output-Tokens	15 × 150 × 800 = 1,8M	39,6M Tokens
Input-Kosten	$11,25	$247,50
Output-Kosten	$18,00	$396,00
Gesamt	$29,25	ca. $644

Das sind knapp $7.700 pro Jahr, also grob €7.200 (Stand April 2026, Kurs ca. 0,93). Und das bei moderater Nutzung. Wer automatisierte Prozesse dazurechnet, Pipeline-Verarbeitung, Dokument-Analyse, RAG-Systeme mit langen Kontexten, kommt schnell auf das Doppelte oder Dreifache.

Bei intensiver Nutzung, z.B. einem KI-gestützten Kundensupport der rund um die Uhr läuft, sind €20.000 bis €60.000 pro Jahr für eine Cloud-API keine Ausnahme, sondern Normalfall.

Was lokale KI wirklich kostet

Lokale KI hat drei echte Kostenpositionen: Hardware, Strom und Einrichtung. Sonst nichts.

Hardware

Für ein erstes produktives Setup reicht oft ein einzelner GPU-Server. Was du brauchst, hängt vom Modell ab, das du betreiben willst.

Setup	GPU	VRAM	Hardware-Kosten ca.	Geeignete Modelle
Starter	1× RTX 5090	32 GB	€4.500	bis 32B (Q4)
Business	2× RTX 6000 Ada	2× 48 GB	€22.000	bis 70B (Q8)
Pro	4× RTX 6000 Ada	4× 48 GB	€42.000	bis 235B MoE

Die Hardware-Kosten sind einmalig. Kein Abo, kein per-Token, kein Vendor Lock-in.

Strom

Ein GPU-Server mit einer RTX 6000 Ada zieht unter Last ca. 350 Watt (GPU + Board + Kühlung). Bei Dauerbetrieb und österreichischem Gewerbestrompreis von ca. 27 Cent/kWh (Stand Februar 2026) ergibt das:

0,35 kW × 8.760 h × €0,27 = ca. €827 pro Jahr

Das ist bei einem 2-GPU-Setup etwa €1.650 pro Jahr. Für die meisten Unternehmen ist das ein vernachlässigbarer Posten.

Einrichtung und Wartung

Setup, Modell-Installation, Feinabstimmung, laufende Updates: Das sind echte Kosten. Bei inhausi.at ist das in der Hardware inbegriffen. Wer das selbst macht, rechnet 2 bis 5 Manntage für die Ersteinrichtung, je nach Komplexität.

Für Wartung, Modell-Upgrades und Support kalkulieren unsere Kunden im Schnitt €2.000 bis €5.000 pro Jahr, abhängig vom Service-Level.

Der Break-Even-Rechner

Jetzt wird es konkret. Ab wann lohnt sich die eigene Hardware?

Szenario A: Kleines Team, moderates Volumen (wie oben)

Cloud-API: ca. €7.200/Jahr Lokales Setup (2× RTX 5090, €8.000 Hardware + €1.500 Setup + €800 Strom): ca. €10.300 im ersten Jahr

Ergebnis: Break-Even nach 17 Monaten. Ab Monat 18 sparst du netto.

Szenario B: Mittleres Unternehmen, hohes Volumen

Cloud-API: ca. €28.000/Jahr (intensiver Einsatz, mehrere Abteilungen) Lokales Setup (2× RTX 6000 Ada, ca. €20.000 Hardware + €3.000 Setup + €1.650 Strom): ca. €24.650 im ersten Jahr

Ergebnis: Break-Even schon im ersten Jahr. Ab Jahr 2 kostet der Betrieb nur noch Strom und Wartung.

Was in der Cloud-Kalkulation oft fehlt

Die Token-Preise sind nicht das ganze Bild. Wer mit Cloud-APIs arbeitet, hat oft noch folgende Posten, die in der Anfangsphase ignoriert werden.

Erstens: Rate Limits. Enterprise-Kontingente kosten extra. Wer unter Last arbeitet und schnelle Antworten braucht, zahlt für Priority Processing.

Zweitens: Datenschutz-Overhead. Jedes Unternehmen, das personenbezogene Daten oder Geschäftsgeheimnisse über eine Cloud-API schickt, braucht einen AV-Vertrag, eine Datenschutzfolgeabschätzung und rechtliche Absicherung. Das kostet Anwalts- und Beratungszeit.

Drittens: Preisänderungsrisiko. OpenAI hat die API-Preise mehrfach verändert. Lokale Infrastruktur hat keine variablen Kosten.

Was lokale KI nicht günstiger macht

Ehrlichkeit zuerst: Lokale KI ist nicht für jeden die bessere Wahl.

Wer drei Mitarbeiter hat, die gelegentlich Texte zusammenfassen, fährt mit ChatGPT Plus günstiger. Das ist 20 Dollar pro Monat, kein Server, kein Aufwand.

Lokale KI rechnet sich ab dem Punkt, wo du mehr als ca. 500.000 Tokens pro Tag generierst, wo du mit sensiblen Daten arbeitest, oder wo du Modelle brauchst, die speziell auf deine Branche und Sprache trainiert sind.

Fine-Tuning: Der unsichtbare Kostenvorteil

Wer auf eigener Hardware arbeitet, kann das Modell auf seine eigenen Daten trainieren. Das ist ein Punkt der in Cloud-Kalkulationen fast nie auftaucht.

Ein on-premise trainiertes Modell kennt deine Fachsprache, deine Prozesse, deine Dokumente. Das bedeutet kürzere Prompts, weniger Tokens, schnellere Antworten, und höhere Qualität. Wer Cloud-Modelle auf Firmen-Wissen fein-tunen will, zahlt für Compute-Zeit extra, und die Daten gehen dabei zum Anbieter.

Eine Beispielkalkulation für ein Wiener KMU

Zur Veranschaulichung: Ein mittelgroßes Wiener Unternehmen mit 30 Mitarbeitern, das KI für Kundensupport, Dokumentenanalyse und interne Wissensabfragen einsetzt.

Kostenposition	Cloud-API (3 Jahre)	Lokale KI (3 Jahre)
Hardware	0	€18.000 (einmalig)
Laufende API-Kosten	€54.000	0
Strom (3 Jahre)	0	€4.950
Setup/Wartung	€1.500	€9.000
Datenschutz/Compliance	€3.000	inklusive
Gesamt	€58.500	€31.950

Ergebnis: Die lokale KI ist über drei Jahre um ca. €26.000 günstiger. Dazu kommt: Die Hardware gehört dem Unternehmen, läuft weiter, und kann für neue Modelle genutzt werden, die in drei Jahren noch leistungsfähiger sind als alles was heute in der Cloud verfügbar ist.

Was du als nächsten Schritt tun solltest

Bevor du irgendwas kaufst oder budgetierst, rechne deinen aktuellen Token-Verbrauch durch. Viele Unternehmen kennen ihre API-Kosten nicht genau genug, um eine fundierte Entscheidung zu treffen.

Wenn du weißt, wie viele Anfragen du pro Tag machst und wie viel du dafür zahlst, ist der Rest Mathematik.

Wir helfen dir, diese Kalkulation konkret zu machen. Kein Pauschal-Pitch, keine vorgefertigte Antwort. Nur deine Zahlen gegen unsere Hardware-Preise.

Möchtest du wissen, ab wann sich lokale KI für dein Unternehmen konkret rechnet? Schreib uns kurz, was du aktuell einsetzt und wie intensiv ihr es nutzt. Wir schicken dir eine individuelle Kalkulation zurück.

Kontaktiere uns kostenlos: office@inhausi.at

Oder berechne deine Hardware direkt mit unserem Konfigurator.

Alle Preisangaben Stand April 2026. API-Preise können sich jederzeit ändern. Hardware-Preise auf Anfrage.

Was kostet lokale KI wirklich? Eine ehrliche Kalkulation