Von CapEx zu OpEx: TCO und Stromkosten von GPU-Workloads on-prem vs. Cloud kalkulieren

17. November 2025 von Burg und Er Kategorie: IT & Sicherheit

speichercips auf grafikkarten platine.jpg

Die klassische Denkweise bröckelt

Früher war die Sache klar: Wer im B2B-Bereich ernsthaft rechnen wollte, setzte auf eigene Hardware. CapEx statt OpEx, einmal investieren und dann jahrelang nutzen. Diese Logik funktionierte bei Servern, die kontinuierlich ausgelastet waren. Bei GPU-Workloads wird es komplizierter. Ein ML-Team braucht vielleicht zwei Wochen lang massive Rechenpower für das Training eines neuen Modells, danach liegt die Hardware weitgehend brach. Genau hier beginnt die interessante Rechnung.

Die Total Cost of Ownership-Betrachtung zwingt zum ehrlichen Blick auf alle Kostenpunkte. Nicht nur die Anschaffung zählt, sondern auch Strom, Kühlung, Wartung, Ausfallrisiken und der Wertverlust der Hardware. Ein Rechenbeispiel macht das deutlich: Ein DGX-System mit acht A100-GPUs kostet in der Anschaffung gut 150.000 Euro. Klingt nach viel, aber über fünf Jahre gerechnet sind das 2.500 Euro pro Monat – ohne Strom und Infrastruktur. Eine vergleichbare Cloud-Instanz schlägt mit 20-30 Euro pro GPU-Stunde zu Buche. Bei dauerhafter Nutzung entstehen schnell 15.000 Euro monatlich, bei sporadischer Nutzung vielleicht nur 3.000 Euro.

Stromkosten: Der unterschätzte Faktor

GPUs sind Energiefresser. Eine NVIDIA A100 zieht unter Volllast etwa 400 Watt, eine H100 sogar 700 Watt. Dazu kommen noch CPU, RAM, Storage und vor allem die Kühlung. Als Faustregel rechnet man mit dem 1,5- bis 2-fachen des reinen Server-Stromverbrauchs, wenn man die Klimatisierung einbezieht. Bei acht H100-GPUs plus Server-Infrastruktur landet man schnell bei 7-8 kW Gesamtleistung.

Mit einem Gewerbestrompreis von 25 Cent pro kWh ergeben sich bei Dauerbetrieb rund 1.500 Euro Stromkosten pro Monat – nur für ein einzelnes System. Über fünf Jahre sind das 90.000 Euro, also mehr als die Hälfte des ursprünglichen Kaufpreises. Diese Rechnung verschärft sich, je ineffizienter das Rechenzentrum arbeitet. Ein PUE-Wert (Power Usage Effectiveness) von 2,0 bedeutet, dass für jedes Watt IT-Leistung noch ein Watt für Kühlung draufgeht.

On-Prem: Mehr als nur Hardware kaufen

Wer eigene GPU-Server betreiben will, muss mehr als nur die Hardware kalkulieren. GPU Server von Experten zu beziehen, löst zwar die Beschaffungsfrage, aber im eigenen Rack entstehen weitere Herausforderungen. Die Stromversorgung muss ausreichend dimensioniert sein – acht GPU-Nodes können schnell 60-70 kW ziehen. Viele Bürogebäude haben schlicht nicht die nötige Infrastruktur.

Dann kommt die Kühlung. Passive Luftkühlung reicht bei modernen GPUs oft nicht mehr aus, Flüssigkeitskühlung wird zum Thema. Das bedeutet zusätzliche Investitionen in Kühlinfrastruktur und Fachwissen. Wer das erste Mal eine Kühlmittelleck-Warnung um drei Uhr morgens bekommt, versteht, warum diese Punkte bei der Total Cost of Ownership-Berechnung nicht vergessen werden sollten.

Ein weiterer Punkt: Skalierbarkeit. Mit eigener Hardware kauft man sich auch in eine bestimmte Kapazität ein. Zu viel gekauft bedeutet ungenutzte Ressourcen, zu wenig führt zu Engpässen. Die Planungsunsicherheit kostet entweder Geld oder Performance.

Cloud-Rechnung: Nicht nur die Instanzkosten

Cloud-Provider werben mit einfacher Skalierbarkeit und Pay-as-you-go. Das stimmt auch, aber die Rechnung hat Tücken. Netzwerkkosten werden gerne übersehen. Wer große Datenmengen für das ML-Training in die Cloud lädt, zahlt für Ingress meist nichts. Beim Egress sieht es anders aus – 10 TB Datenübertragung kosten bei AWS etwa 900 Euro. Wenn Modell-Checkpoints oder Ergebnisdaten regelmäßig heruntergeladen werden, summiert sich das.

Storage ist ein weiterer Posten. GPU-Instanzen brauchen schnellen Storage für Trainingsdaten. S3 ist günstig, aber zu langsam. EBS-Volumes mit ausreichend IOPS kosten schnell mehrere hundert Euro pro Monat pro System. Bei Spot-Instanzen lässt sich zwar Geld sparen, aber die können jederzeit beendet werden – mitten im Training. Das spart Kosten, erfordert aber robuste Checkpoint-Mechanismen.

Die größte Falle: gewohnte Nutzung. Teams nutzen Cloud-Ressourcen oft weniger sparsam als eigene Hardware. Eine VM bleibt übers Wochenende laufen, weil das Setup-Skript so lange dauert. Entwicklungs-GPUs bleiben aktiv, obwohl nur sporadisch genutzt. Ohne rigoroses Cloud-Kostenmanagement explodieren die Rechnungen.

Die ehrliche TCO-Kalkulation

Eine realistische TCO-Berechnung für GPU-Workloads berücksichtigt:

On-Prem:

Hardware-Anschaffung (GPUs, Server, Netzwerk)
Strom und Kühlung (über Lebensdauer)
Rack-Space oder Rechenzentrumskosten
Wartung und Support-Verträge
Personal für Betrieb und Administration
Ersatzteilvorhaltung
Wertverlust der Hardware

Cloud:

Instanzkosten (Compute)
Storage-Kosten
Netzwerk-Transfer (Egress)
Support-Verträge
Verwaltungsoverhead
Backup-Storage
Eventuell Reserved Instances oder Savings Plans

Ein mittelständisches Unternehmen mit Machine-Learning-Team rechnet beispielsweise so: Fünf Data Scientists brauchen durchschnittlich zwei GPU-Nodes mit je acht A100-GPUs. Das Training großer Modelle passiert etwa zehn Tage pro Monat intensiv, der Rest ist Entwicklung und kleinere Experimente.

On-Prem-Kosten über fünf Jahre:

Hardware: 300.000 Euro
Strom und Kühlung: 180.000 Euro
Rack-Space: 60.000 Euro (1.000 Euro/Monat)
Wartung: 45.000 Euro (15.000 Euro/Jahr)
Admin-Aufwand: 120.000 Euro (Teilzeit)
Summe: 705.000 Euro oder rund 11.750 Euro/Monat

Cloud-Kosten bei gleicher Auslastung:

GPU-Instanzen: 9.000 Euro/Monat (durchschnittlich)
Storage: 2.000 Euro/Monat
Netzwerk: 800 Euro/Monat
Support: 500 Euro/Monat
Summe über fünf Jahre: 738.000 Euro oder 12.300 Euro/Monat

Die Unterschiede sind marginal, die Entscheidung hängt von Nutzungsmustern ab.

Sicherheitsaspekte nicht vergessen

Bei aller Kostenrechnung: Datenschutz und IT-Sicherheit spielen eine Rolle, besonders bei sensiblen Daten. On-Prem bietet volle Kontrolle, bedeutet aber auch volle Verantwortung für IT-Sicherheit und Compliance. Cloud-Provider haben zwar zertifizierte Sicherheitsstandards, aber die Daten liegen außer Haus. Verschlüsselung, Zugriffskontrollen und Audit-Trails müssen in beiden Szenarien implementiert werden – mit unterschiedlichem Aufwand.

Die Hybrid-Strategie

Viele Unternehmen landen bei einer Mischform: Basis-Workload on-prem für konsistente Auslastung, Peak-Demand in der Cloud. Das erfordert portablen Code und flexible Workflows, aber kombiniert die Vorteile beider Welten. Container-Technologien wie Kubernetes machen solche Hybrid-Setups praktikabler.

Das funktioniert besonders gut, wenn die eigene Hardware die typische Grundlast abdeckt und Cloud-Bursting nur für temporäre Spitzen genutzt wird. Ein Unternehmen mit konstanter Auslastung von 60 Prozent betreibt die eigenen GPUs optimal und bucht für die restlichen 40 Prozent bei Bedarf Cloud-Kapazität zu.

Fazit: Rechnen lohnt sich

Die Entscheidung zwischen CapEx und OpEx bei GPU-Workloads ist keine Glaubensfrage. Es kommt auf Nutzungsmuster, Skalierungsanforderungen und versteckte Kosten an. Wer nur gelegentlich GPUs braucht, fährt mit Cloud günstiger. Bei kontinuierlicher Auslastung amortisiert sich eigene Hardware oft innerhalb von zwei Jahren.

Die Stromkosten werden dabei oft unterschätzt – sie können über die Nutzungsdauer die Anschaffungskosten erreichen oder übertreffen. Eine ehrliche TCO-Rechnung berücksichtigt alle Faktoren und kommt manchmal zu überraschenden Ergebnissen. Pauschale Empfehlungen taugen wenig, die individuelle Kalkulation ist entscheidend. Und wer feststellt, dass beide Optionen ähnlich teuer sind, kann sich wenigstens auf andere Kriterien wie Flexibilität oder Kontrolle konzentrieren.

+ Multi-Zitat Zitieren

Von CapEx zu OpEx: TCO und Stromkosten von GPU-Workloads on-prem vs. Cloud kalkulieren