Self-Hosted LLM vs API Kosten: Break-Even-Analyse (2026)

Mon, 20 Apr 2026 14:00:00 +0200

Alle paar Monate stellt mir ein Klient dieselbe Frage. “Wir verbrennen 8k Dollar pro Monat bei Claude. Sollten wir Llama selbst hosten?” Die Antwort ist fast immer Nein, und der Grund hat nichts damit zu tun, ob das Modell gut genug ist. Er hat damit zu tun, was eine GPU im Leerlauf kostet, und wie viel Engineering-Zeit nötig ist, um einen Serving-Stack um 3 Uhr morgens gesund zu halten.

Diese Anleitung schlüsselt Self-Hosted LLM vs API Kosten mit realen Zahlen auf. Hetzner-GPU-Preise, RunPod- und Lambda-Stundensätze, Token-Preise für Claude Sonnet 4.6 und Haiku 4.5 sowie die Break-Even-Punkte, die tatsächlich zählen. Ziel ist es, Ihnen einen Entscheidungsrahmen zu geben, nicht einen Marketingpitch für eine der beiden Seiten.

Infrastructure on René Zander | KI-Automatisierungsberater

Self-Hosted LLM vs API Kosten: Break-Even-Analyse (2026)