Self-Hosted LLM vs. API Break-Even-Rechner Self-Hosted LLM vs API Break-Even Calculator

Monatliche Tokens eingeben. Sofort sehen, wann Claude/OpenAI-API, self-hosted vLLM oder ein Hybrid-Muster tatsächlich am günstigsten ist — mit Batch-Rabatt, Prompt-Cache und realer GPU-Auslastung. Enter your monthly tokens. See instantly when Claude/OpenAI API, self-hosted vLLM, or a hybrid pattern is actually cheapest — with batch discount, prompt cache, and real GPU utilization factored in.

Methodik und vollständiger Kostenaufriss: Self-Hosted LLM vs. API: Break-Even-Analyse Methodology and full cost teardown: Self-Hosted LLM vs API Cost: Break-Even Analysis

API-Pricing ist einfach: Sie zahlen für Tokens. Self-Hosting ist nicht einfach: Sie zahlen für eine GPU, für Auslastung, für Engineering-Zeit und für den operativen Schwanz. Dieser Rechner modelliert alle vier Kosten gegen Ihr reales Volumen, sodass der Schnittpunkt dort auftaucht, wo er tatsächlich liegt — nicht dort, wo ein Vendor-Blog ihn vermutet.

Methodik und vollständiger Kostenaufriss: Self-Hosted LLM vs. API: Break-Even-Analyse. Verwandt: LLM-API-Kostenvergleich, Self-Hosted LLM auf Kubernetes.

Ihr WorkloadYour workload

VolumenVolume

50M
Log-Skala: 100K bis 10B Tokens pro Monat.Log scale: 100K to 10B tokens per month.
10M
Output dominiert die Kosten bei den meisten APIs (5x Input).Output dominates cost on most APIs (5x input).

ModellklasseModel class

Wählt API-Pricing und passendes OSS-Modell + GPU.Picks API pricing and matched OSS model + GPU.

API-HebelAPI levers

30%
Workload, der 24h warten kann (Reports, Evals, Backfills). 50% Rabatt.Workload that can wait 24h (overnight reports, evals, backfills). 50% off.
40%
Anteil Input-Tokens aus Cache (90% billiger).Share of input tokens served from cache (90% cheaper).

Self-HostedSelf-hosted

60%
Realistisch: 40-70%. Unter 30% lohnt Self-Hosting selten.Realistic: 40-70%. Below 30% self-hosting rarely makes sense.
6h
vLLM-Tuning, Monitoring, Incidents. Bei 130 EUR/h geladen.vLLM tuning, monitoring, incidents. At 130 EUR/h loaded.

Monatliche KostenMonthly cost

Hinweis: Self-hosted unterstellt vLLM auf Spot-GPU-Preisen mit Continuous Batching. Kosten enthalten GPU-Miete + Ops-Zeit bei 130 EUR/h geladen. Throughput skaliert mit Auslastung — eine zu 30% ausgelastete H100 ist pro Token ~2x teurer als der Headline-Preis suggeriert. Hybrid routet Batch-toleranten Traffic auf self-hosted, interaktiven auf die API. Note: Self-hosted assumes vLLM on spot GPU pricing with continuous batching. The cost includes GPU rent + ops time at 130 EUR/h loaded. Output throughput scales with utilization, so a 30%-utilized H100 is ~2x more expensive per token than the headline rate suggests. Hybrid routes batch-tolerant traffic to self-hosted, interactive traffic to API.

LLM-Infra-Plan in 24 StundenLLM infra plan in 24 hours

Sie sehen den Schnittpunkt. Wenn Sie einen konkreten Deployment-Plan wollen — vLLM-Config, Autoscaling, Fallback zur API, Monitoring — ich liefere ihn schriftlich innerhalb von 24 Stunden. You see the crossover point. If you want a concrete deployment plan — vLLM config, autoscaling, fallback to API, monitoring — I deliver it in writing within 24 hours.

Mein Konzept anfragen Request my scope

Wie der Rechner zähltHow the calculator counts

Vier Kostenpfade, gegen Ihr monatliches Token-Volumen modelliert. Four cost paths, modeled against your monthly token volume.

  • API-Baseline: Headline-Preis pro Million Tokens, keine Rabatte. Referenzraten: Haiku $1/$5, Sonnet $3/$15, Opus $15/$75 pro Mtok in/out. GPT- und Gemini-Raten innerhalb 30% dieser Tiers.API baseline: headline price per million tokens, no discounts. Reference rates: Haiku $1/$5, Sonnet $3/$15, Opus $15/$75 per Mtok input/output. GPT and Gemini rates within 30% of these tiers.
  • API + Batch + Cache: Batch-toleranter Anteil bekommt 50% Rabatt auf Input und Output. Cache-Treffer-Input bekommt 90% Rabatt. Rest zahlt vollen Preis. Dieser Pfad wird von den meisten Teams übersprungen und schiebt den Break-Even um Faktor 2-3.API + batch + cache: batch-tolerant share gets 50% off both input and output. Cache-hit input gets 90% off. The remainder pays full price. This is the path most teams skip and the one that pushes break-even by 2-3x.
  • Self-Hosted: GPU-Miete auf Spot + Ops-Zeit. Fast-Tier auf L40S (~620 EUR/Mo), Balanced auf H100 (~1.800 EUR/Mo), Capable auf 2x H100 (~3.600 EUR/Mo). Throughput ist durch GPU und Auslastung gedeckelt — wenn der monatliche Output die Kapazität überschreitet, wird die Zeile als unpassend markiert.Self-hosted: GPU rent on spot pricing + ops time. Fast tier on L40S (~620 EUR/mo), balanced on H100 (~1,800 EUR/mo), capable on 2x H100 (~3,600 EUR/mo). Throughput is capped by GPU and utilization — if your monthly output exceeds capacity, the row is flagged as unfit.
  • Hybrid: Batch-toleranter Anteil läuft self-hosted (auf kleinerer GPU, passend zu diesem Anteil), interaktiver Anteil bleibt auf der API mit Cache. Das Beste aus beiden, aber Sie zahlen für und betreiben zwei Systeme.Hybrid: batch-tolerant share runs self-hosted (on a smaller GPU sized to that share), interactive share stays on the API with cache. The best of both, but you pay for two systems and run both.

USD/EUR: 0,92. GPU-Spot-Raten: L40S $0,86/h, H100 $2,50/h. Throughput-Annahmen (Output-Tokens/Sek. bei 60% Auslastung): 8B-Klasse ~1.500, 70B-Klasse ~400, 405B-Klasse ~120. Eigene Raten vor Commit prüfen — Spot-Preise ändern sich wöchentlich. USD/EUR: 0.92. GPU spot rates: L40S $0.86/h, H100 $2.50/h. Throughput assumptions (output tokens/sec at 60% utilization): 8B class ~1,500, 70B class ~400, 405B class ~120. Verify your own rates before committing — spot pricing moves weekly.