Q: Was kostet Self-Hosting wirklich, jenseits der GPU?

Die GPU-Miete (rund 620 Euro pro Monat für eine L40S, 1.800 Euro für eine H100 auf Spot) ist etwa die Hälfte der realen Kosten. Hinzu kommen Engineering-Zeit für vLLM-Tuning, Autoscaling, Monitoring und Incident-Response. Budget: 4 bis 8 Stunden pro Monat zum geladenen Engineering-Stundensatz. Ohne Linux-Ops-Kapazität gewinnt die API selbst bei großem Volumen.

Q: Verändert die Anthropic Batch-API den Break-Even-Punkt?

Ja, ungefähr um Faktor 2. Die Batch-API gibt 50 Prozent Rabatt auf Input- und Output-Tokens für jeden Workload, der 24 Stunden Wartezeit toleriert. Nächtliche Reports, Eval-Läufe, Backfills und asynchrone Klassifikation qualifizieren sich. Kombiniert mit Prompt-Caching (90 Prozent Rabatt auf gecachten Input) verliert ein API-Workload zwei Drittel seiner Rechnung, bevor Self-Hosting überhaupt sinnvoll wird.

Q: Warum ist die Auslastung so wichtig für Self-Hosting-Kosten?

Eine GPU, für die Sie 24 Stunden am Tag zahlen, verdient ihr Geld nur, wenn sie tatsächlich Tokens ausliefert. Bei 30 Prozent Auslastung sind Ihre effektiven Kosten pro Token rund 3-fach des GPU-Stundensatzes. Die Break-Even-Rechnung unterstellt 60 bis 80 Prozent Auslastung, was entweder stetigen Traffic oder aggressives Batching voraussetzt. Bei burstigem, kleinem Traffic sieht Self-Hosting auf dem Papier günstig aus und in der Realität teuer.

Question 1

Wann wird Self-Hosting eines LLM g&uuml;nstiger als ein API-Aufruf?

Accepted Answer

Der Schnittpunkt liegt zwischen 50 und 300 Millionen Output-Tokens pro Monat f&uuml;r ein 70B-Modell, abh&auml;ngig vom GPU-Mietpreis, der Auslastung und davon, ob auf der API-Seite Batch und Prompt-Caching genutzt werden. Darunter gewinnt fast immer die API, weil nur tats&auml;chlicher Verbrauch bezahlt wird. Dar&uuml;ber unterbietet eine gut ausgelastete GPU auf Spot-Preisen selbst rabattierte API-Aufrufe.

Question 2

Was kostet Self-Hosting wirklich, jenseits der GPU?

Accepted Answer

Die GPU-Miete (rund 620 Euro pro Monat f&uuml;r eine L40S, 1.800 Euro f&uuml;r eine H100 auf Spot) ist etwa die H&auml;lfte der realen Kosten. Hinzu kommen Engineering-Zeit f&uuml;r vLLM-Tuning, Autoscaling, Monitoring und Incident-Response. Budget: 4 bis 8 Stunden pro Monat zum geladenen Engineering-Stundensatz. Ohne Linux-Ops-Kapazit&auml;t gewinnt die API selbst bei gro&szlig;em Volumen.

Question 3

Ver&auml;ndert die Anthropic Batch-API den Break-Even-Punkt?

Accepted Answer

Ja, ungef&auml;hr um Faktor 2. Die Batch-API gibt 50 Prozent Rabatt auf Input- und Output-Tokens f&uuml;r jeden Workload, der 24 Stunden Wartezeit toleriert. N&auml;chtliche Reports, Eval-L&auml;ufe, Backfills und asynchrone Klassifikation qualifizieren sich. Kombiniert mit Prompt-Caching (90 Prozent Rabatt auf gecachten Input) verliert ein API-Workload zwei Drittel seiner Rechnung, bevor Self-Hosting &uuml;berhaupt sinnvoll wird.

Question 4

Was ist das Hybrid-Muster und wann lohnt es sich?

Accepted Answer

Hybrid bedeutet: Latenzkritischer Traffic (Chat, Echtzeit-Agents) l&auml;uft &uuml;ber die API, Batch- oder Bulk-Traffic (Extraktion, Klassifikation, Eval) l&auml;uft auf einem self-hosted Modell. Es lohnt sich, wenn ein Workload p95-Anforderungen hat, die auf einer kleinen GPU nicht erreichbar sind, w&auml;hrend ein anderer Workload nachts Millionen Tokens verarbeitet, die API-Budget verbrennen w&uuml;rden. Die meisten Teams untersch&auml;tzen, wie viel Traffic tats&auml;chlich Batch-tolerant ist.

Question 5

Warum ist die Auslastung so wichtig f&uuml;r Self-Hosting-Kosten?

Accepted Answer

Eine GPU, f&uuml;r die Sie 24 Stunden am Tag zahlen, verdient ihr Geld nur, wenn sie tats&auml;chlich Tokens ausliefert. Bei 30 Prozent Auslastung sind Ihre effektiven Kosten pro Token rund 3-fach des GPU-Stundensatzes. Die Break-Even-Rechnung unterstellt 60 bis 80 Prozent Auslastung, was entweder stetigen Traffic oder aggressives Batching voraussetzt. Bei burstigem, kleinem Traffic sieht Self-Hosting auf dem Papier g&uuml;nstig aus und in der Realit&auml;t teuer.

Self-Hosted LLM vs. API Break-Even-Rechner Self-Hosted LLM vs API Break-Even Calculator

Ihr WorkloadYour workload

VolumenVolume

ModellklasseModel class

API-HebelAPI levers

Self-HostedSelf-hosted

Monatliche KostenMonthly cost

LLM-Infra-Plan in 24 StundenLLM infra plan in 24 hours

Wie der Rechner zähltHow the calculator counts