Was ist Self-Hosted Voice AI im Vergleich zu Vapi oder Retell?

Self-Hosted Voice AI bedeutet, dass STT (Speech-to-Text), LLM-Inferenz und TTS (Text-to-Speech) auf Ihrer eigenen GPU-Infrastruktur in einer EU-Region oder einer kundeneigenen VPC laufen. Hosted-Anbieter wie Vapi oder Retell verarbeiten Audio in deren US- oder EU-Cloud, mit eingeschränkter Subprocessor-Kontrolle. Self-Hosting verschiebt Kontrolle und Lieferketten-Verantwortung in die eigene Hand.

Welcher GPU-Stack ist der DACH-Industriestandard für produktionsreife Voice AI?

Der Standard ist eine Dual-GPU-Architektur: eine NVIDIA L40S für ASR und LLM-Orchestrierung (Ada-Lovelace-Architektur mit Transformer-Engines für regionale Dialekte wie Schweizerdeutsch und österreichisches Bairisch) plus eine NVIDIA L4 für kosteneffizientes TTS-Streaming unter dem 200-ms-Latenz-Threshold. Die Kombination erreicht 0,3 Sekunden kombinierte Warm-Latenz bei mehreren parallelen Anrufen. Für höhere Parallelität horizontal über Kubernetes skalieren.

Wie funktioniert Datenresidenz bei einer Self-Hosted-Voice-AI in der EU?

Die Audio-Daten verlassen die ausgewählte EU-Region nie. STT, LLM und TTS laufen lokal auf demselben GPU-Knoten, die OpenAI-kompatiblen Endpunkte sind intern. Backups, Logs und Modellgewichte liegen im gleichen Datenkreis. Das erfüllt die NIS2-Anforderung nach Lieferketten-Beweis ohne externen Subprocessor.

Lässt sich ein Self-Hosted Voice-Agent in eine kundeneigene VPC migrieren?

Ja, in unter 48 Stunden bei vorhandenem Runbook. Die Bereitstellung ist als Infrastructure-as-Code dokumentiert. Da die API-Endpunkte OpenAI-kompatibel sind, müssen die Voice-Agent-Anwendungen nicht angefasst werden.

Parloa vs Cognigy vs Vapi vs Retell — welcher Voice-AI-Anbieter passt für DACH-Mittelstand?

Parloa und Cognigy sind DACH-nahe Hosted-Anbieter mit EU-Hosting und starkem Vertriebsfokus auf Enterprise. Vapi und Retell sind US-zentrische Plattformen mit schnellerer Time-to-First-Call, aber komplexerer Subprocessor-Lieferkette aus DSGVO-Sicht. Self-Hosting ergänzt diese vier Optionen als Pfad, wenn NIS2 §30 oder vertragliche Datenresidenz strenger ist als das, was Hosted-Verträge garantieren können.

Wann ist Self-Hosting günstiger als Parloa, Cognigy, Vapi oder Retell?

Hosted-Anbieter skalieren linear mit Anrufminuten und liegen typischerweise zwischen 0,12 und 0,40 Euro pro Minute (modellabhängig). Self-Hosting auf einem dedizierten GPU-Knoten kostet zwischen 800 und 2.500 Euro pro Monat unabhängig vom Volumen. Der Break-even liegt typischerweise oberhalb von 50.000 Minuten pro Monat — bei strengeren Compliance-Anforderungen (NIS2, branchenspezifische Datenresidenz) auch deutlich früher.

Welche weiteren EU-Souverän-Clouds kommen außer STACKIT in Frage?

Die gleiche Dual-GPU-Konfiguration läuft auf PlusServer (DE), Hetzner Cloud (DE-Nürnberg, DE-Falkenstein, FI-Helsinki), IONOS Cloud (DE-Frankfurt), OVHcloud (FR-Gravelines, DE-Limburg, PL-Warschau), Scaleway (FR-Paris, NL-Amsterdam, PL-Warschau) und Open Telekom Cloud von T-Systems (DE). Das Runbook führt anbieter-spezifische GPU-SKUs und Netzwerkpfade auf. Eine Migration zwischen den Anbietern dauert 48 Stunden Re-Deployment, weil die OpenAI-kompatiblen Endpunkte identisch bleiben.

Lässt sich dieser Self-Hosted-Stack als Overlay über ein bestehendes CCaaS (Genesys Cloud, Amazon Connect, 8x8) legen?

Ja, als Programmable-Voice-Erweiterung. Der Voice-Agent terminiert über einen Session Border Controller auf dem SIP-Trunk des CCaaS, während STT, LLM und TTS auf dem Self-Hosted-GPU-Knoten laufen. Das CCaaS übernimmt Anruf-Routing, Queue-Management und Human-Agent-Handoff, der KI-Dialog, die Aufzeichnung und die Transkripte bleiben in der eigenen EU-Perimeter. Das ist die übliche Architektur für Unternehmen mit mehrjähriger bestehender CCaaS-Investition, die nicht abgelöst werden kann.

Wie wird PCI DSS abgebildet, wenn Anrufer Kartendaten am Telefon nennen?

Der PCI-DSS-Geltungsbereich wird durch DTMF-Suppression und eine separate Zahlungs-Capture-Übergabe ausgeklammert. Erreicht der Agent einen Bezahl-Schritt, wird der Anruf an einen PCI-scoped-IVR-Dienst übergeben, der Kartenziffern als DTMF-Töne erfasst — der KI-Agent hört diese Audio-Spur nicht, loggt sie nicht und im Transkript wird der Abschnitt explizit redigiert. Nach Rückmeldung des Zahlungsdienstes übernimmt der Agent wieder. Das Muster hält den Voice-AI-Stack außerhalb des PCI-Scope und unterstützt trotzdem Card-Present-Transaktionen über das Telefon.

Self-Hosted Voice-AI-Plattform für Teams mit Datenresidenz-Anforderungen

Q: Was umfasst der Business-Outcome-Writeback-Vertrag?

Fünf REST-Endpunkte: Call-Session-Start, Event, Outcome, Handoff-Summary und Learning-Items. Das Datenmodell deckt caller_profiles, call_sessions, call_events, handoffs, outcomes und learning_items ab. Jede Session erzeugt strukturierte Lern-Items, die in CRM, Support-System und Wissensbasis zurückfließen.

May 21, 2026 · 3 min read · voice-ai, self-hosted, dograh, eu-datenresidenz, gpu, nlp, speech-to-text, conversational-ai

Self-Hosted Voice-AI-Plattform für Teams mit Datenresidenz-Anforderungen

Ergebnis Outcome

Eine produktionsreife, selbst-gehostete Voice-AI-Bereitstellung mit gemessener Warmpfad-Latenz (0,3s kombiniert auf dem Dual-GPU-Stack L40S + L4), persistentem Zustand für schnelle Wiederinbetriebnahme und einem strukturierten Writeback-Vertrag, damit jeder Anruf zurück in Vertrieb, Support, Produkt und Operations fließt — heute in EU-Infrastruktur deploybar, bei Bedarf in eine kundeneigene VPC migrierbar. A production-oriented self-hosted voice AI deployment with measured warm-path latency (0.3s combined on the dual-GPU L40S + L4 stack), persistent state for fast ramp-up, and a structured writeback contract so every call feeds back into sales, support, product, and ops — deployable in EU infrastructure today and migratable into a client-owned VPC when required.

0,3s

Latenz (warm), kombiniert Warm combined latency

L40S (ASR + LLM) · L4 (TTS-Streaming) L40S (ASR + LLM) · L4 (TTS streaming)

L40S + L4

Test-GPU First validation GPU

STACKIT (DE-Frankfurt) STACKIT (DE-Frankfurt)

300 GB

Persistentes Modell-Volume Persistent model volume

Schnelle Wiederinbetriebnahme nach Shutdown Fast ramp-up after compute shutdown

Writeback-Endpunkte Writeback endpoints

Session · Event · Outcome · Handoff · Learning session · event · outcome · handoff · learning

Das Problem

Voice-AI-Plattformen wie Parloa, Cognigy, Vapi oder Retell sind nützlich, aber Enterprise-Teams brauchen oft mehr Kontrolle, als ein gehostetes Voice-SaaS bietet. Die wiederkehrenden Fragen:

Wohin gehen die Anrufdaten?
Lässt sich das System in einer vertrauenswürdigen VPC betreiben?
Können STT-, LLM- und TTS-Anbieter ausgetauscht werden?
Lassen sich die Kosten im Skalierungsfall kontrollieren?
Können Erkenntnisse aus Anrufen ins Geschäft zurückfließen?
Lässt sich der Workflow prüfen, bevor Änderungen die Produktion erreichen?

Die Lösung

Eine produktionsorientierte Self-Hosted-Voice-AI-Bereitstellung — operative Kontrolle ist der Designkern:

Dograh als Open-Source-Orchestrierung für Voice-Agenten.
GPU-gestützte lokale STT-, LLM- und TTS-Inferenz hinter OpenAI-kompatiblen Endpunkten, damit einzelne Anbieter ausgetauscht werden können, ohne die Anrufer-Seite neu zu verdrahten.
Persistentes Modell-/Runtime-Volume, sodass Compute heruntergefahren und wieder hochgefahren werden kann, ohne lange Re-Download-Zyklen.
Evidenz-Artefakte für Maschinen-Nachweis, Modell-Preload, Health-Checks, Benchmark und Smoke-Tests.
Runbook zur Reproduktion des Setups auf STACKIT, PlusServer oder in einer kundenseitig gewählten VPC.

Kundenkontext bevor das erste Wort fällt

Ein zentraler Designpunkt ist der Pre-Call-Kontext-Lookup. Bevor der Anrufer zu sprechen beginnt, kann das System bekannte Account- oder Kundeninformationen abrufen und sich daran anpassen: Begrüßung, Tonalität, Produktkontext, Support-Tier, nächste sinnvolle Frage, Routing-Entscheidung, Handoff-Schwelle. Der Agent verhält sich dadurch weniger wie ein generischer Bot und mehr wie ein vorbereiteter Mitarbeiter, der weiß, wer anruft.

Was wir gemessen haben

Die Validierungsumgebung lief auf STACKIT in DE-Frankfurt mit einer Dual-GPU-Architektur — einer NVIDIA L40S für ASR und LLM-Orchestrierung, einer NVIDIA L4 für TTS-Streaming unter dem 200-ms-Latenz-Threshold — sowie einem dedizierten 300-GB-Persistent-Volume. Diese Kombination ist der DACH-Industriestandard für mehrsprachige Voice-AI mit regionalen Dialekten (Schweizerdeutsch, österreichisches Bairisch). Die lokale Voice-AI-Schicht hat Chat-Antwortgenerierung, Text-to-Speech-Audiogenerierung, Speech-to-Text-Transkription, Health-Checks und einen Warm-Benchmark vollständig durchlaufen.

Stage	GPU	Warm-Latenz
ASR + LLM-Orchestrierung	L40S	kombiniert
TTS-Streaming	L4	< 200 ms
Kombiniert (Warm-Roundtrip)		`0,3s`

Business-Outcome-Loop

Das System ist darauf ausgelegt, strukturierte Session-Ergebnisse an ein Backend zurückzuschreiben, sodass aus Anrufen messbarer Geschäftsfortschritt wird — nicht nur “ein Voice-Bot hat geantwortet”.

Pro Session erfasste Metriken: Anruf angenommen, Anruf abgeschlossen, erfolgreicher Handoff, ohne Handoff gelöst, qualifizierter Lead, disqualifizierter Lead, Disqualifikationsgrund, offene Frage, Einwand-Kategorie, Follow-up erforderlich, geschätzter Wert, Kosten pro abgeschlossenem Anruf, Kosten pro qualifiziertem Lead.

Ein erfolgreicher Handoff bedeutet: Der Agent hat erkannt, dass ein Mensch übernehmen sollte, das Ziel war korrekt, der Mensch hat Kontext erhalten, und der Anrufer musste seine Geschichte nicht erneut erzählen. Beispiel-Payload:

{
  "session_id": "sess_123",
  "handoff_target": "sales_engineering",
  "caller": {
    "company": "Acme GmbH",
    "support_tier": "priority"
  },
  "reason": "VPC deployment and security review question",
  "summary": "Caller wants self-hosted voice AI in their own VPC and asked about data residency.",
  "recommended_next_action": "Schedule technical architecture call."
}

Jede Session erzeugt zusätzlich Learning-Items, damit Anrufe in Vertrieb, Support, Produkt, Marketing und Operations zurückfließen:

{
  "session_id": "sess_123",
  "type": "knowledge_gap",
  "source": "voice_call",
  "text": "Caller asked whether STT can run fully inside an EU VPC.",
  "recommended_action": "Add VPC-local STT section to security FAQ.",
  "priority": "high"
}

Minimaler Backend-API-Vertrag:

POST /call-session/start
POST /call-session/event
POST /call-session/outcome
POST /handoff-summary
POST /learning-items

Datenmodell: caller_profiles, call_sessions, call_events, handoffs, outcomes, learning_items, agent_versions, workflow_versions.

Guardrail

Eine einzelne Session darf das Produktionsverhalten nicht automatisch überschreiben. Empfohlener Ablauf:

Learning-Item schreiben.
Ähnliche Items gruppieren.
Review.
Prompt / Workflow / Wissensbasis aktualisieren.
Versionsstand ändern.
Testen.
Veröffentlichen.

Fünf Capabilities, die diese Bereitstellung belegt

Ultra-niedrige Latenz durch lokale GPU-Inferenz.
Anbieter-Unabhängigkeit auf Modellebene.
Menschliche Interaktionsführung über Kontext- und Handoff-Logik.
Transiente Spezialisten-Agenten hinter dem Live-Voice-Agenten.
Enterprise-Workflow-Kontrolle über visuelle Guardrails und Persistenz.

Ehrlicher Status

Die Infrastruktur und der Nachweis der lokalen Inferenz sind abgeschlossen. Der nächste Produktionsnachweis besteht darin, die Dograh-Orchestrierung an die lokalen Inferenz-Endpunkte anzuschließen, den Pre-Call-Kundenkontext anzubinden und den Backend-Learning-Writeback zu aktivieren.

Wenn Sie sich erst orientieren wollen: Den vollständigen Anbieter-Vergleich Vapi vs Retell vs Parloa vs Cognigy vs Dograh gibt es als eigenes Guide.

Wenn Sie heute Voice AI auf einem gehosteten SaaS betreiben und die oben genannten Fragen zu Datenresidenz, Anbieter-Wechsel oder Business-Outcomes anfangen zu stören, gehe ich gern dreißig Minuten lang Ihren spezifischen Stack mit Ihnen durch — keine Folien.

Stack Stack

Dograh als Open-Source-Orchestrierung für Voice-Agenten
GPU-gestützte lokale Inferenz (STT + LLM + TTS), OpenAI-kompatible Endpunkte
Persistentes 300-GB-Modell-/Runtime-Volume für schnelle Wiederinbetriebnahme nach Compute-Shutdown
Pre-Call-Kontext-Lookup (Account, Support-Tier, Produkt, Routing) bevor der Anrufer spricht
Strukturierter Writeback-Vertrag: Call-Sessions, Outcomes, Handoffs, Learning-Items
Validierung auf STACKIT (DE-Frankfurt, NVIDIA L40S + L4 Dual-GPU)

Bereit, ein ähnliches Projekt zu skizzieren? Schriftliches Konzept in 24 Stunden. Ready to scope a similar engagement? Written concept in 24h.

Mein Konzept in 24h → My concept in 24h →

Self-Hosted Voice-AI-Plattform für Teams mit Datenresidenz-Anforderungen

Das Problem

Die Lösung

Kundenkontext bevor das erste Wort fällt

Was wir gemessen haben

Business-Outcome-Loop

Guardrail

Fünf Capabilities, die diese Bereitstellung belegt

Ehrlicher Status

Stack Stack

Bevor du gehst —

Fast geschafft

Self-Hosted Voice-AI-Plattform für Teams mit Datenresidenz-Anforderungen

Das Problem

Die Lösung

Kundenkontext bevor das erste Wort fällt

Was wir gemessen haben

Business-Outcome-Loop

Guardrail

Fünf Capabilities, die diese Bereitstellung belegt

Ehrlicher Status

Stack Stack

Ihr Automatisierungskonzept in 24 Stunden

Anfrage eingegangen