Voice-AI-Vergleich DACH 2026: Vapi, Retell, Parloa, Cognigy, Dograh

Letzter Stand: Mai 2026.

Welcher Voice-AI-Anbieter passt für DACH-IT-Verantwortliche?

Die fünf Voice-AI-Anbieter, die DACH-IT-Verantwortliche 2026 evaluieren, teilen sich klar in drei Lager: zwei DACH-Schwergewichte mit Enterprise-Fokus (Parloa, Cognigy), zwei US-Entwickler-Plattformen mit schneller Inbetriebnahme (Vapi, Retell) und eine Open-Source-Alternative für Self-Hosting (Dograh). Die Wahl entscheidet sich nicht an der Feature-Liste, sondern an Datenresidenz, NIS2-Tauglichkeit und Wechselfähigkeit.

Vergleichsmatrix: Vapi vs Retell vs Parloa vs Cognigy vs Dograh

KriteriumParloaCognigyVapiRetellDograh
HQ-LandDeutschlandDeutschlandUSAUSAUSA (Open Source)
Hosting-StandardEU-HyperscalerEU + on-premUS (EU auf Anfrage)US (EU auf Anfrage)Self-Hosted oder hosted
Self-Hosting-PfadBegrenztJa (on-prem)NeinNeinJa (nativ)
PreismodellEnterprise-LizenzEnterprise-LizenzPro MinutePro MinuteOpen Source / Self-Hosted
Time-to-First-CallWochenWochenStundenStundenTage (mit Runbook)
NIS2-Lieferketten-BeweisEingeschränktEingeschränkt + on-premEingeschränktEingeschränktVollständig (self-hosted)
Typische ZielgruppeEnterprise CXEnterprise CXEntwicklerEntwicklerEngineering-Teams

Parloa vs Cognigy: Die zwei DACH-Schwergewichte

Parloa mit Sitz in Berlin positioniert sich als generative Conversational-AI-Plattform für Contact-Center. Series-B-finanziert, mit starkem Vertriebsfokus auf den europäischen Mittelstand und Großkonzerne. Die Plattform bringt EU-Hosting auf Hyperscaler-Infrastruktur (typischerweise Microsoft Azure oder AWS in EU-Regionen) und einen vorgelagerten Auftragsverarbeitungsvertrag mit, der DSGVO-konform ist. Was Parloa nicht löst: Sie kontrollieren die Subprocessor-Kette Ihres Hyperscalers nicht, weil sie eine Schicht unter Ihrem Vertragspartner liegt.

Cognigy mit Sitz in Düsseldorf ist 2016 gegründet und damit die längste DACH-CX-Erfahrung im Vergleich. Cognigy liefert ISO 27001 und SOC 2, bietet eine on-prem-Variante für streng regulierte Branchen (Banken, Versicherungen, Energieversorger) und integriert sich tief in Genesys, Avaya und SAP CX. Die on-prem-Option schließt die NIS2-Lieferketten-Lücke teilweise, weil Subprocessor-Risiken durch Self-Hosting entfallen — der Aufwand für Betrieb und Wartung liegt jedoch dann beim Kunden.

Die Wahl zwischen Parloa und Cognigy fällt in der Praxis nach drei Kriterien: bestehende CX-Stack-Landschaft, Compliance-Tiefe und Vertragsverhandlungs-Position. Beide rechnen mit klassischen Enterprise-Lizenz-Modellen — typischerweise fünf- bis sechsstellig pro Jahr je nach Volumen und Modulen.

Vapi vs Retell: Die zwei US-Entwickler-Plattformen

Vapi ist 2023 in San Francisco gegründet, Y-Combinator-Alumni, und liefert die breiteste SDK-Abdeckung im Feld — TypeScript, Python, mehrere Telefonie-Provider (Twilio, Vonage, Plivo), eine ausgereifte API für Programmable-Voice-Workflows. Time-to-First-Call: wenige Stunden bei vorhandenem Twilio-Account.

Retell verfolgt einen ähnlichen Pfad mit stärkerem Fokus auf Streaming-Latenz und Voice-Quality. Die Plattform ist enger und damit oft schneller in einfachen Use-Cases, weniger flexibel bei komplexen Workflows.

Beide Anbieter verarbeiten Audio standardmäßig in US-Cloud-Regionen. EU-Hosting ist auf Enterprise-Anfrage möglich, aber nicht der Default. Für DSGVO-relevante DACH-Anwendungsfälle tragen beide drei offene Risiken: undurchsichtige Subprocessor-Kette, kein dokumentiertes Per-Session-Routing, kein vertraglicher Modell-Versions-Pin pro Anruf. Diese Risiken sind in der Vapi-vs-Retell-Entscheidung nahezu identisch; die Wahl entscheidet sich nach SDK-Präferenz und Telefonie-Integration.

Dograh: Die Open-Source-Alternative

Dograh ist Open-Source-Orchestrierung für Voice-Agenten — relativ neu im Markt, mit MCP-Server- und SDK-Releases im ersten Halbjahr 2026. Der entscheidende Unterschied zu den vier Hosted-Anbietern: Dograh läuft auf Ihrer eigenen Infrastruktur. STT, LLM und TTS sind über OpenAI-kompatible Endpunkte austauschbar, die gesamte Orchestrierung versionierbar, der Modell-Versionsstand pro Anruf logbar.

Dograh wird zur richtigen Wahl, wenn Sie eine der drei NIS2-Kernpflichten — Subprocessor-Kontrolle vorab, Routing-Beweis pro Session, Modell-Versionierung pro Anruf — vertraglich nachweisen müssen. Bei einem hosted Service erfüllt das keiner der vier Wettbewerber strukturell. Dograh kann zudem als gemanagter Service betrieben werden, falls Self-Hosting nicht in Frage kommt — dann gelten allerdings dieselben strukturellen Lieferketten-Fragen wie bei Vapi oder Retell.

Kosten-Vergleich: Hosted SaaS vs Self-Hosted-Stack

Drei Kostenpfade, ehrliche Größenordnungen:

PfadModellGrößenordnung
Vapi / RetellPro Minute0,05 bis 0,20 EUR pro Anruf-Minute
Parloa / CognigyEnterprise-Lizenz5- bis 6-stellig pro Jahr
Self-Hosted (Dograh + L40S + L4)Fixe GPU-Infrastruktur1.200 bis 2.800 EUR pro Monat

Der Break-even von Hosted SaaS gegenüber Self-Hosting auf STACKIT oder PlusServer liegt typischerweise oberhalb von 50.000 Anruf-Minuten pro Monat — bei strengen Compliance-Anforderungen (NIS2 §30, branchen-spezifische Datenresidenz) auch deutlich früher. Wer Voice AI in einem Pilotprojekt unter 10.000 Anruf-Minuten pro Monat einsetzt, fährt mit Vapi oder Retell günstiger; wer skaliert oder unter NIS2 fällt, kippt zu Self-Hosting.

NIS2-Audit-Score je Anbieter

Bezogen auf die sieben Audit-Kategorien der Anbieter-Checkliste liefert keiner der vier Hosted-Anbieter standardmäßig die NIS2-Mindestpunktzahl von 12 von 14. Selbst Cognigys on-prem-Option erfüllt nur die Subprocessor- und Routing-Punkte vollständig; Modell-Versions-Pinning bleibt vertraglich nachverhandelbar. Self-Hosting mit Dograh auf STACKIT oder PlusServer erfüllt alle sieben Kategorien — ist dafür aber operativ aufwendiger.

Die Empfehlung für DACH-IT-Verantwortliche: Hosted-Anbieter für nicht-NIS2-relevante Pilotprojekte, Self-Hosting für Produktivbetrieb in wesentlichen oder wichtigen Einrichtungen.

Empfehlung

Es gibt keine universelle Antwort, aber drei klare Pfade:

  1. Pilot ohne NIS2-Bezug, schnelle Validierung: Vapi oder Retell. Time-to-First-Call in Stunden, geringe Anfangsinvestition.
  2. Enterprise-CX mit existierender Stack-Landschaft: Parloa, wenn der Fokus auf moderner Conversational-AI liegt; Cognigy, wenn ISO-Zertifizierung und on-prem-Option entscheidend sind.
  3. NIS2-relevanter Produktivbetrieb, kundeneigene VPC, Datenresidenz: Dograh oder vergleichbare Open-Source-Orchestrierung auf STACKIT oder PlusServer mit dem NVIDIA L40S + L4 Dual-GPU-Stack. Diese Variante ist im Case Study dokumentiert.

Wer unsicher ist, beginnt mit der Anbieter-Audit-Checkliste — sieben Kategorien, eine Seite, weiterleitbar an Procurement.

Changelog

  • 2026-05-21: Erstveröffentlichung. Fünf Anbieter, NIS2-Score, Kosten-Vergleichsmatrix.