KI-Eval veraltet: Warum grüne Tests bei fallender Qualität trügen

June 23, 2026 · 2 min read · ki-strategie, llm-evaluation, it-entscheidung
KI-Eval veraltet: Warum grüne Tests bei fallender Qualität trügen

Der Test steht auf grün. Jeder Wert in der Tabelle passt.

Zwei Wochen später stauen sich die Rückläufer in der Retoure. Die Antworten klingen sauber. Sie sind nur falsch.

Niemand hat es kommen sehen. Geprüft wurde das Quartal von damals, nicht der Kunde von heute.

Das ist kein Ausreißer. Anthropic hat im April 2026 selbst bestätigt: Die Qualität fiel, ohne dass sich die Modellversion änderte. Erkennbar nur für den, der die Ausgaben maß.

Ein Datadog-Report aus demselben Monat nennt es das stille Versagen. Rund jede zwanzigste Anfrage geht leise daneben, während die Logs sauber bleiben.

Ein Test, der sich nie ändert, prüft nicht Ihr Geschäft. Er prüft Ihre Erinnerung daran. Eine Landkarte von einem Tag, der vorbei ist.

So jung wie Ihr Geschäft

Ein KI-Eval altert in dem Tempo, in dem sich Ihre Kunden ändern. Er bleibt grün, weil er die Fälle von gestern prüft, während Anfragen, Sonderfälle und die Messlatte für eine gute Antwort weiterwandern. Aktuell halten Sie ihn nur, indem Sie ihn aus echten, frischen Fehlern aus dem laufenden Betrieb neu speisen und nachziehen, sobald sich das Geschäft bewegt.

Ich fahre selbst rund ein Dutzend automatisierte Jobs in Produktion. Gerettet hat mich nie der Test vom Start. Gerettet hat mich der, den ich nachzog, als ein Fall durchrutschte.

Der Test, der schützt, sieht aus wie Ihr Betrieb von dieser Woche. Gespeist aus echten Fällen, die zuletzt schiefgegangen sind. Nachgezogen, wenn sich das Geschäft bewegt, nicht einmal beim Start und nie wieder.

Wer ein Modell ausrollt und vorher an den frischen Fällen prüft, hat aktualisiert. Wer der alten Karte glaubt, fährt nach einem Plan, den es nicht mehr gibt.

Viel braucht es nicht. Ein paar echte Fälle aus dem laufenden Betrieb. Eine Handvoll harter Blocker, an denen ein Rollout scheitern darf. Etwas, das mitwächst, statt im Schrank zu vergilben. Wer einen Startpunkt für seine Branche sucht, findet ihn schneller, als er denkt.

Die Frage ist nicht, ob Ihr Test grün ist. Die Frage ist, von wann Ihre Karte stammt.

Karte einrollen. Raus ins Gelände.

Ein passgenauer Regressionstest aus Ihren echten Fällen: ein Prozess, ein Konzept, ein Festpreis, in 24 Stunden auf dem Tisch.

Festpreis und Meilensteine — oder eine klare Absage mit Begründung.

Ihr Automatisierungskonzept in 24 Stunden

Zwei Felder. Ich antworte innerhalb von 24 Stunden mit einem schriftlichen Konzept – entweder mit Festpreis samt Umsetzungsdauer oder mit einer klaren Absage inklusive Begründung.

Vorher sehen, was Sie bekommen: Beispiel-Konzept →
Lieber erst sprechen? 30-Minuten-Gespräch buchen →

Anfrage eingegangen

Ich antworte innerhalb von 24 Stunden mit einer ehrlichen Einschätzung.

Lieber direkt sprechen? 30-Minuten-Roadmap-Gespräch →