Warum bleibt mein KI-Test grün, obwohl die Qualität fällt?

Weil ein eingefrorener Testsatz die Realität von gestern prüft. Produktions-Traffic bringt neue Formulierungen und Fälle, und die Messlatte für eine gute Antwort wandert. Der Test besteht, während die Zufriedenheit sinkt.

Was ist Eval-Drift bei LLM-Anwendungen?

Eval-Drift bedeutet, dass ein Testsatz langsam von der tatsächlichen Nutzung abweicht. Die Fälle und Kriterien stammen aus der Vergangenheit, die Kunden und Anforderungen haben sich verändert. Die Scores bleiben gut, der Praxiswert nicht.

Wie halte ich einen KI-Eval aktuell?

Speisen Sie ihn aus echten Fällen, die zuletzt im Betrieb schiefgegangen sind, und ziehen Sie ihn nach, wenn sich das Geschäft bewegt. Ein vierteljährlicher Abgleich gegen frische menschliche Bewertung hält die Messlatte realistisch.

Wie oft sollte ich meinen KI-Testsatz neu ableiten?

Mindestens vierteljährlich und immer dann, wenn sich Kundenverhalten, Produkt oder Prozess merklich ändern. Wartet man länger, prüft der Test eine Realität, die es nicht mehr gibt.

Reicht ein einmal gebauter Eval für den produktiven Betrieb?

Nein. Ein einmal gebauter Eval ist eine Momentaufnahme. Ohne Pflege altert er in dem Tempo, in dem sich Ihre Kunden ändern, und ein grünes Ergebnis wird zur falschen Sicherheit.

KI-Eval veraltet: Warum grüne Tests bei fallender Qualität trügen

June 23, 2026 · 2 min read · ki-strategie, llm-evaluation, it-entscheidung

Der Test steht auf grün. Jeder Wert in der Tabelle passt.

Zwei Wochen später stauen sich die Rückläufer in der Retoure. Die Antworten klingen sauber. Sie sind nur falsch.

Niemand hat es kommen sehen. Geprüft wurde das Quartal von damals, nicht der Kunde von heute.

Das ist kein Ausreißer. Anthropic hat im April 2026 selbst bestätigt: Die Qualität fiel, ohne dass sich die Modellversion änderte. Erkennbar nur für den, der die Ausgaben maß.

Ein Datadog-Report aus demselben Monat nennt es das stille Versagen. Rund jede zwanzigste Anfrage geht leise daneben, während die Logs sauber bleiben.

Ein Test, der sich nie ändert, prüft nicht Ihr Geschäft. Er prüft Ihre Erinnerung daran. Eine Landkarte von einem Tag, der vorbei ist.

So jung wie Ihr Geschäft

Ein KI-Eval altert in dem Tempo, in dem sich Ihre Kunden ändern. Er bleibt grün, weil er die Fälle von gestern prüft, während Anfragen, Sonderfälle und die Messlatte für eine gute Antwort weiterwandern. Aktuell halten Sie ihn nur, indem Sie ihn aus echten, frischen Fehlern aus dem laufenden Betrieb neu speisen und nachziehen, sobald sich das Geschäft bewegt.

Ich fahre selbst rund ein Dutzend automatisierte Jobs in Produktion. Gerettet hat mich nie der Test vom Start. Gerettet hat mich der, den ich nachzog, als ein Fall durchrutschte.

Der Test, der schützt, sieht aus wie Ihr Betrieb von dieser Woche. Gespeist aus echten Fällen, die zuletzt schiefgegangen sind. Nachgezogen, wenn sich das Geschäft bewegt, nicht einmal beim Start und nie wieder.

Wer ein Modell ausrollt und vorher an den frischen Fällen prüft, hat aktualisiert. Wer der alten Karte glaubt, fährt nach einem Plan, den es nicht mehr gibt.

Viel braucht es nicht. Ein paar echte Fälle aus dem laufenden Betrieb. Eine Handvoll harter Blocker, an denen ein Rollout scheitern darf. Etwas, das mitwächst, statt im Schrank zu vergilben. Wer einen Startpunkt für seine Branche sucht, findet ihn schneller, als er denkt.

Die Frage ist nicht, ob Ihr Test grün ist. Die Frage ist, von wann Ihre Karte stammt.

Karte einrollen. Raus ins Gelände.

Ein passgenauer Regressionstest aus Ihren echten Fällen: ein Prozess, ein Konzept, ein Festpreis, in 24 Stunden auf dem Tisch.

Festpreis und Meilensteine — oder eine klare Absage mit Begründung.

KI-Eval veraltet: Warum grüne Tests bei fallender Qualität trügen

So jung wie Ihr Geschäft

Bevor du gehst —

Fast geschafft

KI-Eval veraltet: Warum grüne Tests bei fallender Qualität trügen

So jung wie Ihr Geschäft

Ihr Automatisierungskonzept in 24 Stunden

Anfrage eingegangen