KI-Eval veraltet: Warum grüne Tests bei fallender Qualität trügen

Tue, 23 Jun 2026 08:00:00 +0000

Der Test steht auf grün. Jeder Wert in der Tabelle passt.

Zwei Wochen später stauen sich die Rückläufer in der Retoure. Die Antworten klingen sauber. Sie sind nur falsch.

Niemand hat es kommen sehen. Geprüft wurde das Quartal von damals, nicht der Kunde von heute.

Das ist kein Ausreißer. Anthropic hat im April 2026 selbst bestätigt: Die Qualität fiel, ohne dass sich die Modellversion änderte. Erkennbar nur für den, der die Ausgaben maß.

Llm-Evaluation on René Zander | KI-Automatisierungsberater

KI-Eval veraltet: Warum grüne Tests bei fallender Qualität trügen