<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Llm-Evaluation on René Zander | KI-Automatisierungsberater</title><link>https://renezander.com/de/tags/llm-evaluation/</link><description>Recent content in Llm-Evaluation on René Zander | KI-Automatisierungsberater</description><generator>Hugo</generator><language>de</language><lastBuildDate>Tue, 23 Jun 2026 08:00:00 +0000</lastBuildDate><atom:link href="https://renezander.com/de/tags/llm-evaluation/index.xml" rel="self" type="application/rss+xml"/><item><title>KI-Eval veraltet: Warum grüne Tests bei fallender Qualität trügen</title><link>https://renezander.com/de/blog/ki-eval-veraltet/</link><pubDate>Tue, 23 Jun 2026 08:00:00 +0000</pubDate><guid>https://renezander.com/de/blog/ki-eval-veraltet/</guid><description>&lt;p>Der Test steht auf grün. Jeder Wert in der Tabelle passt.&lt;/p>
&lt;p>Zwei Wochen später stauen sich die Rückläufer in der Retoure. Die Antworten klingen sauber. Sie sind nur falsch.&lt;/p>
&lt;p>Niemand hat es kommen sehen. Geprüft wurde das Quartal von damals, nicht der Kunde von heute.&lt;/p>
&lt;p>Das ist kein Ausreißer. Anthropic hat im April 2026 selbst bestätigt: Die Qualität fiel, ohne dass sich die Modellversion änderte. Erkennbar nur für den, der die Ausgaben maß.&lt;/p></description></item></channel></rss>