Was das Anthropic-Postmortem vom 23. April über deine Agent-Pipeline verrät
Letzte Woche kam das Postmortem zu Claude Code vom 23. April. Drei Bugs, zwei Monate gemindert ausgespielter Qualität, ein Usage-Limit-Reset für alle Pro-Abonnent:innen.
Ich habe es zweimal gelesen. Beim zweiten Durchgang fing ich an, Notizen für meine eigene Agent-Pipeline zu machen.
Für ein Unternehmen dieser Größe ist das Postmortem ungewöhnlich offen. Und es liest sich wie eine Checkliste der Fehlerbilder, die jedes Team mit produktiven KI-Agents irgendwann trifft. Lohnt sich, das Ganze als gratis Engineering-Review zu nehmen.
Defaults, die niemand sieht
Am 4. März fiel der Default für Reasoning Effort von „high" auf „medium". Der Grund war real: „high" hat bei manchen Nutzer:innen die UI eingefroren. Der Fix war nachvollziehbar. Spannend ist: Der Wechsel kam ohne Knopf, den Operator:innen sehen können. Die Qualität ging einen Monat lang zurück, bevor sich genug Leute laut beschwert haben.
Frage, die dein Harness lohnt: Wie viele stille Defaults hat es? Temperature 0.7, weil das 2024 der Framework-Default war. Top-p 1.0, weil niemand es angefasst hat. Max Tokens 4096, weil irgendwer die Zahl einmal gesetzt hat. Jeder dieser Werte ist ein Qualitätshebel. Welche davon gehören aufs Dashboard?
Ein Satz aus dem Postmortem, der hängenbleibt: „users told us they’d prefer higher intelligence and opt into lower effort for simple tasks." Defaults dürfen auf Qualität optimieren. Kostenargumente gehören als Opt-in dazu, nicht als Opt-out.
Eine Cache-Regel, die das Arbeitsgedächtnis aufgefressen hat
Am 26. März kam eine neue Regel zum Leeren des Thinking-Cache. Absicht: einmal aufräumen, wenn eine Session länger als eine Stunde brachlag. Der Bug: jede einzelne Folgeantwort hat den Cache geleert. Sessions wirkten vergesslich. Tool-Entscheidungen wurden komisch. Usage-Limits liefen schneller voll, weil das Modell jede Runde den Kontext neu aufgebaut hat.
Diesen Bug habe ich selbst schon ausgeliefert. Anderes System, gleiche Form. Eine „kleine Optimierung" am Cache-Layer, die jeden Lookup zu einem Miss gemacht hat. Die Kosten haben sich für zwei Tage vervierfacht, bevor das Alerting angeschlagen hat.
Nützliche Frage fürs Team: Decken unsere Cache-Tests Multi-Turn-Verhalten ab, oder nur Single-Call-Hit/Miss? Die meisten, die ich frage, sagen „nur Single Call". Diese Lücke aufzudecken kostet einen Nachmittag und spart ein Quartal.
Ein 25-Wort-Limit, das 3 % Intelligenz gekostet hat
Am 16. April kam ein neuer System-Prompt: Text zwischen Tool-Calls auf maximal 25 Wörter, finale Antworten auf 100. Ziel war, das verbose Erzählen einzudämmen. Ablations-Tests haben dann einen Rückgang von 3 % bei Coding-Aufgaben gemessen. Vier Tage später wurde es zurückgerollt.
Drei Prozent klingt nach wenig. Genau das ist das Beunruhigende. Eine Prompt-Änderung, die die Qualität um 3 % drückt, ist unsichtbar für alle, die keine Ablations fahren. Wie viele tun das? Die ehrliche Antwort in den meisten Räumen, in denen ich sitze: wenige.
Frage, die man laut stellen sollte: Wenn du heute deinen System-Prompt anpasst, was fängt eine Regression von 3 % auf?
Was „zwei von drei" wirklich sagt
Von den drei Bugs waren zwei still, bis Nutzer:innen laut wurden. Der dritte wurde überhaupt erst durch dedizierte Ablations sichtbar. Diese Quote ist die spannendste Zeile im ganzen Postmortem.
Ich betreibe sechs produktive Agents. Drei davon haben Eval-Abdeckung. Die anderen drei laufen mit Output-Sampling und Bauchgefühl. Das ist vermutlich nah am Median in der Branche.
Trotzdem schenkt das Postmortem eine Checkliste. Default-Werte für Operator:innen sichtbar. Cache-Hit-Rate über Multi-Turn-Konversationen tracken. System-Prompts hinter Eval-Ablations gaten. Drei Fehlerbilder, drei nützliche Fragen für das eigene Setup.
Hast du dein Harness diese Woche geprüft?