Claude API Prompt Caching: Wann es Geld spart und wann nicht

Tue, 21 Apr 2026 06:00:00 +0200

Ich betreibe einen Agent, der bei jedem Turn eine Knowledge Base mit 15.000 Tokens liest. Mehrstufige Konversation, rund 40 Aufrufe pro Nutzer-Session. Ohne Caching zahlt jeder Turn erneut die vollen Input-Token-Kosten für ein Context Window, das sich nie ändert. Mit Claude API Prompt Caching wird die Knowledge Base einmal zum 1,25-fachen Input-Preis geschrieben, jeder weitere Read kostet dann das 0,1-fache. Nach dem zweiten Aufruf ist es bereits günstiger als die volle Input-Rate. Genau dafür existiert dieses Feature.

Llm-Cost-Optimization on René Zander | KI-Automatisierungsberater

Claude API Prompt Caching: Wann es Geld spart und wann nicht