Browser-Agent-Architektur: Grounding vom Reasoning trennen

Tue, 19 May 2026 08:00:00 +0200

Jeder Browser-Agent in Produktion ruft ein Vision-Modell mit Screenshots auf. Dieser Aufruf erledigt zwei Dinge gleichzeitig. Er entscheidet, was der Agent als Nächstes tun soll, und er liest aus dem Screenshot heraus, wo genau geklickt werden muss.

Sie bezahlen Frontier-Tarife für beides. €0,01 bis €0,05 pro Call, 20 bis 50 Calls pro Agentenlauf. Bei 1.000 Läufen pro Tag landet die Vision-Rechnung schnell bei €6.000 bis €75.000 im Monat.

Die zweite Aufgabe ist kein Reasoning-Problem. Sie ist ein Parsing-Problem mit einem klaren Schema: anklickbare Elemente, Bounding Boxes, Beschriftungen. Strukturierte Ausgabe, deterministisch lösbar.

Browser-Automation on René Zander | KI-Automatisierungsberater

Browser-Agent-Architektur: Grounding vom Reasoning trennen