<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Browser-Automation on René Zander | KI-Automatisierungsberater</title><link>https://renezander.com/de/tags/browser-automation/</link><description>Recent content in Browser-Automation on René Zander | KI-Automatisierungsberater</description><generator>Hugo</generator><language>de</language><lastBuildDate>Tue, 19 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://renezander.com/de/tags/browser-automation/index.xml" rel="self" type="application/rss+xml"/><item><title>Browser-Agent-Architektur: Grounding vom Reasoning trennen</title><link>https://renezander.com/de/blog/browser-agent-grounding-split/</link><pubDate>Tue, 19 May 2026 08:00:00 +0200</pubDate><guid>https://renezander.com/de/blog/browser-agent-grounding-split/</guid><description>&lt;p>Jeder Browser-Agent in Produktion ruft ein Vision-Modell mit Screenshots auf. Dieser Aufruf erledigt zwei Dinge gleichzeitig. Er entscheidet, was der Agent als Nächstes tun soll, und er liest aus dem Screenshot heraus, wo genau geklickt werden muss.&lt;/p>
&lt;p>Sie bezahlen Frontier-Tarife für beides. €0,01 bis €0,05 pro Call, 20 bis 50 Calls pro Agentenlauf. Bei 1.000 Läufen pro Tag landet die Vision-Rechnung schnell bei €6.000 bis €75.000 im Monat.&lt;/p>
&lt;p>Die zweite Aufgabe ist kein Reasoning-Problem. Sie ist ein Parsing-Problem mit einem klaren Schema: anklickbare Elemente, Bounding Boxes, Beschriftungen. Strukturierte Ausgabe, deterministisch lösbar.&lt;/p></description></item></channel></rss>