<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Vllm on René Zander | KI-Automatisierungsberater</title><link>https://renezander.com/de/tags/vllm/</link><description>Recent content in Vllm on René Zander | KI-Automatisierungsberater</description><generator>Hugo</generator><language>de</language><lastBuildDate>Wed, 29 Apr 2026 07:30:00 +0200</lastBuildDate><atom:link href="https://renezander.com/de/tags/vllm/index.xml" rel="self" type="application/rss+xml"/><item><title>Claude Code mit lokalen LLMs und ANTHROPIC_BASE_URL: Ollama, LM Studio, llama.cpp, vLLM</title><link>https://renezander.com/de/guides/claude-code-lokales-llm-anthropic-base-url/</link><pubDate>Wed, 29 Apr 2026 07:30:00 +0200</pubDate><guid>https://renezander.com/de/guides/claude-code-lokales-llm-anthropic-base-url/</guid><description>&lt;p>&lt;em>Native Anthropic-Endpoints, Tool-Call-Kompatibilität und Context-Window-Sizing für lokales Claude Code.&lt;/em>&lt;/p>
&lt;p>&lt;em>Zuletzt getestet: April 2026. Siehe Changelog am Ende.&lt;/em>&lt;/p>
&lt;h2 id="tldr-cheat-sheet">TL;DR Cheat Sheet&lt;/h2>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>Ziel&lt;/th>
 &lt;th>Setup&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>MacBook Air&lt;/td>
 &lt;td>Gemma 4 26B-A4B Q4, &lt;strong>32K Context&lt;/strong>, LM Studio oder Ollama&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>MacBook Pro&lt;/td>
 &lt;td>Gemma 4 26B-A4B Q4 / UD-Q4, &lt;strong>64K Context&lt;/strong>, llama.cpp oder LM Studio&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>Claude Code Minimum&lt;/td>
 &lt;td>&lt;strong>32K Context&lt;/strong> (alles darunter ist eine Chat-Demo)&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>Bestes lokales Backend&lt;/td>
 &lt;td>LM Studio oder Ollama zuerst; llama.cpp für Fortgeschrittene; vLLM für Server&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>Vermeiden&lt;/td>
 &lt;td>8K / 16K Context, dichtes 31B Gemma 4 auf 32-GB-Maschinen, alte llama.cpp-Builds&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;h2 id="die-faustregel-für-lokales-claude-code">Die Faustregel für lokales Claude Code&lt;/h2>
&lt;p>Drei Faktoren entscheiden, ob eine lokale Claude-Code-Session funktioniert:&lt;/p></description></item><item><title>Self-Hosted LLM auf Kubernetes: Produktives vLLM-Deployment</title><link>https://renezander.com/de/blog/self-hosted-llm-kubernetes/</link><pubDate>Sun, 05 Apr 2026 07:00:00 +0200</pubDate><guid>https://renezander.com/de/blog/self-hosted-llm-kubernetes/</guid><description>&lt;p>Die meisten Teams, die nach Self-Hosted-LLM-Kubernetes-Deployments fragen, sollten dafür gar kein Kubernetes fahren. Die ehrliche Antwort: vLLM auf einer einzelnen GPU-Box, eingepackt in systemd oder Docker Compose, deckt mehr Use Cases ab, als man gerne zugibt. Kubernetes verdient sich seinen Platz erst, wenn Sie es ohnehin betreiben — oder wenn Sie horizontale Skalierung, Multi-Tenancy-Isolation oder saubere Rolling Deploys über einen GPU-Node-Pool brauchen.&lt;/p>
&lt;p>Dieser Leitfaden setzt voraus, dass Sie sich für Kubernetes entschieden haben. Ich gehe die Referenzarchitektur durch, die ich beim LLM-Deployment nach k8s nutze, liefere vollständige Manifests für vLLM mit Llama 3.3 70B quantisiert und die operativen Stolpersteine, die jedes Team beim ersten Mal erwischen. Keine plattformspezifische Magie, keine Abstraktion hinter einem Managed Vendor. Nur die YAML, die Sie brauchen, und die Begründung hinter jedem Feld.&lt;/p></description></item></channel></rss>