Claude Code mit lokalen LLMs und ANTHROPIC_BASE_URL: Ollama, LM Studio, llama.cpp, vLLM

Wed, 29 Apr 2026 07:30:00 +0200

Native Anthropic-Endpoints, Tool-Call-Kompatibilität und Context-Window-Sizing für lokales Claude Code.

Zuletzt getestet: April 2026. Siehe Changelog am Ende.

TL;DR Cheat Sheet

Ziel	Setup
MacBook Air	Gemma 4 26B-A4B Q4, 32K Context, LM Studio oder Ollama
MacBook Pro	Gemma 4 26B-A4B Q4 / UD-Q4, 64K Context, llama.cpp oder LM Studio
Claude Code Minimum	32K Context (alles darunter ist eine Chat-Demo)
Bestes lokales Backend	LM Studio oder Ollama zuerst; llama.cpp für Fortgeschrittene; vLLM für Server
Vermeiden	8K / 16K Context, dichtes 31B Gemma 4 auf 32-GB-Maschinen, alte llama.cpp-Builds

Die Faustregel für lokales Claude Code

Drei Faktoren entscheiden, ob eine lokale Claude-Code-Session funktioniert:

Self-Hosted LLM auf Kubernetes: Produktives vLLM-Deployment

Sun, 05 Apr 2026 07:00:00 +0200

Die meisten Teams, die nach Self-Hosted-LLM-Kubernetes-Deployments fragen, sollten dafür gar kein Kubernetes fahren. Die ehrliche Antwort: vLLM auf einer einzelnen GPU-Box, eingepackt in systemd oder Docker Compose, deckt mehr Use Cases ab, als man gerne zugibt. Kubernetes verdient sich seinen Platz erst, wenn Sie es ohnehin betreiben — oder wenn Sie horizontale Skalierung, Multi-Tenancy-Isolation oder saubere Rolling Deploys über einen GPU-Node-Pool brauchen.

Dieser Leitfaden setzt voraus, dass Sie sich für Kubernetes entschieden haben. Ich gehe die Referenzarchitektur durch, die ich beim LLM-Deployment nach k8s nutze, liefere vollständige Manifests für vLLM mit Llama 3.3 70B quantisiert und die operativen Stolpersteine, die jedes Team beim ersten Mal erwischen. Keine plattformspezifische Magie, keine Abstraktion hinter einem Managed Vendor. Nur die YAML, die Sie brauchen, und die Begründung hinter jedem Feld.

Vllm on René Zander | KI-Automatisierungsberater

Claude Code mit lokalen LLMs und ANTHROPIC_BASE_URL: Ollama, LM Studio, llama.cpp, vLLM

TL;DR Cheat Sheet

Die Faustregel für lokales Claude Code

Self-Hosted LLM auf Kubernetes: Produktives vLLM-Deployment