Claude Code mit lokalen LLMs und ANTHROPIC_BASE_URL: Ollama, LM Studio, llama.cpp, vLLM

Wed, 29 Apr 2026 07:30:00 +0200

Native Anthropic-Endpoints, Tool-Call-Kompatibilität und Context-Window-Sizing für lokales Claude Code.

Zuletzt getestet: April 2026. Siehe Changelog am Ende.

TL;DR Cheat Sheet

Ziel	Setup
MacBook Air	Gemma 4 26B-A4B Q4, 32K Context, LM Studio oder Ollama
MacBook Pro	Gemma 4 26B-A4B Q4 / UD-Q4, 64K Context, llama.cpp oder LM Studio
Claude Code Minimum	32K Context (alles darunter ist eine Chat-Demo)
Bestes lokales Backend	LM Studio oder Ollama zuerst; llama.cpp für Fortgeschrittene; vLLM für Server
Vermeiden	8K / 16K Context, dichtes 31B Gemma 4 auf 32-GB-Maschinen, alte llama.cpp-Builds

Die Faustregel für lokales Claude Code

Drei Faktoren entscheiden, ob eine lokale Claude-Code-Session funktioniert:

Docker-Compose-KI-/ML-Dev-Stack: Lokales LLM, Vector-DB, volle YAML

Fri, 20 Mar 2026 10:00:00 +0100

Jedes KI-Projekt startet bei mir jetzt gleich: docker compose up -d und ich habe Ollama, Qdrant, Postgres, Redis und einen LiteLLM-Proxy in unter zwei Minuten laufen. Keine pyenv-Konflikte, kein Homebrew-Drift, kein “läuft auf meinem Rechner”. Eine YAML, ein Kommando, identischer Stack auf Laptop und Dev-VPS.

Das ist das Tutorial für einen vollständigen Docker-Compose-KI-/ML-Dev-Stack. YAML kopieren, starten, Modell ziehen, bauen. Ich nutze genau dieses Layout für RAG-Pipeline-Prototyping, MCP-Server-Tests und meine Cron-gesteuerten Claude-Agents, bevor sie in Produktion gehen.

Ollama on René Zander | KI-Automatisierungsberater

Claude Code mit lokalen LLMs und ANTHROPIC_BASE_URL: Ollama, LM Studio, llama.cpp, vLLM

TL;DR Cheat Sheet

Die Faustregel für lokales Claude Code

Docker-Compose-KI-/ML-Dev-Stack: Lokales LLM, Vector-DB, volle YAML