Installation und Konfiguration von Claude Code für Ollama und llama.cpp sowie Preisgestaltung
Agentisches Coding, jetzt mit lokalen Modelloberflächen.
Claude Code ist nicht nur Autovervollständigung mit besserem Marketing. Es ist ein agentisches Coding-Tool: Es liest Ihren Codebase, bearbeitet Dateien, führt Befehle aus und integriert sich mit Ihren Entwicklungswerkzeugen.
Dieser Unterschied ist entscheidend, da die Arbeitseinheit nicht mehr „eine Zeile Code" ist, sondern zu „eine Aufgabe mit einem Endzustand" wird.
Anthropic rahmt diese Unterscheidung deutlich ein: Code-Vervollständigung schlägt die nächste Zeile vor, während Sie tippen, während Claude Code auf Projektebene agiert, über mehrere Dateien plant, Änderungen ausführt, Tests durchführt und bei Fehlern iteriert. In der Praxis ist es damit eher einem terminalnativen Junior-Entwickler ähnlich, der Routinetasks schnell erledigen kann, aber dennoch einer Überprüfung bedarf.
Diese Spannung zwischen Geschwindigkeit und Aufsicht ist ein großer Teil dessen, was unter „Vibe Coding" zusammengefasst wird; Was ist Vibe Coding? erläutert den Begriff, woher er stammt und wie sich Effizienz und Risiko in der Praxis darstellen.

Ein Detail, das beim schnellen Überfliegen der Dokumentation leicht übersehen wird: Die Terminal-CLI (und die VS Code-Oberfläche) können so konfiguriert werden, dass sie Drittanbieter-Anbieter nutzen. Hier kommen Ollama und llama.cpp ins Spiel.
Sobald Claude Code auf einen lokalen HTTP-Endpunkt zeigt, liegen die Kompromisse bezüglich Laufzeitumgebung, Hardware und Hosting außerhalb des Clients; dieser Vergleich der LLM-Hosting-Optionen im Jahr 2026 stellt Ollama, dedizierte Inferenz-Stacks und Cloud-Optionen an einem Ort zusammen.
Um zu sehen, wie Claude Code neben anderen KI-gestützten Coding- und Lieferworkflows passt, zieht dieser Leitfaden zu KI-Entwicklerwerkzeugen Copilot-ähnliche Assistenten, Automatisierung und Editor-Muster an einen Ort.
Für eine Tool-für-Tool-Aufstellung von Coding-Assistenten in derselben Kategorie führt Vergleich von KI-Coding-Assistenten auf einer höheren Ebene als dieser Installationsleitfaden durch Cursor, Copilot, Cline und die restlichen Tools.
Installation und Schnellstart von Claude Code
Installationsmöglichkeiten und ihre Implikationen
Es gibt mehrere Installationswege, und sie sind nicht gleichwertig:
- Native Installations-Skripte sind die Option „immer aktuell", da sie sich automatisch aktualisieren.
- Homebrew und WinGet sind die Option „kontrollierte Änderung", da Sie explizit aktualisieren.
Installationsbefehle (offizieller Schnellstart):
# macOS, Linux, WSL
curl -fsSL https://claude.ai/install.sh | bash
# Windows PowerShell
irm https://claude.ai/install.ps1 | iex
:: Windows CMD
curl -fsSL https://claude.ai/install.cmd -o install.cmd && install.cmd && del install.cmd
Starten Sie dann eine interaktive Sitzung innerhalb eines Projektordners:
cd /path/to/your/project
claude
Anmeldung und Kontotypen
Claude Code benötigt ein Konto, um im First-Party-Modus zu laufen. Der Schnellstart-Workflow unterstützt die Anmeldung über ein Claude-Abo (Pro, Max, Team, Enterprise), ein Console-Konto (API-Guthaben) oder unterstützte Cloud-Anbieter. Ein nützlicher operativer Hinweis: Bei der ersten Console-Anmeldung wird ein „Claude Code"-Arbeitsbereich für die zentrale Kostennachverfolgung erstellt.
Claude Code-Konfiguration: settings.json und Umgebungsvariablen
Wenn Claude Code magisch wirkt, wenn es funktioniert, fühlt es sich oft „geheimnisvoll" an, wenn es nicht funktioniert. Das Heilmittel ist das Verständnis seiner Konfigurationsschichtung und der wenigen Umgebungsvariablen, die tatsächlich von Bedeutung sind.
Einstellungsdateien und Prioritäten
Claude Code-Einstellungen sind hierarchisch aufgebaut und umfassen drei für Entwickler zugängliche Dateien:
- Benutzerebene, gilt überall: ~/.claude/settings.json
- Projektebene, in einem Repository geteilt: .claude/settings.json
- Lokale Ebene, maschinenspezifische Überschreibungen: .claude/settings.local.json (in .gitignore)
Die Prioritätsreihenfolge (von höchster zu niedrigster Priorität) lautet: verwaltetes Policy, CLI-Flags, lokal, Projekt, Benutzer. Diese Reihenfolge erklärt mehrere Momente des „Warum wird meine Konfiguration ignoriert".
Sie können Einstellungen interaktiv über den Befehl /config verwalten, der eine Einstellungs-Oberfläche innerhalb des REPL öffnet.
Umgebungsvariablen, die die Provider-Weiterleitung steuern
Claude Code kann zur Laufzeit durch Umgebungsvariablen gesteuert werden. Zwei Verhaltensbesonderheiten sollten als Designbeschränkungen behandelt werden:
-
Wenn ANTHROPIC_API_KEY gesetzt ist, verwendet Claude Code den Schlüssel anstelle eines Claude-Abo, auch wenn Sie angemeldet sind. Im Druckmodus (-p) wird der Schlüssel immer verwendet, wenn er vorhanden ist.
-
Wenn ANTHROPIC_BASE_URL auf einen nicht-first-party-Host (ein Proxy, ein Gateway oder einen lokalen Server) zeigt, sind einige Funktionen bewusst konservativ. Beispielsweise ist die MCP-Tool-Suche standardmäßig deaktiviert, es sei denn, Sie aktivieren sie explizit.
Ein minimales Muster für die Nutzung eines Gateways sieht so aus:
export ANTHROPIC_BASE_URL=https://your-gateway.example
export ANTHROPIC_API_KEY=sk-your-key
Hinweis zum Gateway: Claude Code erwartet bestimmte API-Formate. Für das Anthropic Messages-Format muss das Gateway /v1/messages und /v1/messages/count_tokens bereitstellen und die Header anthropic-beta sowie anthropic-version weiterleiten. Wenn ein Gateway diese Header ablehnt, gibt es eine dedizierte Option, experimentelle Betas zu entfernen.
Modellauswahl in Claude Code, wenn Sie Anthropic nicht direkt nutzen
Claude Code hat das Konzept von Aliassen (opus, sonnet, haiku) und unterstützt auch das Festlegen spezifischer Modell-IDs. Es gibt auch eine Whitelist, die einschränken kann, was Benutzer im Modell-Auswahlmenü auswählen können, selbst wenn sie über Drittanbieter weitergeleitet werden.
Ein pragmatisches Muster besteht darin, ein初始-Modell festzulegen und den Auswahlmenü einzuschränken, um dann über die Umgebungsvariable festzulegen, worauf „Standard" auflöst:
{
"model": "claude-sonnet-4-5",
"availableModels": ["claude-sonnet-4-5", "haiku"],
"env": {
"ANTHROPIC_DEFAULT_SONNET_MODEL": "claude-sonnet-4-5"
}
}
Ausführung selbst gehosteter LLMs über Ollama
Ollama ist derzeit der Weg mit dem geringsten Reibungsverlust, um Claude Code mit nicht-Anthropic-Modellen laufen zu lassen, da es eine Anthropic-kompatible API bereitstellt, mit der Claude Code kommunizieren kann.
Schnellsetup mit ollama launch
Wenn Ollama installiert und läuft, ist der schnelle Weg:
ollama launch claude
Oder spezifizieren Sie ein Modell beim Start:
ollama launch claude --model glm-4.7-flash
Manuelles Setup mit expliziten Umgebungsvariablen
Die Ollama-Integration dokumentiert eine einfache manuelle Verkabelung, bei der Claude Code über den Anthropic-kompatiblen API-Endpunkt mit Ollama kommuniziert:
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
export ANTHROPIC_BASE_URL=http://localhost:11434
claude --model qwen3.5
Dieses Muster ist auf eine nützliche Weise opinioniert: Es behandelt „Provider-Weiterleitung" als eine Frage der Umgebung, nicht als etwas, das Sie in einer GUI klicken.
Realitätscheck zum Kontextfenster
Agentisches Coding ist kontexthungrig. Ollama nennt dies unverblümt: Claude Code benötigt ein großes Kontextfenster und empfiehlt mindestens 64k Tokens. Wenn Ihr lokales Modell bei 8k oder 16k endet, wird Claude Code zwar noch laufen, aber das Versprechen der „Projektebene" wird fragil.
Für praktische Erfahrungen mit lokalem Modellverhalten in einer ähnlichen Terminal-Agenten-Konfiguration (Ollama und llama.cpp, Coding-Aufgaben und ehrliche Fehlernotizen) ist Beste LLMs für OpenCode - Lokal getestet eine nützliche Gegenprüfung, wenn Sie GGUF- oder Ollama-Tags für Claude Code einengen.
Ausführung selbst gehosteter LLMs über llama.cpp
llama.cpp ist aus dem entgegengesetzten Grund attraktiv: Es versucht nicht, eine Plattform zu sein. Es ist ein schneller, leichter Server, der sowohl OpenAI-kompatible Routen als auch eine Anthropic Messages API-kompatible Route bereitstellen kann.
Für Installationswege, llama-cli und llama-server-Verhalten über die unten stehenden Snippets hinaus ist llama.cpp Schnellstart mit CLI und Server die Referenz von Anfang bis Ende.
Was auf der Serverseite laufen soll
Der llama.cpp HTTP-Server (llama-server) unterstützt eine Anthropic-kompatible Messages API unter POST /v1/messages mit Streaming über SSE. Er bietet auch count_tokens unter /v1/messages/count_tokens an.
Zwei Details sind für Claude Code relevant:
- Der Server stellt keine starken Behauptungen über die vollständige Kompatibilität mit der Anthropic API-Spezifikation auf, sondern stellt fest, dass er für viele Anwendungen gut genug funktioniert.
- Tool-Nutzung erfordert den Start von llama-server mit der Flagge –jinja. Wenn Sie diese übersehen, wird sich Claude Code so verhalten, als hätte es plötzlich vergessen, wie man ein Agent ist.
Ein minimaler lokaler Lauf sieht so aus:
# llama-server bauen oder herunterladen und dann mit einem GGUF-Modell ausführen
./llama-server -m /models/your-model.gguf --jinja --host 127.0.0.1 --port 8080
Wenn Sie eine harte Authentifizierungsgrenze wünschen, kann llama-server mit einem API-Schlüssel konfiguriert werden:
./llama-server -m /models/your-model.gguf --jinja --api-key my-local-key --host 127.0.0.1 --port 8080
Zeigen Sie Claude Code auf llama-server
Mit dem laufenden Server ist Ihre Claude Code-Seite meist nur eine Basiss-URL-Überschreibung:
export ANTHROPIC_BASE_URL=http://127.0.0.1:8080
export ANTHROPIC_API_KEY=my-local-key # nur, wenn Sie --api-key auf llama-server aktiviert haben
claude --model your-model-alias
Wenn Sie keinen API-Schlüssel oder Authentifizierungstoken setzen, kann Claude Code versuchen, auf die Abo-Anmeldung zurückzufallen, was die Quelle vieler Beschwerden wie „Warum öffnet es einen Browser" ist.
Gesundheitschecks und erste Fehleranalyse
llama-server bietet einen einfachen Health-Endpunkt, der „loading model" zurückgibt, bis das Modell bereit ist, und „ok", wenn es nutzbar ist. Wenn Claude Code bei der ersten Anfrage zu hängen scheint, ist die Überprüfung von /health eine schnelle Möglichkeit, zwischen „Client-Konfigurationsfehler" und „Server lädt noch" zu unterscheiden.
Preisgestaltung und Kostenmodell
Die Preisgestaltung von Claude Code dreht sich weniger um „Kauf einer CLI" und mehr darum, „welche Abrechnungsleiste die Tokens unterstützt".
Abo-Pläne beinhalten Claude Code
Anthropic schließt Claude Code in bezahlten Claude-Abo-Stufen ein. Stand April 2026 listen die veröffentlichten Preisgestaltung:
- Pro für 17 $ pro Monat mit einem Jahresrabatt (200 $ im Voraus berechnet) oder 20 $ monatlich berechnet, und es beinhaltet Claude Code.
- Max-Pläne ab 100 $ pro Monat.
- Team-Pläne pro Sitzpreis, mit einem Standard-Sitz für 20 $ pro Sitz pro Monat jährlich berechnet (25 $ monatlich) und einem Premium-Sitz für 100 $ pro Sitz pro Monat jährlich berechnet (125 $ monatlich).
API-Token-Preisgestaltung
Wenn Sie Claude Code über die API-Abrechnung nutzen, folgen die Kosten den Token-Sätzen. Anthropic veröffentlicht Preisgestaltung pro Million Tokens (MTok) für Modelle wie:
- Haiku 4.5 bei 1 $/MTok Eingabe und 5 $/MTok Ausgabe.
- Sonnet 4.5 bei 3 $/MTok Eingabe und 15 $/MTok Ausgabe.
- Opus 4.5 bei 5 $/MTok Eingabe und 25 $/MTok Ausgabe.
Kostenkontrollen in der CLI
Der Druckmodus (-p) unterstützt direkte Budgetgrenzen wie –max-budget-usd, was hilfreich ist, wenn Sie Aufgaben skripten und eine vorhersehbare Ausgabe wünschen.
In interaktiven Sitzungen zeigt /cost Token-Nutzungsstatistiken an.
Lokale Backends ändern die Rechnung, nicht die Physik
Die Weiterleitung von Claude Code zu Ollama oder llama.cpp kann pro-Token-API-Rechnungen entfernen, macht die Arbeit aber nicht kostenlos. Sie tauschen Cloud-Kosten gegen lokale Rechenleistung, Speicher und „jemand besitzt die Verfügbarkeit" aus. Für einige Teams ist dieser Trade-off der gesamte Punkt.
Typischer Workflow: vom Plan zum PR
Meine Voreingenommenheit ist, dass Claude Code am stärksten ist, wenn Sie es als Workflow-Engine und nicht als Chatbot behandeln. Die Tooling-Hinweise deuten darauf hin.
Beginnen Sie mit dem Berechtigungsmodell, nicht mit dem Prompt
Claude Code ist durch Design berechtigungsgesperrt. Die Dokumente beschreiben ein gestaffeltes Modell: Nur-Lese-Operationen wie Dateilesungen und Grep sind erlaubt, während Bash-Befehle und Dateimodifikationen eine Genehmigung benötigen.
Berechtigungsmodi existieren, um die Reibung zu verwalten. In der CLI können Sie Modi mit Shift+Tab wechseln (Standard -> acceptEdits -> Plan). Der Plan-Modus liest und schlägt Änderungen vor, führt aber keine Bearbeitung durch. Der acceptEdits-Modus erlaubt Claude Code, Dateien in Ihrem Arbeitsverzeichnis zu erstellen und zu bearbeiten, ohne zu fragen, während es dennoch für Befehle mit Nebenwirkungen außerhalb seiner sicheren Liste fragt.
Der Auto-Modus ist eine neuere Option, die Prompts reduziert, indem Genehmigungen einem Klassifizierer delegiert werden, und positioniert sich als sicherer Mittelweg zwischen ständigen Prompts und dem vollständigen Deaktivieren von Prompts. Er erfordert eine Mindestversion von Claude Code sowie spezifische Plan- und Modell-Anforderungen.
Nutzen Sie integrierte Befehle, um Sitzungen ehrlich zu halten
Einige Befehle verwandeln Claude Code von „Assistent" in „Werkzeug":
- /init generiert einen CLAUDE.md-Projektleitfaden, der eine leichte Art ist, konsistenten Kontext zu füttern.
- /diff gibt eine interaktive Ansicht der Änderungen, einschließlich Diff pro Zug.
- /rewind ermöglicht es, das Gespräch und/oder den Code mit Checkpoints auf einen früheren Punkt zurückzusetzen.
- /debug aktiviert Debug-Logging mitten in der Sitzung.
- /doctor diagnostiziert und verifiziert Ihre Installation und Einstellungen.
Dies sind keine Gimmicks; sie sind die Sicherheitsgeländer, auf die Sie sich stützen, wenn ein Agent mehr bearbeitet, als Sie erwartet haben.
Wann Sie nicht-interaktiv gehen sollten
Für One-Shot-Aufgaben (Erklären, Zusammenfassen, Generieren eines Patch-Plans) ist der Druckmodus eine gute Wahl:
claude -p "Fassen Sie die Repository-Architektur zusammen und listen Sie die riskantesten Module auf"
Es beendet sich nach der Antwort, was gut in Skripten und CI funktioniert.
Fehlerbehebungs-Checkliste
Die meisten Claude Code-Probleme sind im Verkleidung Konfigurationsprobleme. Hier ist eine Checkliste, die häufige Symptome dem zugrunde liegenden Mechanismus zuordnet.
Claude Code fragt ständig nach der Anmeldung, während ein lokaler Server genutzt wird
Dies bedeutet typischerweise, dass Claude Code immer noch versucht, First-Party-Abo-Authentifizierung zu nutzen. Stellen Sie sicher, dass Sie einen expliziten Authentifizierungsmodus für das Proxy setzen:
- Setzen Sie ANTHROPIC_API_KEY für Gateways, die X-Api-Key erwarten.
- Oder setzen Sie ANTHROPIC_AUTH_TOKEN für Gateways, die Authorization Bearer nutzen.
Denken Sie daran, dass ANTHROPIC_API_KEY die Abo-Nutzung überschreibt, auch wenn Sie angemeldet sind, und im interaktiven Modus müssen Sie diese Überschreibung möglicherweise einmal genehmigen.
Das Gateway meldet Fehler bei anthropic-beta-Headern
Einige Gateways lehnen unbekannte Header oder Beta-Felder ab. Es gibt eine Umgebungsvariable, die genau für diesen Fehlermodus entwickelt wurde:
export CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1
Die LLM-Gateway-Dokumentation stellt ebenfalls fest, dass Sie dies möglicherweise benötigen, wenn Sie das Anthropic Messages-Format mit Bedrock oder Vertex nutzen.
Tool-Aufrufe funktionieren nicht bei llama.cpp
Überprüfen Sie die Server-Flags. llama-server dokumentiert, dass Tool-Nutzung die Flagge –jinja erfordert. Ohne sie kann der Server antworten, aber der Agenten-Loop wird sich verschlechtern.
Berechtigungsabfragen unterbrechen jeden Befehl
Das kann je nach Modus und Berechtigungsregeln normal sein. Optionen umfassen:
- Temporäres Wechseln zu acceptEdits (Dateibearbeitungen fließen schneller).
- Explizite Erlaubnisregeln für bekannte sichere Bash-Befehle in settings.json schreiben.
- Nutzung von /sandbox, um das Bash-Tool zu isolieren und Prompts zu reduzieren.
- Evaluierung des Auto-Modus, falls Ihr Plan und Ihre Version dies unterstützen, als Mittelweg.
Etwas fühlt sich falsch an und Sie benötigen Observability
Nutzen Sie die integrierten Funktionen:
- /doctor zur Validierung der Installation und Einstellungen.
- /debug, um ab diesem Punkt Logs zu erfassen.
- Wenn Sie im Druckmodus sind, erwägen Sie ein enges Max-Budget und Max-Turns, um Experimente begrenzt zu halten.