Cheatsheet

llama.swap Modellwechsler: Schnellstart für OpenAI-kompatible lokale LLMs

llama.swap Modellwechsler: Schnellstart für OpenAI-kompatible lokale LLMs

Lokale LLMs ohne Änderung der Clients austauschen.

Bald jonglieren Sie mit vLLM, llama.cpp und mehr – jeder Stack auf einem eigenen Port. Alles nachgeschaltete System erwartet dennoch eine einzige /v1-Basis-URL; andernfalls sortieren Sie ständig Ports, Profile und Einmal-Skripte neu. llama-swap ist der /v1-Proxy vor diesen Stacks.

LocalAI QuickStart: OpenAI-kompatible LLMs lokal ausführen

LocalAI QuickStart: OpenAI-kompatible LLMs lokal ausführen

Bereitstellen von OpenAI-kompatiblen APIs mit LocalAI in wenigen Minuten auf dem eigenen Server.

LocalAI ist ein selbstgehosteter, lokal-first Inferenzserver, der sich wie eine Drop-in OpenAI API verhält, um KI-Arbeitslasten auf Ihrer eigenen Hardware (Laptop, Workstation oder lokaler Server) auszuführen.

Schnellstart für llama.cpp mit CLI und Server

Schnellstart für llama.cpp mit CLI und Server

So installieren, konfigurieren und nutzen Sie OpenCode

Ich komme immer wieder auf llama.cpp für die lokale Inferenz zurück – es bietet Ihnen eine Kontrolle, die Ollama und andere abstrahieren, und es funktioniert einfach. Es ist einfach, GGUF-Modelle interaktiv mit llama-cli auszuführen oder eine OpenAI-kompatible HTTP-API mit llama-server bereitzustellen.