LLM Hosting

Vane (Perplexica 2.0) Schnellstart mit Ollama und llama.cpp

Vane (Perplexica 2.0) Schnellstart mit Ollama und llama.cpp

Selbst gehostete KI-Suche mit lokalen LLMs

Vane ist einer der pragmatischeren Einträge im Bereich „KI-Suche mit Quellenangaben": eine selbst gehostete Antwortmaschine, die live abrufbare Websuche mit lokalen oder Cloud-LLMs kombiniert, während der gesamte Stack unter Ihrer Kontrolle bleibt.

Ollama in Docker Compose mit GPU und persistenter Modell-Speicherung

Ollama in Docker Compose mit GPU und persistenter Modell-Speicherung

Compose-first Ollama-Server mit GPU und Persistenz.

Ollama funktioniert hervorragend auf Bare Metal. Es wird noch interessanter, wenn man es wie einen Service behandelt: ein stabiler Endpunkt, fixierte Versionen, persistente Speicherung und eine GPU, die entweder verfügbar ist oder eben nicht.

llama.swap Modellwechsler: Schnellstart für OpenAI-kompatible lokale LLMs

llama.swap Modellwechsler: Schnellstart für OpenAI-kompatible lokale LLMs

Lokale LLMs ohne Änderung der Clients austauschen.

Bald jonglieren Sie mit vLLM, llama.cpp und mehr – jeder Stack auf einem eigenen Port. Alles nachgeschaltete System erwartet dennoch eine einzige /v1-Basis-URL; andernfalls sortieren Sie ständig Ports, Profile und Einmal-Skripte neu. llama-swap ist der /v1-Proxy vor diesen Stacks.

LocalAI QuickStart: OpenAI-kompatible LLMs lokal ausführen

LocalAI QuickStart: OpenAI-kompatible LLMs lokal ausführen

Bereitstellen von OpenAI-kompatiblen APIs mit LocalAI in wenigen Minuten auf dem eigenen Server.

LocalAI ist ein selbstgehosteter, lokal-first Inferenzserver, der sich wie eine Drop-in OpenAI API verhält, um KI-Arbeitslasten auf Ihrer eigenen Hardware (Laptop, Workstation oder lokaler Server) auszuführen.

Schnellstart mit llama.cpp über CLI und Server

Schnellstart mit llama.cpp über CLI und Server

So installieren, konfigurieren und nutzen Sie OpenCode

Ich komme immer wieder auf llama.cpp für die lokale Inferenz zurück – es bietet Kontrolle, die Ollama und andere abstrahieren, und es funktioniert einfach. Es ist einfach, GGUF-Modelle interaktiv mit llama-cli auszuführen oder eine OpenAI-kompatible HTTP-API mit llama-server bereitzustellen.

Ollama vs. vLLM vs. LM Studio: Der beste Weg, LLMs 2026 lokal auszuführen?

Ollama vs. vLLM vs. LM Studio: Der beste Weg, LLMs 2026 lokal auszuführen?

Vergleichen Sie die besten lokalen Tools für das Hosting von LLMs im Jahr 2026. API-Reife, Hardware-Unterstützung, Tool Calling und reale Anwendungsfälle.

Das lokale Ausführen von LLMs ist für Entwickler, Startups und sogar Unternehmenseinsätze jetzt praktikabel. Die Wahl des richtigen Tools – Ollama, vLLM, LM Studio, LocalAI oder andere – hängt jedoch von Ihren Zielen ab: