LLM Hosting

Ollama in Docker Compose mit GPU und persistenter Modell-Speicherung

Ollama in Docker Compose mit GPU und persistenter Modell-Speicherung

Compose-first Ollama-Server mit GPU und Persistenz.

Ollama funktioniert hervorragend auf Bare Metal. Es wird noch interessanter, wenn man es wie einen Service behandelt: ein stabiler Endpunkt, fixierte Versionen, persistente Speicherung und eine GPU, die entweder verfügbar ist oder eben nicht.

llama.swap Modell-Switcher Schnellstart für OpenAI-kompatible lokale LLMs

llama.swap Modell-Switcher Schnellstart für OpenAI-kompatible lokale LLMs

Hot-Swap lokaler LLMs ohne Änderung der Clients.

In Kürze jonglieren Sie mit vLLM, llama.cpp und mehr – jede Stack auf einem eigenen Port. Alles nachgeschaltete System erwartet dennoch eine einzige /v1-Basis-URL; sonst müssen Sie ständig Ports, Profile und Einweg-Skripte verwalten. llama-swap ist der /v1-Proxy vor diesen Stacks.

LocalAI QuickStart: OpenAI-kompatible LLMs lokal ausführen

LocalAI QuickStart: OpenAI-kompatible LLMs lokal ausführen

Bereitstellen von OpenAI-kompatiblen APIs mit LocalAI in wenigen Minuten auf dem eigenen Server.

LocalAI ist ein selbstgehosteter, lokal-first Inferenzserver, der sich wie eine Drop-in OpenAI API verhält, um KI-Arbeitslasten auf Ihrer eigenen Hardware (Laptop, Workstation oder lokaler Server) auszuführen.

llama.cpp Schnellstart mit CLI und Server

llama.cpp Schnellstart mit CLI und Server

Wie Sie OpenCode installieren, konfigurieren und verwenden können

Ich komme immer wieder zu llama.cpp für lokale Inferenz – es gibt Ihnen die Kontrolle, die Ollama und andere abstrahieren, und es funktioniert einfach. Es ist leicht, GGUF-Modelle interaktiv mit llama-cli zu nutzen oder eine OpenAI-kompatible HTTP-API mit llama-server bereitzustellen.

Ollama vs. vLLM vs. LM Studio: Der beste Weg, LLMs 2026 lokal auszuführen?

Ollama vs. vLLM vs. LM Studio: Der beste Weg, LLMs 2026 lokal auszuführen?

Vergleichen Sie die besten lokalen Tools für das Hosting von LLMs im Jahr 2026. API-Reife, Hardware-Unterstützung, Tool Calling und reale Anwendungsfälle.

Das lokale Ausführen von LLMs ist für Entwickler, Startups und sogar Unternehmenseinsätze jetzt praktikabel. Die Wahl des richtigen Tools – Ollama, vLLM, LM Studio, LocalAI oder andere – hängt jedoch von Ihren Zielen ab: