LLM Hosting

TGI - Text Generation Inference - Installeren, configureren en oplossen van problemen

Text Generation Inference (TGI) heeft een zeer specifieke energie. Het is niet de nieuwste speler op de inference-straat, maar het is wel degene die al heeft geleerd hoe productie faalt en

Op afstand toegang tot Ollama via Tailscale of WireGuard, zonder openbare poorten.

Ollama is het meest tevreden wanneer het wordt behandeld als een lokale daemon: de CLI en uw apps communiceren met een loopback HTTP API, en de rest van het netwerk komt er nooit achter dat het bestaat.

Ollama in Docker Compose met GPU en persistente modelopslag

Ollama werkt uitstekend op bare metal. Het wordt nog interessanter wanneer je het als een service behandelt: een stabiel eindpunt, vastgezet versies, persistente opslag en een GPU die ofwel beschikbaar is of niet.

Ollama achter een reverse proxy met Caddy of Nginx voor HTTPS-streaming

Ollama achter een reverse proxy draaien is de eenvoudigste manier om HTTPS, optionele toegangscontrole en voorspelbaar streamgedrag te krijgen.

SGLang QuickStart: installeer, configureer en serveer LLM's via de OpenAI API

SGLang is een high-performance framework voor het uitvoeren van inference bij grote taalmodellen en multimodale modellen, ontworpen om lage latentie en hoge doorvoer te leveren, variërend van een enkele GPU tot gedistribueerde clusters.

Snelstart voor llama.swap Model Switcher voor lokaal met OpenAI-compatibele LLM's

Binnenkort juggle je vLLM, llama.cpp en meer – elk stack op zijn eigen poort. Alles downstream wil nog steeds één /v1-basis-URL; anders blijf je poorten, profielen en eenmalige scripts shuffelen. llama-swap is de /v1-proxy voor die stacks.

LocalAI QuickStart: Voer OpenAI-compatibele LLM's lokaal uit

LocalAI is een self-hosted, local-first inference server die ontworpen is om te gedragen als een drop-in OpenAI API voor het uitvoeren van AI-werklasten op uw eigen hardware (laptop, workstation of on-premise server).

Ik kom steeds terug bij llama.cpp voor lokale inferentie — het geeft je controle die Ollama en anderen abstracten, en het werkt gewoon. Eenvoudig om GGUF-modellen interactief te draaien met llama-cli of een OpenAI-compatibele HTTP API te tonen met llama-server.

Self-hosting van LLMs houdt gegevens, modellen en inferentie onder jouw controle - een praktische weg naar AI-sovereiniteit voor teams, bedrijven en naties.

Open WebUI is een krachtig, uitbreidbaar en functierijk zelfgehost webinterface voor het communiceren met grote taalmodellen.

vLLM is een inference- en serving-engine met hoge doorvoer en geheugenefficiëntie voor Large Language Models (LLM’s), ontwikkeld door het Sky Computing Lab van UC Berkeley.

De juiste LLM kiezen voor Cognee: lokale Ollama-installatie

Kiezen voor de Beste LLM voor Cognee vereist het balanceren van de kwaliteit van het bouwen van grafieken, hallucinatiepercentages en hardwarebeperkingen. Cognee excelleert met grotere modellen met lage hallucinatiepercentages (32B+) via Ollama, maar middelgrote opties werken voor lichtere opstellingen.

Ollama versus vLLM versus LM Studio: de beste manier om LLM's lokaal uit te voeren in 2026?

Lokaal draaien van LLM’s is nu praktisch voor ontwikkelaars, startups en zelfs enterprise-teams.
Het kiezen van het juiste instrument — Ollama, vLLM, LM Studio, LocalAI of anderen — hangt echter af van uw doelen:

Docker Model Runner: Gids voor het configureren van contextgrootte

Het instellen van contextgrootte in Docker Model Runner is complexer dan het zou moeten zijn.

GPU-onsteunigheid van NVIDIA toevoegen aan Docker Model Runner

Docker Model Runner is Docker’s officiële tool om AI-modellen lokaal uit te voeren, maar NVIDIA GPU-acceleratie inschakelen in Docker Model Runner vereist specifieke configuratie.

Docker Model Runner Cheatsheet: Opdrachten & Voorbeelden

Docker Model Runner (DMR) is de officiële oplossing van Docker voor het lokaal uitvoeren van AI-modellen, geïntroduceerd in april 2025. Deze cheatsheet biedt een snelle verwijzing naar alle essentiële opdrachten, configuraties en beste praktijken.

LLM Hosting

TGI - Text Generation Inference - Installeren, configureren en oplossen van problemen

Op afstand toegang tot Ollama via Tailscale of WireGuard, zonder openbare poorten.

Ollama in Docker Compose met GPU en persistente modelopslag

Ollama achter een reverse proxy met Caddy of Nginx voor HTTPS-streaming

SGLang QuickStart: installeer, configureer en serveer LLM's via de OpenAI API

Snelstart voor llama.swap Model Switcher voor lokaal met OpenAI-compatibele LLM's

LocalAI QuickStart: Voer OpenAI-compatibele LLM's lokaal uit

llama.cpp Quickstart met CLI en Server

LLM Self-Hosting en AI Soevereiniteit

Open WebUI: zelfgehoste LLM-interface

vLLM Quickstart: Hoogpresterende LLM-berekening - in 2026

De juiste LLM kiezen voor Cognee: lokale Ollama-installatie

Ollama versus vLLM versus LM Studio: de beste manier om LLM's lokaal uit te voeren in 2026?

Docker Model Runner: Gids voor het configureren van contextgrootte

GPU-onsteunigheid van NVIDIA toevoegen aan Docker Model Runner

Docker Model Runner Cheatsheet: Opdrachten & Voorbeelden