LLM Hosting

Ollama in Docker Compose met GPU en persistente modelopslag

Ollama in Docker Compose met GPU en persistente modelopslag

Componeren-als-basis Ollama-server met GPU en persistentie.

Ollama werkt uitstekend op bare metal. Het wordt nog interessanter wanneer je het als een service behandelt: een stabiel eindpunt, vastgezet versies, persistente opslag en een GPU die ofwel beschikbaar is of niet.

LocalAI QuickStart: Voer OpenAI-compatibele LLM's lokaal uit

LocalAI QuickStart: Voer OpenAI-compatibele LLM's lokaal uit

Host OpenAI-compatibele API's in enkele minuten met LocalAI.

LocalAI is een self-hosted, local-first inference server die ontworpen is om te gedragen als een drop-in OpenAI API voor het uitvoeren van AI-werklasten op uw eigen hardware (laptop, workstation of on-premise server).

llama.cpp Quickstart met CLI en Server

llama.cpp Quickstart met CLI en Server

Hoe te installeren, configureren en gebruiken van OpenCode

Ik kom steeds terug bij llama.cpp voor lokale inferentie — het geeft je controle die Ollama en anderen abstracten, en het werkt gewoon. Eenvoudig om GGUF-modellen interactief te draaien met llama-cli of een OpenAI-compatibele HTTP API te tonen met llama-server.