LLM Hosting

TGI – Text Generation Inference – Installation, konfiguration och felsökning

Text Generation Inference (TGI) har en mycket specifik energi. Det är inte den nyaste killen på inferensgatan, men det är den som redan har lärt sig hur produktion bryts –

Fjärråtkomst till Ollama via Tailscale eller WireGuard utan publika portar.

Ollama är som mest lyckligt när det behandlas som en lokal daemon: CLI:n och dina appar pratar med en loopback HTTP-API, och resten av nätverket får aldrig veta att det finns.

Ollama i Docker Compose med GPU och bestående modelllagring

Ollama fungerar utmärkt på “bare metal”. Det blir ännu mer intressant när du behandlar det som en tjänst: en stabil slutpunkt, fastlagda versioner, beständig lagring och en GPU som antingen är tillgänglig eller inte.

Ollama bakom en omvänd proxy med Caddy eller Nginx för HTTPS-strömning

Att köra Ollama bakom en omvänd proxy är det enklaste sättet att få HTTPS, valfri åtkontroll och förutsägbart strömmande beteende.

SGLang-Start: Installera, konfigurera och servera LLM via OpenAI API

SGLang är ett högpresterande ramverk för servering av stora språkmodeller och multimodala modeller, byggt för att leverera inferens med låg latens och hög genomströmning över allt från en enda GPU till distribuerade kluster.

llama.swap Modelväxlar: Snabbguide för lokala LLM:ar med OpenAI-kompatibilitet

Snart balanserar du vLLM, llama.cpp och mer – varje stack på sin egen port. Allt nedströms vill fortfarande ha en enda /v1-bas-URL; annars fortsätter du att flytta runt portar, profiler och engångsscript. llama-swap är /v1-proxyn framför dessa stackar.

LocalAI QuickStart: Kör OpenAI-kompatibla LLMs lokalt

LocalAI är en självhostad, lokal-först inferensserver designad för att bete sig som en drop-in OpenAI API för att köra AI-arbetsbelastningar på din egen hårdvara (bärbar dator, arbetsstation eller on-prem-server).

Jag kommer alltid tillbaka till llama.cpp för lokal inferens – det ger dig kontroll som Ollama och andra abstraherar bort, och det fungerar bara. Det är lätt att köra GGUF-modeller interaktivt med llama-cli eller exponera en OpenAI-kompatibel HTTP-API med llama-server.

Self-hosting av LLM:er håller data, modeller och inferens under din kontroll – en praktisk väg till AI-soveränitet för team, företag och nationer.

Öppna WebUI är ett kraftfullt, utökligt och funktionstomt självvärddat webbgränssnitt för att interagera med stora språkmodeller.

vLLM är en högflödes- och minneseffektiv inferens- och serveringmotor för stora språkmotorer (LLM) som utvecklats av UC Berkeleys Sky Computing Lab.

Välj rätt LLM för Cognee: Lokal Ollama-konfiguration

Välj den Bästa LLM för Cognee kräver att balansera kvaliteten på grafbygge, hallucinationsfrekvens och hårdvarukonster. Cognee presterar bäst med större, låg-hallucination modeller (32B+) via Ollama men medelstorleksalternativ fungerar för lättare konfigurationer.

Ollama jämfört med vLLM och LM Studio: Bäst sätt att köra LLM lokalt 2026?

Att köra LLM:ar lokalt är nu praktiskt för utvecklare, startups och till och med företagsam team.
Men valet av rätt verktyg — Ollama, vLLM, LM Studio, LocalAI eller andra — beror på dina mål:

Docker Model Runner: Guide för inställning av kontextstorlek

Konfigurera kontextstorlek i Docker Model Runner är mer komplex än det borde vara.

Lägg till stöd för NVIDIA GPU i Docker Model Runner

Docker Model Runner är Docks officiella verktyg för att köra AI-modeller lokalt, men aktivera NVidia GPU-acceleration i Docker Model Runner kräver specifik konfiguration.

Docker Model Runner Cheatsheet: Kommandon & Exempel

Docker Model Runner (DMR) är Docks officiella lösning för att köra AI-modeller lokalt, introducerad i april 2025. Den här cheatsheten ger en snabb referens för alla viktiga kommandon, konfigurationer och bästa praxis.

LLM Hosting

TGI – Text Generation Inference – Installation, konfiguration och felsökning

Fjärråtkomst till Ollama via Tailscale eller WireGuard utan publika portar.

Ollama i Docker Compose med GPU och bestående modelllagring

Ollama bakom en omvänd proxy med Caddy eller Nginx för HTTPS-strömning

SGLang-Start: Installera, konfigurera och servera LLM via OpenAI API

llama.swap Modelväxlar: Snabbguide för lokala LLM:ar med OpenAI-kompatibilitet

LocalAI QuickStart: Kör OpenAI-kompatibla LLMs lokalt

llama.cpp Snabbstart med CLI och Server

LLM-selvvärdighet och AI-soveränitet

Öppen WebUI: Eget värd LLM-gränssnitt

vLLM Snabbstart: Högpresterande LLM-serving – 2026

Välj rätt LLM för Cognee: Lokal Ollama-konfiguration

Ollama jämfört med vLLM och LM Studio: Bäst sätt att köra LLM lokalt 2026?

Docker Model Runner: Guide för inställning av kontextstorlek

Lägg till stöd för NVIDIA GPU i Docker Model Runner

Docker Model Runner Cheatsheet: Kommandon & Exempel