Self-Hosting

Avladda alla llama.cpp-routermodeller utan att starta om

Routerläge för llama.cpp är en av de mest användbara förändringarna i llama-server på flera år. Det ger slutligen lokala aktörer av LLM (Large Language Models) något som liknar modellhanteringsupplevelsen som man förväntar sig från Ollama, samtidigt som det behåller den råa prestanda och den lågnivåkontroll som gör llama.cpp värd att använda i första hand.

Referens för agenta LLM-inferensparametrar för Qwen och Gemma

Denna sida är en praktisk referens för justering av agentic LLM-inferens (temperatur, top_p, top_k, strafftermer och hur de samverkar i flerstegs- och verktygstäta arbetsflöden).

Du chattar redan med Hermes Agent från din telefon med text. Nu vill du prata med den direkt och få muntliga svar tillbaka. Det är oftast rätt val, särskilt om du redan använder Hermes som en självhostad assistent. Att skriva långa prompter på en liten skärm är långsamt och benäget för fel

NemoClaws praktiska guide för säkra OpenClaw-operationer 2026

De flesta AI-agentstackar behandlar fortfarande säkerhet som en korrigering efter demonstrationen. NemoClaw utgår från motsatta antaganden och gör isolering, policy och ruttning till standard från dag ett.

Kunskapsstyrning 2026: PKM-verktyg, självhostade wikier och digitala system

Personlig kunskapsförvaltning omfattar Obsidian, Logseq, DokuWiki, Zettelkasten och PARA – rätt val beror på om du vill ha ett lokalt anteckningsnätverk, en självhostad wiki eller ett arbetsflöde driven av outliner.

Claude, OpenClaw och slutet på fast prisbildning för agenter

Den tysta luckan som drev en våg av agentexperiment är nu stängd.

Vane (Perplexica 2.0) – Snabbstart med Ollama och llama.cpp

Vane är en av de mer pragmatiska lösningarna inom området för “AI-sök med källhänvisningar”: ett självärbetet svarsmotor som blandar live-webbhämtning med lokala eller molnbaserade LLM:er, samtidigt som hela stacken hålls under din kontroll.

TGI – Text Generation Inference – Installation, konfiguration och felsökning

Text Generation Inference (TGI) har en mycket specifik energi. Det är inte den nyaste killen på inferensgatan, men det är den som redan har lärt sig hur produktion bryts –

16 GB VRAM LLM-benchmarks med llama.cpp (hastighet och kontext)

Här jämför jag hastigheten för flera LLM-modeller som körts på en GPU med 16 GB VRAM och väljer den bästa för självhostning.

RTX 5090 i Australien: Prissättning, lager och verkligheten i mars 2026

Australien har lagervaror av RTX 5090. Knappast. Och om du hittar en, kommer du att betala en premie som känns frånkopplad från verkligheten.

Fjärråtkomst till Ollama via Tailscale eller WireGuard utan publika portar.

Ollama är som mest lyckligt när det behandlas som en lokal daemon: CLI:n och dina appar pratar med en loopback HTTP-API, och resten av nätverket får aldrig veta att det finns.

Ollama i Docker Compose med GPU och bestående modelllagring

Ollama fungerar utmärkt på “bare metal”. Det blir ännu mer intressant när du behandlar det som en tjänst: en stabil slutpunkt, fastlagda versioner, beständig lagring och en GPU som antingen är tillgänglig eller inte.

Ollama bakom en omvänd proxy med Caddy eller Nginx för HTTPS-strömning

Att köra Ollama bakom en omvänd proxy är det enklaste sättet att få HTTPS, valfri åtkontroll och förutsägbart strömmande beteende.

Textinbäddningar för RAG och sökning – Python, Ollama, OpenAI-kompatibla API:er

Om du arbetar med retrieval-augmented generation (RAG), går detta avsnitt igenom textembeddings i enkla termer – vad de är, hur de passar in i sökning och hämtning, och hur du anropar två vanliga lokala konfigurationer från Python med hjälp av Ollama eller en OpenAI-kompatibel HTTP-API (vilket många llama.cpp-baserade servrar exponerar).

IndexNow förklarat – meddela sökmotorer när du publicerar

Statiska webbplatser och bloggar ändras när du deployar. Sökmotorer som stöder IndexNow kan få veta om dessa förändringar utan att vänta på nästa blind krypning.

SGLang-Start: Installera, konfigurera och servera LLM via OpenAI API

SGLang är ett högpresterande ramverk för servering av stora språkmodeller och multimodala modeller, byggt för att leverera inferens med låg latens och hög genomströmning över allt från en enda GPU till distribuerade kluster.