LLM - Page 4 - Rost Glukhov | Personlig webbplats och teknisk blogg

Llama.swap Modellväxlar – Snabbstart för lokala, OpenAI-kompatibla LLM:ar

Snart kastar du mellan vLLM, llama.cpp och mer – varje stack på sin egen port. Allt nedströms vill fortfarande ha en enda bas-URL /v1; annars fortsätter du att shuffla med portar, profiler och skript för enskilda fall. llama-swap är /v1-proxyn som ligger framför dessa stackar.

AI-system: Självhostade assistenter, RAG och lokal infrastruktur

De flesta lokala AI-installationer börjar med en modell och en körningstid (runtime).

Oh My Opencode-granskning: Ärliga resultat, faktureringsrisker och när det är värt det

Oh My Opencode lovar om ett “virtuellt AI-utvecklingsteam” — där Sisyphus dirigerar specialister, uppgifter körs parallellt och magiska nyckelordet ultrawork aktiverar allt.

Oh My Opencode Snabbstart för OpenCode: Installera, Konfigurera och Kör

Oh My Opencode gör OpenCode till en multi-agent kodningsplattform: en orkestrator delegerar arbete till specialiserade agenter som kör parallellt.

Bästa LLM:er för OpenCode – Från Gemma 4 till Qwen 3.6, testat lokalt

Jag har testat hur OpenCode fungerar med flera lokalt körda LLM:er på Ollama och llama.cpp, och för jämförelsens skull har jag även lagt till några kostnadsfria modeller från OpenCode Zen.

En djupdykning och modellguide för Oh My Opencode:s specialiserade agenter

Det största kapacitetsspranget i OpenCode kommer från specialiserade agenter: en medveten separering av orkestrering, planering, exekvering och forskning.

OpenHands Coding Assistant – Snabbstart: Installation, CLI-flaggor och exempel

OpenHands är en öppen källkodsplattform som är modellagnostisk för AI-drivna agenter för mjukvaruutveckling. Den låter en agent bete sig mer som en kodpartner än ett enkelt verktyg för automatisk komplettering.

LocalAI QuickStart: Kör OpenAI-kompatibla LLMs lokalt

LocalAI är en självhostad, lokal-först inferensserver designad för att bete sig som en drop-in OpenAI API för att köra AI-arbetsbelastningar på din egen hårdvara (bärbar dator, arbetsstation eller on-prem-server).

Snabbstart för llama.cpp med CLI och server

Jag återkommer gång på gång till llama.cpp för lokal inferens – det ger dig kontroll som Ollama och andra abstraherar bort, och det fungerar bara enkelt. Det är lätt att köra GGUF-modeller interaktivt med llama-cli eller exponera ett OpenAI-kompatibelt HTTP-API med llama-server.

Verktyg för AI-utveckling: Den kompletta guiden till AI-driven utveckling

Artificiell intelligens (AI) formar om hur programkod skrivs, granskas, distribueras och underhålls. Från AI-assisterad kodning till GitOps-automatisering och DevOps-arbetsflöden förlitar sig utvecklare numera på verktyg drivna av AI under hela programvarans livscykel.

OpenCode snabbstart: Installera, konfigurera och använd terminal-AI-kodningsagenten

OpenCode är en öppen källkods-Agent för AI-kodning som du kan köra i terminalen (TUI + CLI) med valfria gränssnitt för skrivbord och IDE. Detta är OpenCode-quickstarten: installera, verifiera, anslut en modell/leverantör och kör verkliga arbetsflöden (CLI + API).

Övervakning av LLM-inferens i produktion (2026): Prometheus & Grafana för vLLM, TGI och llama.cpp

LLM-inferens ser ut som “en API till” – fram till dess att latens toppar, köer backar upp och dina GPU:er sitter på 95 % minnesanvändning utan någon uppenbar förklaring.

OpenClaw Startguide: Installera med Docker (Ollama GPU eller Claude + CPU)

OpenClaw är en självhostad AI-assistent som är designad för att köras med lokala LLM-runtime som Ollama eller med molnbaserade modeller som Claude Sonnet.

OpenClaw: En granskning av en självhostad AI-assistent som ett verkligt system

De flesta lokala AI-installationer börjar på samma sätt: en modell, en runtime och ett chattgränssnitt.

Att implementera arbetsflödesapplikationer med Temporal i Go: En komplett guide

Temporal är en öppen källkodsarbetsflödesmotor av företagsklass som möjliggör för utvecklare att bygga varaktiga, skalbara och feltoleranta arbetsflödesapplikationer med hjälp av välkända programmeringsspråk som Go.

Observabilitet för LLM-system: Mätvärden, spårning, loggar och testning i produktion

LLM-system (storspråkmodeller) misslyckas på sätt som traditionell API-övervakning inte kan upptäcka — köer fylls tyst, GPU-minne mättas långt innan CPU ser ut att vara upptagen, och latens ökar explosionsartat vid batchlageret snarare än vid applikationslagret.