AI - Rost Glukhov | Personlig webbplats och teknisk blogg

Avladda alla llama.cpp-routermodeller utan att starta om

Routerläge för llama.cpp är en av de mest användbara förändringarna i llama-server på flera år. Det ger slutligen lokala aktörer av LLM (Large Language Models) något som liknar modellhanteringsupplevelsen som man förväntar sig från Ollama, samtidigt som det behåller den råa prestanda och den lågnivåkontroll som gör llama.cpp värd att använda i första hand.

LLM Wiki - Sammanställt kunskapsunderlag som RAG inte kan ersätta

Premissen är enkel: sammanställd kunskap är mer återanvändbar än hämtade fragment. RAG blev det självklara svaret på en enkel fråga – hur ger jag en LLM (storspråkmodell) tillgång till extern kunskap?

PKM, RAG, wiki och minnessystem – en tydlig förklaring

PKM, RAG, wikier och AI-minnessystem diskuteras ofta som om de löser samma problem. Det gör de inte. De har alla att göra med kunskap, men de opererar på olika lager:

Validering av strukturerad output från LLM:er i Python som håller

De flesta tutorials om “strukturerad utdata” från stora språkmodeller (LLM) är oseriösa. De lägger upp det som att du ska be artigt om JSON och sedan hoppas att modellen beter sig. Det är inte validering. Det är optimisme med klammermärken.

Referens för agenta LLM-inferensparametrar för Qwen och Gemma

Denna sida är en praktisk referens för justering av agentic LLM-inferens (temperatur, top_p, top_k, strafftermer och hur de samverkar i flerstegs- och verktygstäta arbetsflöden).

Du chattar redan med Hermes Agent från din telefon med text. Nu vill du prata med den direkt och få muntliga svar tillbaka. Det är oftast rätt val, särskilt om du redan använder Hermes som en självhostad assistent. Att skriva långa prompter på en liten skärm är långsamt och benäget för fel

Kanban i Hermes Agent för självhostade LLM-arbetsflöden

Hermes Agent levereras med ett Kanban-styrt flödessystem och Hermes Gateway, vilket kan mätta din egenhostade LLM om för många uppgifter skickas ut samtidigt.

Att skapa Hermes-agentkompetenser — Struktur och bästa praxis för SKILL.md

Hermes Agent behandlar färdigheter (skills) som det vanliga sättet att lära ut återanvändbara arbetsflöden. Officiell dokumentation beskriver dem som kunskapsdokument på begäran, anpassade efter den öppna agentskills.io-specifikationen, och de laddas genom progressiv diskling (progressive disclosure) så att modellen först ser en liten index och endast hämtar fullständiga instruktioner när en uppgift faktiskt kräver dem.

Snabbguide för Hermes Agent CLI — kommandon, flaggor och snittkommandon

Hermes Agent från Nous Research är en modellagnostisk, verkstugsanvändande assistent som du kör lokalt eller på en VPS.

NemoClaws praktiska guide för säkra OpenClaw-operationer 2026

De flesta AI-agentstackar behandlar fortfarande säkerhet som en korrigering efter demonstrationen. NemoClaw utgår från motsatta antaganden och gör isolering, policy och ruttning till standard från dag ett.

AI-systems minne — bestående kunskap och agentminne

Detta avsnitt samlar guider om bestående kunskap och minne för AI-system — hur assistenter behåller fakta, preferenser och sammanfattad kontext över sessioner utan att stoppa in varje token i en enda prompt. Här avser minne medveten bevarande (användarfakta, sammanfattningar, plugin-baserade lagring), inte GPU-minne eller modellvikt.

Jämförelse av Agent Memory Providers — Honcho, Mem0, Hindsight och fem till

Moderna assistenter glömmer fortfarande allt när du stänger fliken, såvida inte något kvarstår bortom kontextfönstret. Agent memory providers är tjänster eller bibliotek som håller fakta och sammanfattningar över sessioner — ofta integrerade som plugins så att ramverket förblir lättviktigt medan minnet kan skalas.

Hermes Agent Memory System: Så fungerar persistent AI-minne i praktiken

Du känner till konceptet. Du öppnar en chatt med en AI-agent, förklarar ditt projekt, delar dina preferenser, får lite arbete gjort och stänger fliken. Du kommer tillbaka nästa vecka och det är som att prata med en främling — all kontext är borta, varje preferens är bortglömd, och projektet måste förklaras från början.

OpenClaws uppgång och fall – tidslinje och de verkliga orsakerna bakom sammanbrottet

OpenClaw misslyckades inte som produkt. Den förlorade bränslet.

Llama-serverrouterläge – Dynamisk modellbyte utan omstart

Under lång tid hade llama.cpp en påtaglig begränsning: du kunde bara servera en modell per process, och byte innebar en omstart.

Claude-färdigheter och SKILL.md för utvecklare: VS Code, JetBrains, Cursor

De flesta team missbrukar Claude Skills på ett av två sätt. De antingen gör SKILL.md till en soptipp, eller så kliver de aldrig upp från att kopiera och klistra in jättelika promptar.