Avladda alla llama.cpp-routermodeller utan att starta om

Avladda alla llama.cpp-routermodeller utan att starta om

Frigör VRAM utan att stoppa llama-server.

Routerläge för llama.cpp är en av de mest användbara förändringarna i llama-server på flera år. Det ger slutligen lokala aktörer av LLM (Large Language Models) något som liknar modellhanteringsupplevelsen som man förväntar sig från Ollama, samtidigt som det behåller den råa prestanda och den lågnivåkontroll som gör llama.cpp värd att använda i första hand.

Retrival kontra representation i kunskapssystem

Retrival kontra representation i kunskapssystem

Sök är inte kunskapsstruktur

De flesta moderna kunskapssystem optimerar hämtning (retrieval), och det är förståeligt. Sök är synligt, lätt att demonstrera och känns magiskt när det fungerar. Skriv en fråga, få ett svar.

Second Brain förklarad för ingenjörer och kunskapsarbetskraft

Second Brain förklarad för ingenjörer och kunskapsarbetskraft

Anteckningar är lagring. En andra hjärna är beräkning.

Informationsoverbelastning handlar mindre om ren volym än om oavlösta indata. Modern kunskapsarbete lämnar en spår av flikar, chatttrådar, dokument, markeringar, utdrag, transkript, skärmdumpar och halvfärdiga anteckningar.

Validering av strukturerad output från LLM:er i Python som håller

Validering av strukturerad output från LLM:er i Python som håller

Sluta tolka stämningar. Validera kontrakt.

De flesta tutorials om “strukturerad utdata” från stora språkmodeller (LLM) är oseriösa. De lägger upp det som att du ska be artigt om JSON och sedan hoppas att modellen beter sig. Det är inte validering. Det är optimisme med klammermärken.

Idempotens i distribuerade system som faktiskt fungerar

Idempotens i distribuerade system som faktiskt fungerar

Stoppa dubbla sideffekter

Idempotens i distribuerade system är den egenskap som räddar dig när nätverket ljuger, köen gör om försöket, klienten paniker och operatören spelar upp om händelser. I produktionssystem är dubbel leverans normalt. Dubbla biverkningar är buggen.

Att skapa Hermes-agentkompetenser — Struktur och bästa praxis för SKILL.md

Att skapa Hermes-agentkompetenser — Struktur och bästa praxis för SKILL.md

Författar färdigheter för Hermes som laddar snabbt och fungerar pålitligt

Hermes Agent behandlar färdigheter (skills) som det vanliga sättet att lära ut återanvändbara arbetsflöden. Officiell dokumentation beskriver dem som kunskapsdokument på begäran, anpassade efter den öppna agentskills.io-specifikationen, och de laddas genom progressiv diskling (progressive disclosure) så att modellen först ser en liten index och endast hämtar fullständiga instruktioner när en uppgift faktiskt kräver dem.

Jämförelse av Agent Memory Providers — Honcho, Mem0, Hindsight och fem till

Jämförelse av Agent Memory Providers — Honcho, Mem0, Hindsight och fem till

Åtta utbytbara backends för persistent agent-minne.

Moderna assistenter glömmer fortfarande allt när du stänger fliken, såvida inte något kvarstår bortom kontextfönstret. Agent memory providers är tjänster eller bibliotek som håller fakta och sammanfattningar över sessioner — ofta integrerade som plugins så att ramverket förblir lättviktigt medan minnet kan skalas.

Hermes Agent Memory System: Så fungerar persistent AI-minne i praktiken

Hermes Agent Memory System: Så fungerar persistent AI-minne i praktiken

Minne är skillnaden mellan ett verktyg och en partner.

Du känner till konceptet. Du öppnar en chatt med en AI-agent, förklarar ditt projekt, delar dina preferenser, får lite arbete gjort och stänger fliken. Du kommer tillbaka nästa vecka och det är som att prata med en främling — all kontext är borta, varje preferens är bortglömd, och projektet måste förklaras från början.

Prenumerera

Få nya inlägg om system, infrastruktur och AI-ingenjörskonst.