AI-system: Självhostade assistenter, RAG och lokal infrastruktur
De flesta lokala AI-uppbyggnader börjar med en modell och en körningstid (runtime).
Du laddar ner en kvantiserad modell, startar den via Ollama eller en annan körningstid, och börjar prompta. För experiment är detta mer än tillräckligt. Men när du går bortom nyfikenheten — när du börjar bry dig om minne, hämtningskvalitet, rutteringsbeslut eller kostnadsmedvetenhet — börjar enkelheten visa sina begränsningar.
Denna kluster utforskar ett annat tillvägagångssätt: att behandla AI-assistenten inte som en enskild modellanrop, utan som ett samordnat system.
Den skillnaden kan tyckas subtil först, men den förändrar hur du tänker på lokal AI helt och hållet.

Vad är ett AI-system?
Ett AI-system är mer än en modell. Det är ett orkestrationslager som kopplar samman inferens, hämtning (retrieval), minne och exekvering till något som beter sig som en sammanhängande assistent.
Att köra en modell lokalt är infrastrukturarbete. Att designa en assistent kring den modellen är systemarbete.
Om du har utforskat våra bredare guider om:
- LLM-värdskap 2026: Lokal, självvärd och molninfrastruktur jämfört
- Retrieval-Augmented Generation (RAG) tutorial: Arkitektur, implementering och produktionsguide
- Andra hjärnan förklarat för ingenjörer och kunskapsarbetare
- LLM-prestanda 2026: Benchmarks, flaskhalsar och optimering
- Observabilitet för AI-system
vet du redan att inferens bara är ett lager i stacken.
AI Systems-klustret sitter ovanpå dessa lager. Det ersätter dem inte — det kombinerar dem.
För en tvärsnittskarta över hur dessa lager passar ihop i produktionsassistenter — LLM, minne, verktyg, ruttering och observabilitet, med OpenClaw och Hermes som referenssystem — se AI-assistentarkitektur: LLM, minne, verktyg, ruttering, observabilitet.
OpenClaw: Ett självvärd AI-assistentsystem
OpenClaw är en öppen källkod, självvärd AI-assistent designad för att operera över meddelandepattformar medan den körs på lokal infrastruktur.
På en praktisk nivå gör den:
- Använder lokala LLM-körningstider såsom Ollama eller vLLM
- Integrerar hämtning över indexerade dokument
- Underhåller minne bortom en enskild session
- Exekverar verktyg och automatiseringsuppgifter
- Kan instrumenteras och observeras
- Opererar inom hårdvarubegränsningar
Det är inte bara ett skal runt en modell. Det är ett orkestrationslager som kopplar samman inferens, hämtning, minne och exekvering till något som beter sig som en sammanhängande assistent.
Kom igång och arkitektur:
- OpenClaw snabbstartsguide — Docker-baserad installation med antingen en lokal Ollama-modell eller en molnbaserad Claude-konfiguration
- OpenClaw systemöversikt — arkitekturexploration av hur OpenClaw skiljer sig från enklare lokala uppbyggnader
- NemoClaw-guide för säkra OpenClaw-operationer — säkerhetsfokuserad OpenClaw-väg med OpenShell-sandboxing, policy-nivåer, rutterad inferens och dag-två-operationer
Sammanhang och analys:
- OpenClaws uppgång och fall-tidslinje — ekonomin bakom den virala toppen, prenumerationsavstängningen i april 2026, och vad kollapsen avslöjar om AI-hypecykler
- OpenClaw vs Hermes Agent — stjärnor, nedladdningar och användningsdata — live leaderboard av 20 ramverk med OpenRouter-tokenrankningar, paketnedladdningar, community-hälsomättnader och söktrendanalys
Utvidga och konfigurera OpenClaw:
Plugins utvidgar OpenClaw-körningstiden — och lägger till minnesbackends, modellleverantörer, kommunikationskanaler, webverktyg och observabilitet. Skills utvidgar agentbeteende — och definierar hur och när agenten använder dessa kapaciteter. Produktionskonfiguration innebär att kombinera båda, formad kring vem som faktiskt använder systemet.
- OpenClaw Plugins — Ekosystemguide och praktiska val — inbyggda plugintyper, CLI-livscykel, säkerhetsstänger och konkreta val för minne, kanaler, verktyg och observabilitet
- OpenClaw Skills-ekosystem och praktiska produktionsval — ClawHub-upptäckt, installations- och avinstallationsflöden, per-roll-stacks, och de skills som är värda att behålla 2026
- OpenClaw produktionsuppställningsmönster med plugins och skills — kompletta plugin- och skill-konfigurationer per användartyp: utvecklare, automation, forskning, support och tillväxt — var och en med kombinerade installationsskript
Hermes: En persistent agent med skills och verktygsandboxing
Hermes Agent är en självvärd, modellagnostisk assistent fokuserad på persistent drift: den kan köras som en långvarig process, exekvera verktyg genom konfigurerbara backends, och förbättra arbetsflöden över tid genom minne och återanvändbara skills.
På en praktisk nivå är Hermes användbar när du vill:
- En terminal-first-assistent som också kan brygga in i meddelandeappar
- Leverantörsflexibilitet genom OpenAI-kompatibla endpoints och modellbyten
- Verktygsexekveringsgränser via lokala och sandboxade backends
- Dag-två-operationer med diagnostik, loggar och konfigurationshygien
Hermes-profiler är fullt isolerade miljöer — var och en med sin egen konfiguration, hemligheter, minnen, sessioner, skills och tillstånd — vilket gör profiler till den verkliga enheten för produktionsägarskap, inte den individuella skillen.
- Hermes AI-assistent - Installera, konfigurera, arbetsflöde och felsökning — installation, leverantörsuppsättning, arbetsflödesmönster och felsökning
- Hermes Agent CLI-fuskod — kommandon, flaggor och snabblänkar — tabellindex över
hermes-subkommandon, globala flaggor, gateway- och profilverktyg, och vanliga snabblänkar - Hermes röstkontroll från din telefon — mobil-first-röstarbetsflöde för Telegram och Discord, med STT- och TTS-leverantörjustering plus felsökning
- Hermes Agent minnessystem: Hur persistent AI-minne faktiskt fungerar — djup teknisk guide till det två-filskärnminnet, frusna snapshot-mönstret, alla 8 externa leverantörer, och filosofin bakom begränsat minne
- Hermes AI-assistent skills för riktiga produktionsuppställningar — profil-first-skillsarkitektur för ingenjörer, forskare, operatörer och exekutiva arbetsflöden
- Hermes Agent skill-authoring — SKILL.md-struktur och bästa praxis — praktisk
SKILL.md-layout, metadata, villkorlig aktivering, och felsökning när skills försvinner från indexet - Kanban i Hermes Agent för självvärd LLM-arbetsflöden — praktiska kontrollmönster för dispatcher-konkurrens, beroendekedjor, och cron-baserad batchning på självvärda gateways
Persistent kunskap och minne
Vissa problem löses inte av ett större kontextfönster ensamt — de behöver persistent kunskap (grafer, inmatningspipelines) och agentminnesplugins (Honcho, Mem0, Hindsight och liknande backends) kopplade in i assistenter som Hermes eller OpenClaw.
- AI Systems minneshub — omfånget av minne-subklustret plus länkar till Cognee-guider och stackkontext
- Minnessystem i AI-assistenter som faktiskt hjälper — tvärsystem-minnesdesign för arbetstillstånd, strukturerade fakta, och hämtningslager
- Agentminnesleverantörer jämförda — full jämförelse av Honcho, OpenViking, Mem0, Hindsight, Holographic, RetainDB, ByteRover, och Supermemory för Hermes-stil integrationer
MCP: Model Context Protocol-servrar
Model Context Protocol (MCP) är en öppen standard introducerad av Anthropic för att koppla AI-språkmodeller till externa datakällor, verktyg och system. Den löser N×M-integrationsproblemet genom att tillhandahålla ett universellt gränssnitt — tänk på det som en USB-C-port för AI-applikationer. Att bygga MCP-servrar låter dig utvidga AI-assistenter med skräddarsydda integrationer för filer, databaser, APIs och anropbara verktyg, med ett enkelt JSON-RPC-baserat protokoll över stdio eller HTTP.
- MCP-server i Go — protokollarkitektur, JSON-RPC-meddelandestruktur, kapacitetsförhandling, officiella Go SDK, och en steg-för-steg-tutorial för att bygga MCP-servrar i Go
- Bygga MCP-servrar i Python — praktisk Python-implementeringsguide som täcker webbsöknings- och skrapnings-MCP-servrar, stdio- och SSE-transporter, och Claude Desktop-integration
Vad som gör AI-system olika
Flera egenskaper gör AI-system värdiga att undersöka närmare.
Modellruttering som ett designval
De flesta lokala uppbyggnader standardiserar på en modell. AI-system stödjer intentionell modellval.
Det introducerar frågor:
- Ska små förfrågningar använda mindre modeller?
- När rättfärdigar resonemang ett större kontextfönster?
- Vad är kostnads skillnaden per 1 000 tokens?
Dessa frågor kopplar direkt till prestandakompromisser diskuterade i LLM-prestandaguiden och infrastrukturbeslut utlagda i LLM-värdskapsguiden.
AI-system lyfter fram dessa beslut istället för att gömma dem.
Hämtning behandlas som en utvecklande komponent
AI-system integrerar dokumenthämtning, men inte som ett simplistiskt “embedda och sök”-steg.
De erkänner:
- Chunk-storlek påverkar återkallning och kostnad
- Hybrid sökning (BM25 + vektor) kan överträffa ren dense retrieval
- Reranking förbättrar relevans till kostnaden av latens
- Indexeringsstrategi påverkar minnesanvändning
Dessa teman stämmer överens med de djupare arkitekturella överväganden diskuterade i RAG-tutorialen.
Skillnaden är att AI-system inbäddar hämtning i en levande assistent snarare än att presentera det som en isolerad demo.
Minne som infrastruktur
Stateless LLMs glömmer allt mellan sessioner.
AI-system introducerar persistenta minneslager. Det väcker omedelbart designfrågor:
- Vad ska lagras långsiktigt?
- När ska kontext sammanfattas?
- Hur förhindrar du token-explosion?
- Hur indexerar du minnet effektivt?
Dessa frågor korsar direkt datalagsöverväganden från datainfrastruktur-guiden. För Hermes Agent specifikt — begränsat två-filsminne, prefix-caching, externa plugins — börja med Hermes Agent minnessystem och den tvärsystemjämförelsen Agentminnesleverantörer jämförda. AI Systems minneshub listar relaterade Cognee- och kunskapslags guider.
Minne slutar vara en funktion och blir ett lagringsproblem.
Observabilitet är inte valfritt
De flesta lokala AI-experiment stannar vid “det svarar”.
AI-system gör det möjligt att observera:
- Tokenanvändning
- Latens
- Hårdvaruutnyttjande
- Throughput-mönster
Detta kopplar naturligt med övervakningsprinciperna beskrivna i observabilitet-guiden.
Om AI körs på hårdvara, bör den vara mätbar som någon annan arbetsbelastning.
Hur det känns att använda
Utanifrån kan ett AI-system fortfarande se ut som ett chattgränssnitt.
Under ytan händer mer.
Om du ber den sammanfatta en teknisk rapport lagrad lokalt:
- Den hämtar relevanta dokumentsegment.
- Den väljer en lämplig modell.
- Den genererar ett svar.
- Den registrerar tokenanvändning och latens.
- Den uppdaterar persistent minne vid behov.
Den synliga interaktionen förblir enkel. Systembeteendet är lagerdelat.
Detta lagerdelade beteendet är det som skiljer ett system från en demo.
Var AI-system passar i stacken
AI Systems-klustret sitter vid skärningspunkten mellan flera infrastruktur lager:
- LLM-värdskap: Körningstidslagret där modeller exekveras (Ollama, vLLM, llama.cpp)
- RAG: Hämtningslagret som tillhandahåller kontext och grounding
- Prestanda: Mätningsslager som spårar latens och throughput
- Observabilitet: Övervakningslagret som tillhandahåller metrik och kostnadsspårning
- Datainfrastruktur: Lagringslagret som hanterar minne och indexering
Att förstå den distinktionen är användbart. Att köra det själv gör skillnaden tydligare.
För en minimal lokal installation med OpenClaw, se OpenClaw snabbstartsguiden, som går igenom en Docker-baserad uppställning med antingen en lokal Ollama-modell eller en molnbaserad Claude-konfiguration.
Om din uppställning beror på Claude, denna policyförändring för agentverktyg förtydligar varför API-faktura nu krävs för tredjeparts OpenClaw-arbetsflöden.
Resurser
MCP-servrar:
AI-assistentguider:
- AI-assistentarkitektur: LLM, minne, verktyg, ruttering, observabilitet
- OpenClaw systemöversikt
- OpenClaws uppgång och fall-tidslinje
- OpenClaw snabbstartsguide
- OpenClaw Plugins — Ekosystemguide och praktiska val
- OpenClaw Skills-ekosystem och praktiska produktionsval
- OpenClaw produktionsuppställningsmönster med plugins och skills
- Hermes AI-assistent - Installera, konfigurera, arbetsflöde och felsökning
- Hermes Agent minnessystem: Hur persistent AI-minne faktiskt fungerar
- AI Systems minneshub
- Agentminnesleverantörer jämförda
- Hermes AI-assistent skills för riktiga produktionsuppställningar
- Hermes Agent skill-authoring — SKILL.md-struktur och bästa praxis
Infrastruktur lager:
- LLM-värdskap 2026: Lokal, självvärd och molninfrastruktur jämfört
- Retrieval-Augmented Generation (RAG) tutorial: Arkitektur, implementering och produktionsguide
- LLM-prestanda 2026: Benchmarks, flaskhalsar och optimering
- Agentic LLM inferensparametrar för Qwen och Gemma
- Observabilitet för AI-system
- Datainfrastruktur för AI-system