AI-system: Självhostade assistenter, RAG och lokal infrastruktur
De flesta lokala AI-installationer börjar med en modell och en runtime.
Du laddar ner en kvantiserad modell, startar den via Ollama eller en annan runtime och börjar prompta. För experiment är detta mer än tillräckligt. Men när du går bortom nyfikenheten — när du börjar bry dig om minne, återhämtningskvalitet, rutteringsbeslut eller kostnadsmedvetenhet — börjar enkelheten visa sina begränsningar.
Denna kluster utforskar ett annat tillvägagångssätt: att behandla AI-assistenten inte som ett enskilt modellanrop, utan som ett samordnat system.
Den skillnaden kan verka subtil i första hand, men den förändrar hur du tänker på lokal AI helt och hållet.

Vad är ett AI-system?
Ett AI-system är mer än en modell. Det är ett orchestration-lager som kopplar samman inferens, återhämtning, minne och exekvering till något som beter sig som en sammanhållen assistent.
Att köra en modell lokalt är infrastrukturarbete. Att designa en assistent kring den modellen är systemarbete.
Om du har utforskat våra bredare guider om:
- LLM-hostning 2026: Lokal, självhostad och molninfrastruktur jämförd
- Retrieval-Augmented Generation (RAG)-tutorial: Arkitektur, implementering och produktionsguide
- LLM-prestanda 2026: Benchmark, flaskhalsar och optimering
- Observabilitet för AI-system
så vet du redan att inferens bara är ett lager i stacken.
AI Systems-klustret ligger ovanpå dessa lager. Det ersätter dem inte — det kombinerar dem.
OpenClaw: Ett självhostat AI-assistentsystem
OpenClaw är en öppen källkod för en självhostad AI-assistent designad för att operera över plattformar för meddelanden medan den körs på lokal infrastruktur.
På en praktisk nivå gör den:
- Använder lokala LLM-runtimes som Ollama eller vLLM
- Integrerar återhämtning över indexerade dokument
- Underhåller minne bortom en enda session
- Exekverar verktyg och automationuppgifter
- Kan instrumenteras och observeras
- Opererar inom hårdvarubegränsningar
Det är inte bara en wrapper runt en modell. Det är ett orchestration-lager som kopplar samman inferens, återhämtning, minne och exekvering till något som beter sig som en sammanhållen assistent.
Kom igång och arkitektur:
- OpenClaw snabbstartsguide — Docker-baserad installation med antingen en lokal Ollama-modell eller en molnbaserad Claude-konfiguration
- Översikt över OpenClaw-systemet — arkitekturell utforskning av hur OpenClaw skiljer sig från enklare lokala installationer
- NemoClaw-guide för säkra OpenClaw-operationer — säkerhetsfokuserad OpenClaw-väg med OpenShell-sandboxning, policy-nivåer, ruttad inferens och dag-två-operationer
Kontext och analys:
- OpenClaws uppgång och fall tidslinje — ekonomin bakom den virala toppen, prenumerationsavstängningen i april 2026 och vad kollapsen avslöjar om AI-hype-cykler
Utöka och konfigurera OpenClaw:
Plugins utökar OpenClaw-runtime — och lägger till minnesbackends, modellleverantörer, kommunikationskanaler, webbsverktyg och observabilitet. Skills utökar agentbeteende — och definierar hur och när agenten använder dessa kapaciteter. Produktionskonfiguration innebär att kombinera båda, formad kring vem som faktiskt använder systemet.
- OpenClaw Plugins — Ecosystem Guide and Practical Picks — inbyggda plugintyper, CLI-livscykel, säkerhetsstänger och konkreta val för minne, kanaler, verktyg och observabilitet
- OpenClaw Skills Ecosystem and Practical Production Picks — ClawHub-upptäckt, installations- och avinstallationsflöden, per-roll-stackar och de skills som är värda att behålla 2026
- OpenClaw Production Setup Patterns with Plugins and Skills — komplett plugin- och skill-konfigurationer per användartyp: utvecklare, automation, forskning, support och tillväxt — var och en med kombinerade installationsskript
Hermes: En persistent agent med skills och verktygsandboxning
Hermes Agent är en självhostad, modellagnostisk assistent fokuserad på persistent operation: den kan köra som en långlivad process, exekvera verktyg genom konfigurerbara backends och förbättra arbetsflöden över tid genom minne och återanvändbara skills.
På en praktisk nivå är Hermes användbar när du vill ha:
- En terminal-först-assistent som också kan brygga in i meddelandeappar
- Leverantörsflexibilitet genom OpenAI-kompatibla ändpunkter och modellbyte
- Verktygsexekveringsgränser via lokala och sandboxade backends
- Dag-två-operationer med diagnostik, loggar och konfigurationshygien
Hermes-profiler är helt isolerade miljöer — var och en med sin egen konfiguration, hemligheter, minnen, sessioner, skills och tillstånd — vilket gör profiler till den verkliga enheten av produktionsägarskap, inte den individuella skillen.
- Hermes AI-assistent - Installera, konfigurera, arbetsflöde och felsökning — installation, leverantörsinstallation, arbetsflödesmönster och felsökning
- Hermes Agent minnessystem: Hur persistent AI-minne faktiskt fungerar — djup teknisk guide till två-fils kärnminne, frozen snapshot-mönster, alla 8 externa leverantörer och filosofin bakom begränsat minne
- Hermes AI-assistent Skills för verkliga produktionsinstallationer — profil-först skill-arkitektur för ingenjörer, forskare, operatörer och ledningsarbetsflöden
Persistent kunskap och minne
Vissa problem löses inte av ett större kontextfönster ensamt — de behöver persistent kunskap (grafer, inloppspipelines) och agentminnesplugins (Honcho, Mem0, Hindsight och liknande backends) inkopplade i assistenter som Hermes eller OpenClaw.
- AI Systems Memory hub — omfattning av minnesunderklustret plus länkar till Cognee-guides och stackkontext
- Agentminnesleverantörer jämförda — full jämförelse av Honcho, OpenViking, Mem0, Hindsight, Holographic, RetainDB, ByteRover och Supermemory för Hermes-liknande integrationer
Vad som gör AI-system olika
Flera karakteristika gör AI-system värt att undersöka närmare.
Modellruttering som ett designval
De flesta lokala installationer standardiserar på en modell. AI-system stödjer intentionell modellval.
Det introducerar frågor:
- Borde små förfrågningar använda mindre modeller?
- När rättfärdigar resonemang ett större kontextfönster?
- Vad är kostnads skillnaden per 1 000 tokens?
Dessa frågor kopplar direkt till prestandakompromisserna diskuterade i LLM-prestandaguiden och infrastrukturbesluten utskisserade i LLM-hostningsguiden.
AI-system yttrar dessa beslut istället för att dölja dem.
Återhämtning behandlas som en utvecklande komponent
AI-system integrerar dokumentåterhämtning, men inte som ett enkelt “embedda och sök”-steg.
De erkänner:
- Chunk-storlek påverkar återkallelse och kostnad
- Hybrid sökning (BM25 + vektor) kan överträffa ren dense retrieval
- Reranking förbättrar relevans till kostnad av latens
- Indexeringsstrategi påverkar minnesanvändning
Dessa teman stämmer överens med de djupare arkitekturella övervägandena diskuterade i RAG-tutorialen.
Skillnaden är att AI-system inbäddar återhämtning i en levande assistent snarare än att presentera den som en isolerad demo.
Minne som infrastruktur
Stateless LLMs glömmer allt mellan sessioner.
AI-system introducerar persistente minneslager. Det uppstår omedelbart designfrågor:
- Vad ska lagras långsiktigt?
- När ska kontext sammanfattas?
- Hur förhindrar du token-explosion?
- Hur indexerar du minnet effektivt?
Dessa frågor skär direkt av med datalagerövervägandena från datainfrastruktur-guiden. För Hermes Agent specifikt — begränsat två-fils minne, prefix-cache, externa plugins — börja med Hermes Agent minnessystem och den tvärsystemjämförelsen Agentminnesleverantörer jämförda. AI Systems Memory hub listar relaterade Cognee- och kunskapslager-guides.
Minne slutar vara en funktion och blir ett lagringsproblem.
Observabilitet är inte valfritt
De flesta lokala AI-experiment stannar vid “det svarar”.
AI-system gör det möjligt att observera:
- Tokenanvändning
- Latens
- Hårdvaruutnyttjande
- Genomströmningsmönster
Detta kopplar naturligt med övervakningsprinciperna beskrivna i observabilitetsguiden.
Om AI körs på hårdvara bör den vara mätbar som någon annan arbetsbelastning.
Hur det känns att använda
Utanifrån kan ett AI-system fortfarande se ut som ett chattgränssnitt.
Under ytan händer mer.
Om du ber den sammanfatta en teknisk rapport som lagras lokalt:
- Den hämtar relevanta dokumentsegment.
- Den väljer en lämplig modell.
- Den genererar ett svar.
- Den registrerar tokenanvändning och latens.
- Den uppdaterar persistent minne vid behov.
Den synliga interaktionen förblir enkel. Systembeteendet är lagerad.
Detta lagerade beteende är det som skiljer ett system från en demo.
Var AI-system passar in i stacken
AI Systems-klustret ligger vid skärningspunkten mellan flera infrastruktur lager:
- LLM-hostning: Runtime-lagret där modeller exekveras (Ollama, vLLM, llama.cpp)
- RAG: Återhämtningslagret som tillhandahåller kontext och grounding
- Prestanda: Mätningsslageret som spårar latens och genomströmning
- Observabilitet: Övervakningslagret som tillhandahåller metrik och kostnadsspårning
- Datainfrastruktur: Lagringslagret som hanterar minne och indexering
Att förstå den skillnaden är användbart. Att köra det själv gör skillnaden tydligare.
För en minimal lokal installation med OpenClaw, se OpenClaw snabbstartsguide, som går igenom en Docker-baserad installation med antingen en lokal Ollama-modell eller en molnbaserad Claude-konfiguration.
Om din installation beror på Claude, denna policyförändring för agentverktyg förklarar varför API-faktura nu krävs för tredjeparts OpenClaw-arbetsflöden.
Relaterade resurser
AI-assistentguides:
- Översikt över OpenClaw-systemet
- OpenClaws uppgång och fall tidslinje
- OpenClaw snabbstartsguide
- OpenClaw Plugins — Ecosystem Guide and Practical Picks
- OpenClaw Skills Ecosystem and Practical Production Picks
- OpenClaw Production Setup Patterns with Plugins and Skills
- Hermes AI-assistent - Installera, konfigurera, arbetsflöde och felsökning
- Hermes Agent minnessystem: Hur persistent AI-minne faktiskt fungerar
- AI Systems Memory hub
- Agentminnesleverantörer jämförda
- Hermes AI-assistent Skills för verkliga produktionsinstallationer
Infrastruktur lager: