Hermes AI-assistents färdigheter för produktionsmiljöer
Profilbaserade Hermes-installationer för krävande arbetsbelastningar
Hermes AI-assistent, officiellt dokumenterad som Hermes Agent, är inte positionerad som en enkel chattinpackning.
Profilbaserade Hermes-installationer för krävande arbetsbelastningar
Hermes AI-assistent, officiellt dokumenterad som Hermes Agent, är inte positionerad som en enkel chattinpackning.
Färdigheter som är värt att behålla och de som bör utelämnas
OpenClaw har två typer av utökningsberättelser, och de är lätta att blanda ihop.
Plugin utökar runtime-miljön. Färdigheter (skills) utökar agentens beteende.
Plugin först. En kort sammanfattning av färdighetsnamn.
Den här artikeln handlar om OpenClaw-tillägg — inbyggda gateway-paket som lägger till kanaler, modellleverantörer, verktyg, röstminne, media, webbsökning och andra runtime-ytor.
Hur verkliga OpenClaw-system faktiskt är strukturerade
OpenClaw ser enkelt ut i demonstrationer. I produktion blir det ett system.
Claude-prenumerationer drivs inte längre av agenter
Den tysta luckan som drev en våg av agentexperiment är nu stängd.
Självhöstad AI-sökning med lokala stora språkmodeller
Vane är en av de mer pragmatiska lösningarna inom området för “AI-sök med källhänvisningar”: ett självärbetet svarsmotor som blandar live-webbhämtning med lokala eller molnbaserade LLM:er, samtidigt som hela stacken hålls under din kontroll.
Agentbaserad kodning, nu med lokala modellbackends.
Claude Code är inte bara autocomplete med bättre marknadsföring. Det är ett agentic-kodverktyg: det läser din kodbas, redigerar filer, kör kommandon och integreras med dina utvecklingsverktyg.
Installation och snabbstart av Hermes Agent för utvecklare
Hermes Agent är en självhostad, modellagnostisk AI-assistent som körs på en lokal maskin eller en lågkostnad-VPS, fungerar via terminal- och meddelandegränssnitt och förbättras över tid genom att omvandla upprepade uppgifter till återanvändbara färdigheter.
Installera TGI, leverera snabbt, felsök ännu snabbare
Text Generation Inference (TGI) har en mycket specifik energi. Det är inte den nyaste killen på inferensgatan, men det är den som redan har lärt sig hur produktion bryts –
Tokenhastighet för llama.cpp på 16 GB VRAM (tabeller).
Här jämför jag hastigheten för flera LLM-modeller som körts på en GPU med 16 GB VRAM och väljer den bästa för självhostning.
Ollama-server med komposition i förgrunden, GPU och uthållighet.
Ollama fungerar utmärkt på “bare metal”. Det blir ännu mer intressant när du behandlar det som en tjänst: en stabil slutpunkt, fastlagda versioner, beständig lagring och en GPU som antingen är tillgänglig eller inte.
HTTPS för Ollama utan att störa strömande svar.
Att köra Ollama bakom en omvänd proxy är det enklaste sättet att få HTTPS, valfri åtkontroll och förutsägbart strömmande beteende.
Servera öppna modeller snabbt med SGLang.
SGLang är ett högpresterande ramverk för servering av stora språkmodeller och multimodala modeller, byggt för att leverera inferens med låg latens och hög genomströmning över allt från en enda GPU till distribuerade kluster.
Byt lokala LLM:ar utan att ändra klienterna.
Snart kastar du mellan vLLM, llama.cpp och mer – varje stack på sin egen port. Allt nedströms vill fortfarande ha en enda bas-URL /v1; annars fortsätter du att shuffla med portar, profiler och skript för enskilda fall. llama-swap är /v1-proxyn som ligger framför dessa stackar.
De flesta lokala AI-inställningar börjar med en modell och en körningsmiljö.
Vad som egentligen händer när du kör Ultrawork.
Oh My Opencode lovar om ett “virtuellt AI-utvecklingsteam” — där Sisyphus dirigerar specialister, uppgifter körs parallellt och magiska nyckelordet ultrawork aktiverar allt.