Anthropic stänger hålet för Claude-agentverktyg
Claude-prenumerationer driv inte längre agenter.
Den tysta lösningen som drev en våg av experiment med agenter är nu stängd.
Claude-prenumerationer driv inte längre agenter.
Den tysta lösningen som drev en våg av experiment med agenter är nu stängd.
Självhöstad AI-sökning med lokala stora språkmodeller
Vane är en av de mer pragmatiska lösningarna inom området för “AI-sök med källhänvisningar”: ett självärbetet svarsmotor som blandar live-webbhämtning med lokala eller molnbaserade LLM:er, samtidigt som hela stacken hålls under din kontroll.
Installation och snabbstart för Hermes Agent för utvecklare
Hermes Agent är en självhöstad, modellagnostisk AI-assistent som körs på en lokal dator eller en billig VPS, fungerar via terminal- och meddelargränssnitt och förbättras över tid genom att omvandla upprepade uppgifter till återanvändbara färdigheter.
Installera TGI, leverera snabbt, felsök ännu snabbare
Text Generation Inference (TGI) har en mycket specifik energi. Det är inte den nyaste killen på inferensgatan, men det är den som redan har lärt sig hur produktion bryts –
Tokenhastighet för llama.cpp på 16 GB VRAM (tabeller).
Här jämför jag hastigheten hos flera LLM som kör på GPU med 16 GB VRAM och väljer den bästa för egen hosting.
RTX 5090 är svår att få tag på i Australien och prisbelagd för högt.
Australien har lagervaror av RTX 5090. Knappast. Och om du hittar en, kommer du att betala en premie som känns frånkopplad från verkligheten.
Remote Ollama-åtkomst utan publika portar
Ollama är som mest lyckligt när det behandlas som en lokal daemon: CLI:n och dina appar pratar med en loopback HTTP-API, och resten av nätverket får aldrig veta att det finns.
Ollama-server med komposition i förgrunden, GPU och uthållighet.
Ollama fungerar utmärkt på “bare metal”. Det blir ännu mer intressant när du behandlar det som en tjänst: en stabil slutpunkt, fastlagda versioner, beständig lagring och en GPU som antingen är tillgänglig eller inte.
HTTPS för Ollama utan att störa strömande svar.
Att köra Ollama bakom en omvänd proxy är det enklaste sättet att få HTTPS, valfri åtkontroll och förutsägbart strömmande beteende.
RAG-embäddningar – Python, Ollama, OpenAI-API:er.
Om du arbetar med retrieval-augmented generation (RAG), går detta avsnitt igenom textembeddings i enkla termer – vad de är, hur de passar in i sökning och hämtning, och hur du anropar två vanliga lokala konfigurationer från Python med hjälp av Ollama eller en OpenAI-kompatibel HTTP-API (vilket många llama.cpp-baserade servrar exponerar).
Skicka Push URL-uppdateringar till sökmotorer efter deploy.
Statiska webbplatser och bloggar ändras när du deployar. Sökmotorer som stöder IndexNow kan få veta om dessa förändringar utan att vänta på nästa blind krypning.
Servera öppna modeller snabbt med SGLang.
SGLang är ett högpresterande ramverk för servering av stora språkmodeller och multimodala modeller, byggt för att leverera inferens med låg latens och hög genomströmning över allt från en enda GPU till distribuerade kluster.
Installera Kafka 4.2 och strömma händelser på några minuter.
Apache Kafka 4.2.0 är den aktuella supportade utgåvelinjen, och den utgör den bästa basen för ett modernt snabbstartsguide eftersom Kafka 4.x är helt utan ZooKeeper och bygger på KRaft som standard.
Byt lokala LLM:er med hetbytte utan att ändra klienterna.
Snart balanserar du vLLM, llama.cpp och mer – varje stack på sin egen port. Allt nedströms vill fortfarande ha en enda /v1-bas-URL; annars fortsätter du att flytta runt portar, profiler och engångsscript. llama-swap är /v1-proxyn framför dessa stackar.
De flesta lokala AI-configurationer börjar med en modell och en körmiljö.
Vad som egentligen händer när du kör Ultrawork.
Oh My Opencode lovar om ett “virtuellt AI-utvecklingsteam” — där Sisyphus dirigerar specialister, uppgifter körs parallellt och magiska nyckelordet ultrawork aktiverar allt.