Pattern di configurazione in produzione per OpenClaw con plugin e competenze
Come sono strutturati realmente i sistemi OpenClaw
OpenClaw sembra semplice nelle dimostrazioni. In produzione, diventa un sistema.
Come sono strutturati realmente i sistemi OpenClaw
OpenClaw sembra semplice nelle dimostrazioni. In produzione, diventa un sistema.
Gli abbonamenti a Claude non alimentano più gli agenti
La falla silenziosa che ha alimentato un’onda di sperimentazione con gli agenti è ora chiusa.
Ricerca AI auto-ospitata con LLM locali
Vane è una delle voci più pragmatiche nel settore della “ricerca AI con citazioni”: un motore di risposta ospitato autonomamente che combina il recupero live sul web con LLM locali o cloud, mantenendo l’intera stack sotto il tuo controllo.
Coding agentico, ora con backend di modelli locali.
Claude Code non è un’autocompletamento con un marketing migliore. È uno strumento di coding agentic: legge la tua codebase, modifica i file, esegue comandi e si integra con i tuoi strumenti di sviluppo.
Installazione e guida rapida per sviluppatori di Hermes Agent
L’agente Hermes è un assistente AI ospitato in modo self-hosted e indipendente dal modello, che gira su una macchina locale o su un VPS a basso costo, opera attraverso interfacce terminal e di messaggistica e migliora nel tempo trasformando le attività ripetute in competenze riutilizzabili.
Installa TGI, rilascia velocemente, debugga più rapidamente.
Text Generation Inference (TGI) ha un’energia molto specifica. Non è il più nuovo arrivato nella strada dell’inferenza, ma è quello che ha già imparato come la produzione si rompe -
Velocità dei token di llama.cpp su 16 GB di VRAM (tabelle).
Qui confronto la velocità di diversi LLM (modelli linguistici di grandi dimensioni) in esecuzione su una GPU con 16 GB di VRAM, scegliendo il migliore per l’auto-hospitamento (self-hosting).
La RTX 5090 in Australia è scarsa e sopravvalutata.
L’Australia ha scorte di RTX 5090. A malapena. E se ne trovate una, pagherete un sovrapprezzo che sembra distaccato dalla realtà.
Accesso remoto a Ollama senza porte pubbliche
Ollama è al suo meglio quando viene trattato come un demone locale: la CLI e le tue applicazioni comunicano con un’API HTTP su loopback, e il resto della rete non viene a sapere della sua esistenza.
Server Ollama con approccio compose-first, GPU e persistenza.
Ollama funziona egregiamente su hardware nudo (bare metal). Diventa ancora più interessante quando lo si tratta come un servizio: un endpoint stabile, versioni bloccate, archiviazione persistente e una GPU che è disponibile o non lo è.
HTTPS per Ollama senza interrompere le risposte in streaming.
Eseguire Ollama dietro un proxy inverso è il modo più semplice per ottenere HTTPS, un controllo degli accessi opzionale e un comportamento di streaming prevedibile.
Embedding RAG - Python, Ollama, API OpenAI.
Se stai approfondendo la generazione potenziata dal recupero (RAG), questa sezione illustra le embeddings testuali in termini semplici: cosa sono, come si integrano nella ricerca e nel recupero, e come invocare due configurazioni locali comuni da Python utilizzando Ollama o un’API HTTP compatibile con OpenAI (come espongono molti server basati su llama.cpp).
Servire modelli open-source rapidamente con SGLang.
SGLang è un framework di serving ad alte prestazioni per grandi modelli linguistici e modelli multimodali, progettato per fornire inferenza a bassa latenza e alto throughput in tutto, da una singola GPU a cluster distribuiti.
Sostituzione a caldo di LLM locali senza modificare i client.
Presto ti troverai a gestire vLLM, llama.cpp e altro ancora, con ogni stack sul proprio porto. Tutto il downstream desidera comunque un URL base /v1; altrimenti continuerai a spostare porti, profili e script ad hoc. llama-swap è il proxy /v1 che precede questi stack.
La maggior parte delle configurazioni locali di AI inizia con un modello e un runtime.
Cosa accade effettivamente quando esegui Ultrawork.
Oh My Opencode promette un “team virtuale di sviluppatori AI” — Sisyphus che orchestra specialisti, compiti eseguiti in parallelo e la magica parola chiave ultrawork che attiva tutto.