LLM - Page 3 - Rost Glukhov | Sito personale e blog tecnico

Pattern di configurazione in produzione per OpenClaw con plugin e competenze

OpenClaw sembra semplice nelle dimostrazioni. In produzione, diventa un sistema.

Claude, OpenClaw e la fine della tariffa fissa per gli agenti

La falla silenziosa che ha alimentato un’onda di sperimentazione con gli agenti è ora chiusa.

Guida rapida per Vane (Perplexica 2.0) con Ollama e llama.cpp

Vane è una delle voci più pragmatiche nel settore della “ricerca AI con citazioni”: un motore di risposta ospitato autonomamente che combina il recupero live sul web con LLM locali o cloud, mantenendo l’intera stack sotto il tuo controllo.

Installazione e configurazione di Claude Code per Ollama, llama.cpp, prezzi

Claude Code non è un’autocompletamento con un marketing migliore. È uno strumento di coding agentic: legge la tua codebase, modifica i file, esegue comandi e si integra con i tuoi strumenti di sviluppo.

Assistente AI Hermes - Installazione, Configurazione, Flusso di Lavoro e Risoluzione dei Problemi

L’agente Hermes è un assistente AI ospitato in modo self-hosted e indipendente dal modello, che gira su una macchina locale o su un VPS a basso costo, opera attraverso interfacce terminal e di messaggistica e migliora nel tempo trasformando le attività ripetute in competenze riutilizzabili.

TGI - Text Generation Inference - Installazione, Configurazione e Risoluzione dei Problemi

Text Generation Inference (TGI) ha un’energia molto specifica. Non è il più nuovo arrivato nella strada dell’inferenza, ma è quello che ha già imparato come la produzione si rompe -

Benchmark di LLM con 16 GB di VRAM tramite llama.cpp (velocità e contesto)

Qui confronto la velocità di diversi LLM (modelli linguistici di grandi dimensioni) in esecuzione su una GPU con 16 GB di VRAM, scegliendo il migliore per l’auto-hospitamento (self-hosting).

RTX 5090 in Australia: prezzi, disponibilità e realtà di marzo 2026

L’Australia ha scorte di RTX 5090. A malapena. E se ne trovate una, pagherete un sovrapprezzo che sembra distaccato dalla realtà.

Accesso remoto a Ollama tramite Tailscale o WireGuard, senza porte pubbliche.

Ollama è al suo meglio quando viene trattato come un demone locale: la CLI e le tue applicazioni comunicano con un’API HTTP su loopback, e il resto della rete non viene a sapere della sua esistenza.

Ollama in Docker Compose con GPU e archiviazione persistente dei modelli

Ollama funziona egregiamente su hardware nudo (bare metal). Diventa ancora più interessante quando lo si tratta come un servizio: un endpoint stabile, versioni bloccate, archiviazione persistente e una GPU che è disponibile o non lo è.

Ollama dietro un reverse proxy con Caddy o Nginx per lo streaming HTTPS

Eseguire Ollama dietro un proxy inverso è il modo più semplice per ottenere HTTPS, un controllo degli accessi opzionale e un comportamento di streaming prevedibile.

Embedding testuali per RAG e ricerca - Python, Ollama, API compatibili con OpenAI

Se stai approfondendo la generazione potenziata dal recupero (RAG), questa sezione illustra le embeddings testuali in termini semplici: cosa sono, come si integrano nella ricerca e nel recupero, e come invocare due configurazioni locali comuni da Python utilizzando Ollama o un’API HTTP compatibile con OpenAI (come espongono molti server basati su llama.cpp).

Guida rapida a SGLang: installazione, configurazione e distribuzione di LLM tramite l'API OpenAI

SGLang è un framework di serving ad alte prestazioni per grandi modelli linguistici e modelli multimodali, progettato per fornire inferenza a bassa latenza e alto throughput in tutto, da una singola GPU a cluster distribuiti.

Guida introduttiva al Model Switcher di llama.swap per LLM locali compatibili con OpenAI

Presto ti troverai a gestire vLLM, llama.cpp e altro ancora, con ogni stack sul proprio porto. Tutto il downstream desidera comunque un URL base /v1; altrimenti continuerai a spostare porti, profili e script ad hoc. llama-swap è il proxy /v1 che precede questi stack.

Sistemi AI: Assistenti Self-Hosted, RAG e Infrastruttura Locale

La maggior parte delle configurazioni locali di AI inizia con un modello e un runtime.

Recensione di Oh My Opencode: Risultati onesti, rischi di fatturazione e quando ne vale la pena

Oh My Opencode promette un “team virtuale di sviluppatori AI” — Sisyphus che orchestra specialisti, compiti eseguiti in parallelo e la magica parola chiave ultrawork che attiva tutto.