Self-Hosting

Scarica tutti i modelli del router di llama.cpp senza riavviare

Modalità router di llama.cpp è uno dei cambiamenti più utili a llama-server degli ultimi anni. Fornisce finalmente agli operatori di LLM locali un’esperienza di gestione dei modelli vicina a quella che ci si aspetta da Ollama, mantenendo al contempo le prestazioni grezze e il controllo a basso livello che rendono llama.cpp meritevole di essere utilizzato in primo luogo.

Riferimento ai parametri di inferenza per LLM agentic per Qwen e Gemma

Questa pagina è un riferimento pratico per la regolazione dell’inferenza di LLM agentic (temperatura, top_p, top_k, penalità e come interagiscono in flussi di lavoro multi-step e intensivi nell’uso di strumenti).

Controllo vocale di Hermes dal tuo telefono

Hai già chiacchierato con Hermes Agent dal tuo telefono usando il testo. Ora vuoi parlarci direttamente e ricevere risposte vocali. Questa è solitamente la mossa giusta, soprattutto se utilizzi già Hermes come assistente self-hosted persistente. Digitare prompt lunghi su uno schermo piccolo è lento e soggetto a errori.

Guida pratica NemoClaw per operazioni OpenClaw sicure nel 2026

La maggior parte degli stack per agenti AI tratta ancora la sicurezza come una correzione da applicare dopo la dimostrazione. NemoClaw parte dall’assunzione opposta e rende isolamento, policy e routing le impostazioni predefinite fin dal primo giorno.

Gestione della conoscenza nel 2026: strumenti PKM, wiki self-hosted e sistemi digitali

La gestione della conoscenza personale abbraccia Obsidian, Logseq, DokuWiki, Zettelkasten e PARA: la scelta giusta dipende da ciò che desideri, ovvero se preferisci un grafo di note locale, una wiki auto-gestita o un flusso di lavoro guidato da un outliner.

Claude, OpenClaw e la fine della tariffa fissa per gli agenti

La falla silenziosa che ha alimentato un’onda di sperimentazione con gli agenti è ora chiusa.

Guida rapida per Vane (Perplexica 2.0) con Ollama e llama.cpp

Vane è una delle voci più pragmatiche nel settore della “ricerca AI con citazioni”: un motore di risposta ospitato autonomamente che combina il recupero live sul web con LLM locali o cloud, mantenendo l’intera stack sotto il tuo controllo.

TGI - Text Generation Inference - Installazione, Configurazione e Risoluzione dei Problemi

Text Generation Inference (TGI) ha un’energia molto specifica. Non è il più nuovo arrivato nella strada dell’inferenza, ma è quello che ha già imparato come la produzione si rompe -

Benchmark di LLM con 16 GB di VRAM tramite llama.cpp (velocità e contesto)

Qui confronto la velocità di diversi LLM (modelli linguistici di grandi dimensioni) in esecuzione su una GPU con 16 GB di VRAM, scegliendo il migliore per l’auto-hospitamento (self-hosting).

RTX 5090 in Australia: prezzi, disponibilità e realtà di marzo 2026

L’Australia ha scorte di RTX 5090. A malapena. E se ne trovate una, pagherete un sovrapprezzo che sembra distaccato dalla realtà.

Accesso remoto a Ollama tramite Tailscale o WireGuard, senza porte pubbliche.

Ollama è al suo meglio quando viene trattato come un demone locale: la CLI e le tue applicazioni comunicano con un’API HTTP su loopback, e il resto della rete non viene a sapere della sua esistenza.

Ollama in Docker Compose con GPU e archiviazione persistente dei modelli

Ollama funziona egregiamente su hardware nudo (bare metal). Diventa ancora più interessante quando lo si tratta come un servizio: un endpoint stabile, versioni bloccate, archiviazione persistente e una GPU che è disponibile o non lo è.

Ollama dietro un reverse proxy con Caddy o Nginx per lo streaming HTTPS

Eseguire Ollama dietro un proxy inverso è il modo più semplice per ottenere HTTPS, un controllo degli accessi opzionale e un comportamento di streaming prevedibile.

Embedding testuali per RAG e ricerca - Python, Ollama, API compatibili con OpenAI

Se stai approfondendo la generazione potenziata dal recupero (RAG), questa sezione illustra le embeddings testuali in termini semplici: cosa sono, come si integrano nella ricerca e nel recupero, e come invocare due configurazioni locali comuni da Python utilizzando Ollama o un’API HTTP compatibile con OpenAI (come espongono molti server basati su llama.cpp).

IndexNow spiegato: notifica i motori di ricerca quando pubblichi.

I siti statici e i blog cambiano ogni volta che si effettua un deployment. I motori di ricerca che supportano IndexNow possono apprendere questi cambiamenti senza attendere il prossimo crawl automatico.

Guida rapida a SGLang: installazione, configurazione e distribuzione di LLM tramite l'API OpenAI

SGLang è un framework di serving ad alte prestazioni per grandi modelli linguistici e modelli multimodali, progettato per fornire inferenza a bassa latenza e alto throughput in tutto, da una singola GPU a cluster distribuiti.