Autohosting degli LLM e Sovranità dell'AI
Controlla dati e modelli con LLM autohostati
Self-hosting LLMs mantiene i dati, i modelli e l’inferenza sotto il tuo controllo: un percorso pratico verso sovrainità AI per team, aziende e nazioni.
Controlla dati e modelli con LLM autohostati
Self-hosting LLMs mantiene i dati, i modelli e l’inferenza sotto il tuo controllo: un percorso pratico verso sovrainità AI per team, aziende e nazioni.
Alternativa self-hosted a ChatGPT per LLM locali
Open WebUI è una potente, estensibile e ricca di funzionalità interfaccia web autoospitata per interagire con i grandi modelli linguistici.
Inferenza rapida di LLM con l'API di OpenAI
vLLM è un motore di inferenza e servizio ad alta capacità e ad alta efficienza di memoria per i Large Language Models (LLM) sviluppato dal Sky Computing Lab dell’Università di Berkeley.
Riflessioni sui modelli LLM per Cognee autoospitati
Scegliere il miglior LLM per Cognee richiede di bilanciare la qualità della costruzione del grafo, i tassi di allucinazione e i vincoli hardware. Cognee eccelle con modelli più grandi a bassa allucinazione (32B+) tramite Ollama ma le opzioni di dimensioni medio-piccole funzionano per le configurazioni più leggere.
Mastri la distribuzione locale di LLM con 12+ strumenti confrontati
Deployimento locale di LLMs è diventato sempre più popolare mentre sviluppatori e organizzazioni cercano una maggiore privacy, una ridotta latenza e un maggiore controllo sulla loro infrastruttura AI.
Configurare le dimensioni del contesto in Docker Model Runner con soluzioni alternative
Configurazione delle dimensioni del contesto in Docker Model Runner è più complessa di quanto dovrebbe essere.
Abilita l'accelerazione GPU per Docker Model Runner con supporto NVIDIA CUDA
Docker Model Runner è lo strumento ufficiale di Docker per eseguire modelli AI in locale, ma abilitare l’accelerazione GPU di NVidia in Docker Model Runner richiede una configurazione specifica.
Riferimento rapido per i comandi di Docker Model Runner
Docker Model Runner (DMR) è la soluzione ufficiale di Docker per eseguire modelli AI localmente, introdotta nel aprile 2025. Questo foglio di riferimento fornisce un rapido riferimento per tutti i comandi essenziali, le configurazioni e le best practice.
Confronta Docker Model Runner e Ollama per LLM locali
Running large language models (LLMs) locally ha guadagnato popolarità per la privacy, il controllo dei costi e le capacità offline. Il panorama è cambiato significativamente ad aprile 2025 quando Docker ha introdotto Docker Model Runner (DMR), la sua soluzione ufficiale per il deployment dei modelli AI.
Integra Ollama con Go: guida all'SDK, esempi e best practice per la produzione.
Questo documento fornisce un’overview completa degli SDK Go per Ollama disponibili e confronta i loro set di funzionalità.
+ Esempi Specifici Utilizzando LLM Pensanti
In questo post, esploreremo due modi per connettere la tua applicazione Python a Ollama: 1. Attraverso l’HTTP REST API; 2. Attraverso la libreria ufficiale Python di Ollama.
La mia opinione sull'attuale stato dello sviluppo di Ollama
Ollama ha rapidamente diventato uno degli strumenti più popolari per eseguire i modelli LLM localmente. La sua semplice CLI e la gestione semplificata dei modelli l’hanno resa un’opzione di riferimento per gli sviluppatori che desiderano lavorare con i modelli AI al di fuori del cloud.
Panoramica rapida delle interfacce utente più prominenti per Ollama nel 2025
Locally hosted Ollama consente di eseguire modelli linguistici di grandi dimensioni sul proprio computer, ma l’utilizzo tramite riga di comando non è particolarmente utente-friendly. Ecco diversi progetti open-source che forniscono interfacce simili a ChatGPT che si connettono a un Ollama locale.
qwen3 8b, 14b e 30b, devstral 24b, mistral small 24b
In questo test sto confrontando come diversi LLM ospitati su Ollama traducono una pagina Hugo dall’inglese al tedesco.
Breve lista di fornitori di LLM
L’uso degli LLM non è molto costoso, potrebbe non esserci bisogno di acquistare un nuovo GPU fantastico. Ecco un elenco se LLM provider in the cloud con gli LLM che ospitano.
Confronto tra due modelli deepseek-r1 e due modelli base
DeepSeek’s prima generazione di modelli di ragionamento con prestazioni paragonabili a quelle di OpenAI-o1, inclusi sei modelli densi distillati da DeepSeek-R1 basati su Llama e Qwen.