LLM - Page 2 - Rost Glukhov | Sito personale e blog tecnico

Ridurre i costi degli LLM: strategie di ottimizzazione dei token

L’ottimizzazione dei token è l’abilità critica che distingue le applicazioni economiche degli LLM dagli esperimenti che consumano il budget.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Confronto delle prestazioni di Ollama

Ho trovato alcuni interessanti test di prestazioni su GPT-OSS 120b in esecuzione su Ollama su tre diversi piattaforme: NVIDIA DGX Spark, Mac Studio e RTX 4080. Il modello GPT-OSS 120b della libreria Ollama pesa 65 GB, il che significa che non si adatta alla VRAM da 16 GB di un RTX 4080 (o al più recente RTX 5080).

Costruire Server MCP in Python: Guida per Ricerca Web e Scraping

Il Model Context Protocol (MCP) sta rivoluzionando il modo in cui gli assistenti AI interagiscono con le fonti di dati esterne e gli strumenti. In questa guida, esploreremo come costruire server MCP in Python, con esempi focalizzati sulle capacità di ricerca web e scraping.

Convertire HTML in Markdown con Python: una guida completa

Conversione da HTML a Markdown è un compito fondamentale nei flussi di lavoro moderni di sviluppo, in particolare quando si prepara il contenuto web per i Large Language Models (LLMs), i sistemi di documentazione o i generatori di siti statici come Hugo.

Docker Model Runner Cheatsheet: Comandi & Esempi

Docker Model Runner (DMR) è la soluzione ufficiale di Docker per eseguire modelli AI localmente, introdotta ad aprile 2025. Questa guida rapida fornisce un riferimento veloce per tutti i comandi essenziali, le configurazioni e le best practice.

Docker Model Runner vs Ollama: quale scegliere?

Running large language models (LLMs) locally ha guadagnato popolarità per la privacy, il controllo dei costi e le capacità offline. Il panorama è cambiato significativamente ad aprile 2025 quando Docker ha introdotto Docker Model Runner (DMR), la sua soluzione ufficiale per il deployment dei modelli AI.

L'ascesa degli ASIC per LLM: Perché l'hardware per l'inferenza è importante

Il futuro dell’AI non riguarda solo modelli più intelligenti modelli — riguarda il silicio più intelligente.

L’hardware specializzato per l’inferenza LLM sta guidando una rivoluzione simile a quella del mining del Bitcoin verso gli ASIC.

DGX Spark vs. Mac Studio: un'analisi dei prezzi sull'AI personale di NVIDIA

NVIDIA DGX Spark è reale, in vendita il 15 ottobre 2025, e rivolto agli sviluppatori CUDA che necessitano di lavori locali su LLM con un NVIDIA AI stack integrato. Prezzo MSRP USA $3.999; il prezzo al dettaglio in UK/DE/JP è più alto a causa dell’IVA e dei canali. I prezzi indicativi pubblici in AUD/KRW non sono ancora ampiamente disponibili.

Ecco un confronto tra Qwen3:30b e GPT-OSS:20b
che si concentra su seguire le istruzioni e sulle prestazioni, specifiche e velocità:

Integrare Ollama con Python: Esempi di API REST e client Python

In questo post, esploreremo due modi per connettere la tua applicazione Python a Ollama: 1. Attraverso HTTP REST API; 2. Attraverso la libreria ufficiale Python di Ollama.

Problemi di output strutturato di Ollama GPT-OSS

Ollama’s GPT-OSS models presentano problemi ricorrenti nel gestire l’output strutturato, specialmente quando utilizzati con framework come LangChain, OpenAI SDK, vllm e altri.

Confronto strutturato degli output tra i principali fornitori di LLM - OpenAI, Gemini, Anthropic, Mistral e AWS Bedrock

Ecco un confronto a fianco a fianco del supporto per output strutturato (ottenere un JSON affidabile) tra i principali fornitori di LLM, più esempi minimi in Python

Limitare gli LLM con Output Strutturati: Ollama, Qwen3 & Python o Go

Modelli di grandi dimensioni (LLMs) sono potenti, ma in produzione raramente desideriamo paragrafi liberi. Invece, vogliamo dati prevedibili: attributi, fatti o oggetti strutturati che possiamo alimentare in un’app. Questo è LLM Structured Output.

Modello di allocazione della memoria per la pianificazione nella nuova versione di Ollama - v0.12.1

Ecco il confronto tra quanta VRAM la nuova versione di Ollama alloca per il modello rispetto alla versione precedente di Ollama. La nuova versione è peggio.

Enshittification di Ollama - I primi segnali

Ollama ha rapidamente raggiunto uno dei posti più popolari tra gli strumenti per eseguire i modelli linguistici localmente. La sua semplice CLI e la gestione semplificata dei modelli l’hanno resa un’opzione di riferimento per gli sviluppatori che desiderano lavorare con i modelli AI al di fuori del cloud. Ma, come spesso accade con molte piattaforme promettenti, ci sono già segnali di Enshittification:

Interfacce utente chat per istanze locali di Ollama

Ollama ospitato localmente permette di eseguire modelli linguistici di grandi dimensioni sulla propria macchina, ma utilizzarlo tramite riga di comando non è molto user-friendly. Ecco alcuni progetti open-source che offrono interfacce stile ChatGPT che si collegano a un Ollama locale.