LLM Performance

Decodifica Speculativa: Inferenza di LLM 20-50% più rapida

Un modello da 70B genera un token per ogni passaggio in avanti (forward pass), e ogni passaggio ricarica i pesi dalla VRAM, calcola l’attenzione su tutto il contesto e sincronizza la memoria. Tra un token e l’altro, la GPU rimane inattiva mentre attende la risoluzione delle dipendenze sequenziali.

Qwen 3.6 27B e 35B MTP rispetto allo standard su GPU da 16 GB

Ho testato le prestazioni di Speculative Decoding (Multi-Token Prediction, MTP) su Qwen 3.6 27B e 35B su una RTX 4080 con 16 GB di VRAM.

Validazione dell'output strutturato degli LLM in Python che regge

La maggior parte dei tutorial sull’output strutturato degli LLM è superficiale. Ti insegnano a chiedere JSON gentilmente e poi sperare che il modello si comporti correttamente. Quello non è convalida. È ottimismo con le parentesi graffe.

Riferimento ai parametri di inferenza per LLM agentic per Qwen e Gemma

Questa pagina è un riferimento pratico per la regolazione dell’inferenza di LLM agentic (temperatura, top_p, top_k, penalità e come interagiscono in flussi di lavoro multi-step e intensivi nell’uso di strumenti).

Benchmark di LLM con 16 GB di VRAM tramite llama.cpp (velocità e contesto)

Qui confronto la velocità di diversi LLM (modelli linguistici di grandi dimensioni) in esecuzione su una GPU con 16 GB di VRAM, scegliendo il migliore per l’auto-hospitamento (self-hosting).

Prestazioni degli LLM nel 2026: Benchmark, Colli di Bottiglia e Ottimizzazione

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Confronto delle prestazioni degli LLM su Ollama con GPU da 16 GB di VRAM

Eseguire modelli linguistici di grandi dimensioni (LLM) localmente offre privacy, funzionalità offline e costi zero per le API. Questo benchmark rivela esattamente cosa ci si può aspettare da 14 popolari LLM su Ollama con una RTX 4080.

BAML vs Instructor: Output Strutturati per LLM

Quando si lavora con i Large Language Models (LLM) in produzione, ottenere output strutturati e type-safe è fondamentale. Due framework popolari - BAML e Instructor - adottano approcci diversi per risolvere questo problema.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Confronto delle prestazioni di Ollama

Ho trovato alcuni interessanti test sulle prestazioni di GPT-OSS 120b in esecuzione su Ollama su tre diversi piattaforme: NVIDIA DGX Spark, Mac Studio, e RTX 4080. Il modello GPT-OSS 120b dalla libreria Ollama pesa 65 GB, il che significa che non si adatta alla VRAM da 16 GB di un RTX 4080 (o al più recente RTX 5080).

ASIC per LLM e chip specializzati per l'inferenza (e perché sono importanti)

Il futuro dell’AI non riguarda solo modelli più intelligenti. Riguarda anche il silicio che corrisponde al modo in cui questi modelli vengono effettivamente eseguiti. L’hardware specializzato per l’inference degli LLM sta seguendo una strada che ricorda il passaggio del mining di Bitcoin dalle GPU agli ASIC costruiti appositamente, sebbene con vincoli più stringenti perché modelli e schemi di precisione continuano a evolversi.

Ecco un confronto tra Qwen3:30b e GPT-OSS:20b con un focus sul rispetto delle istruzioni e sui parametri di prestazione, specifiche e velocità.

Problemi di Output Strutturato di Ollama GPT-OSS

Ollama’s GPT-OSS models presentano frequenti problemi nel gestire l’output strutturato, specialmente quando vengono utilizzate con framework come LangChain, OpenAI SDK, vllm e altri.

Confronto dei output strutturati tra i principali provider di LLM - OpenAI, Gemini, Anthropic, Mistral e AWS Bedrock

Ecco un confronto tra il supporto per output strutturati (ottenimento di JSON affidabili) tra i principali provider di LLM, insieme a esempi Python minimi.

Allocazione della memoria e pianificazione del modello nella nuova versione di Ollama - v0.12.1

Ecco che confronto quanta VRAM la nuova versione di Ollama alloca per il modello rispetto alla versione precedente di Ollama. La nuova versione è peggio.

Prestazioni degli LLM e canali PCIe: considerazioni chiave

Come le lane PCIe influenzano le prestazioni degli LLM? Dipende dal compito. Per l’addestramento e l’inferenza multi-GPU, la riduzione delle prestazioni è significativa.

Test: Come Ollama utilizza le prestazioni della CPU Intel e i core efficienti

Ho un’ipotesi da testare: se utilizzare TUTTI i core su un processore Intel aumenterebbe la velocità degli LLM? Mi sta infastidendo il fatto che il nuovo modello gemma3 27 bit (gemma3:27b, 17 GB su ollama) non si adatti ai 16 GB di VRAM della mia GPU, e venga eseguito parzialmente sul CPU.