Performance

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Strategie di caching di Hugo per le prestazioni

Strategie di caching per Hugo sono essenziali per massimizzare le prestazioni del tuo generatore di siti statici. Sebbene Hugo generi file statici che sono intrinsecamente veloci, l’implementazione di un corretto caching a diversi livelli può migliorare drasticamente i tempi di costruzione, ridurre il carico del server e migliorare l’esperienza utente.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Confronto delle prestazioni di Ollama

Ho trovato alcuni interessanti test sulle prestazioni di GPT-OSS 120b in esecuzione su Ollama su tre diversi piattaforme: NVIDIA DGX Spark, Mac Studio, e RTX 4080. Il modello GPT-OSS 120b dalla libreria Ollama pesa 65 GB, il che significa che non si adatta alla VRAM da 16 GB di un RTX 4080 (o al più recente RTX 5080).

Problemi di Output Strutturato di Ollama GPT-OSS

Ollama’s GPT-OSS models presentano frequenti problemi nel gestire l’output strutturato, specialmente quando vengono utilizzate con framework come LangChain, OpenAI SDK, vllm e altri.

Allocazione della memoria e pianificazione del modello nella nuova versione di Ollama - v0.12.1

Ecco che confronto quanta VRAM la nuova versione di Ollama alloca per il modello rispetto alla versione precedente di Ollama. La nuova versione è peggio.

Prestazioni degli LLM e canali PCIe: considerazioni chiave

Come le lane PCIe influenzano le prestazioni degli LLM? Dipende dal compito. Per l’addestramento e l’inferenza multi-GPU, la riduzione delle prestazioni è significativa.

Test: Come Ollama utilizza le prestazioni della CPU Intel e i core efficienti

Ho un’ipotesi da testare: se utilizzare TUTTI i core su un processore Intel aumenterebbe la velocità degli LLM? Mi sta infastidendo il fatto che il nuovo modello gemma3 27 bit (gemma3:27b, 17 GB su ollama) non si adatti ai 16 GB di VRAM della mia GPU, e venga eseguito parzialmente sul CPU.

Come Ollama gestisce le richieste parallele

Quando il server Ollama riceve due richieste contemporaneamente, il suo comportamento dipende dalla sua configurazione e dalle risorse del sistema disponibili.

Non molto tempo fa è stato rilasciato. Veniamo al punto e testiamo come si comporta Mistral Small rispetto ad altri LLM.

Confronto della velocità di previsione di diverse versioni degli LLM (Large Language Models): llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) su CPU e GPU.