Performance
Strategie di caching di Hugo per le prestazioni
Ottimizza lo sviluppo e l'esecuzione dei siti Hugo
Strategie di caching per Hugo sono essenziali per massimizzare le prestazioni del tuo generatore di siti statici. Sebbene Hugo generi file statici che sono intrinsecamente veloci, l’implementazione di un corretto caching a diversi livelli può migliorare drasticamente i tempi di costruzione, ridurre il carico del server e migliorare l’esperienza utente.
NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Confronto delle prestazioni di Ollama
Benchmark GPT-OSS 120b su tre piattaforme AI
Ho trovato alcuni interessanti test sulle prestazioni di GPT-OSS 120b in esecuzione su Ollama su tre diversi piattaforme: NVIDIA DGX Spark, Mac Studio, e RTX 4080. Il modello GPT-OSS 120b dalla libreria Ollama pesa 65 GB, il che significa che non si adatta alla VRAM da 16 GB di un RTX 4080 (o al più recente RTX 5080).
Problemi di Output Strutturato di Ollama GPT-OSS
Non molto bello.
Ollama’s GPT-OSS models presentano frequenti problemi nel gestire l’output strutturato, specialmente quando vengono utilizzate con framework come LangChain, OpenAI SDK, vllm e altri.
Allocazione della memoria e pianificazione del modello nella nuova versione di Ollama - v0.12.1
Il mio test della pianificazione del modello ollama
Ecco che confronto quanta VRAM la nuova versione di Ollama alloca per il modello rispetto alla versione precedente di Ollama. La nuova versione è peggio.
Prestazioni degli LLM e canali PCIe: considerazioni chiave
Stai pensando di installare una seconda GPU per i modelli LLM?
Come le lane PCIe influenzano le prestazioni degli LLM? Dipende dal compito. Per l’addestramento e l’inferenza multi-GPU, la riduzione delle prestazioni è significativa.
Test: Come Ollama utilizza le prestazioni della CPU Intel e i core efficienti
Ollama su CPU Intel: efficienza vs prestazioni
Ho un’ipotesi da testare: se utilizzare TUTTI i core su un processore Intel aumenterebbe la velocità degli LLM? Mi sta infastidendo il fatto che il nuovo modello gemma3 27 bit (gemma3:27b, 17 GB su ollama) non si adatti ai 16 GB di VRAM della mia GPU, e venga eseguito parzialmente sul CPU.
Come Ollama gestisce le richieste parallele
Configurare ollama per l'esecuzione di richieste parallele.
Quando il server Ollama riceve due richieste contemporaneamente, il suo comportamento dipende dalla sua configurazione e dalle risorse del sistema disponibili.
Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 e Phi - Test con LLM
Prossima serie di test sull'LLM
Non molto tempo fa è stato rilasciato. Veniamo al punto e testiamo come si comporta Mistral Small rispetto ad altri LLM.
Test di velocità dei modelli linguistici di grandi dimensioni
Verifichiamo la velocità degli LLM su GPU rispetto al CPU
Confronto della velocità di previsione di diverse versioni degli LLM (Large Language Models): llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) su CPU e GPU.