LLM Performance

Confronto sull'idoneità delle GPU NVIDIA per l'IA

Nel bel mezzo del tumulto del mondo moderno, sto qui confrontando le specifiche tecniche di diverse schede adatte ai compiti di IA (Deep Learning, Rilevamento Oggetti e LLM). Tuttavia, sono tutte incredibilmente costose.

Questa guida spiega come Ollama gestisce le richieste parallele (concorrenza, code e limiti delle risorse) e come ottimizzarla utilizzando la variabile d’ambiente OLLAMA_NUM_PARALLEL (e i relativi parametri).

Non molto tempo fa è stato rilasciato. Veniamo al punto e testiamo come si comporta Mistral Small rispetto ad altri LLM.

Recentemente abbiamo visto l’uscita di diversi nuovi LLM. Tempi eccitanti. Proviamo a testarli e a vedere come si comportano nel rilevare le fallacie logiche.

Confronto delle capacità di sintesi degli LLM

Testare come si comportano i modelli con diverso numero di parametri e quantizzazione.

Confronto della velocità di previsione di diverse versioni degli LLM (Large Language Models): llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) su CPU e GPU.

LLM Performance

Confronto sull'idoneità delle GPU NVIDIA per l'IA

Come Ollama gestisce le richieste parallele

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 e Phi - Test con LLM

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Confronto delle capacità di sintesi degli LLM

Test di velocità dei modelli linguistici di grandi dimensioni