Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 e Phi - Test con LLM
Prossima serie di test sull'LLM
Non molto tempo fa è stato rilasciato. Veniamo al punto e testiamo come si comporta Mistral Small rispetto ad altri LLM.
Per ulteriori informazioni sul throughput, la latenza, la VRAM e i benchmark su diversi runtime e hardware, consulta LLM Performance: Benchmarks, Bottlenecks & Optimization.
Prima di questo abbiamo già fatto:

Come effettuiamo i test
Qui testiamo le capacità di sintesi degli LLM:
- abbiamo 40 testi campione, e stiamo eseguendo l’LLM con il prompt di domanda e sintesi (simile al metodo utilizzato in perplexica)
- i riassunti vengono riconosciuti con embedding models
- il numero di risposte corrette diviso per il numero totale di domande ci dà le prestazioni del modello
Risultati del test
Classifica dei primi 5 posti con la percentuale media di risposte corrette:
- 82%: phi3 - 14b-medium-128k-instruct-q4_0
- 81%: llama3.1 - 8b-instruct-q8_0
- 81%: mistral-small - 22b-instruct-2409-q4_0
- 79%: mistral-nemo - 12b-instruct-2407-q6_K
- 79%: llama3.2 - 3b-instruct-q8_0
Tutti questi modelli hanno mostrato prestazioni buone.
Vorrei concentrare un po’ di attenzione sul gruppo di modelli Mistral. La qualità del linguaggio è un po’ migliore rispetto alla media.
Un altro punto: il piccolo modello 3.2b llama3.2:3b-instruct-q8_0 ha mostrato un risultato molto buono per la sua dimensione, e è il più veloce di tutti.
Risultati dettagliati del test
| Nome del modello, parametri, quantizzazione | Dimensione | Test 1 | Test 2 | Media |
|---|---|---|---|---|
| llama3.2:3b-instruct-q8_0 | 4GB | 80 | 79 | 79 |
| llama3.1:8b-instruct-q8_0 | 9GB | 76 | 86 | 81 |
| gemma2:27b-instruct-q3_K_S | 12GB | 76 | 72 | 74 |
| mistral-nemo:12b-instruct-2407-q6_K | 10GB | 76 | 82 | 79 |
| mistral-small:22b-instruct-2409-q4_0 | 12GB | 85 | 75 | 80 |
| phi3:14b-medium-128k-instruct-q4_0 | 9GB | 76 | 89 | 82 |
| qwen2.5:14b-instruct-q5_0 | 10GB | 66 | 75 | 70 |
| qwen2.5:32b-instruct-q3_K_S | 14GB | 80 | 75 | 77 |
| qwen2.5:32b-instruct-q4_0 | 18GB | 76 | 79 | 77 |
| llama3.1:70b-instruct-q3_K_M | 34GB | 76 | 75 | 75 |
| qwen2.5:72b-instruct-q4_1 | 45GB | 76 | 75 | 75 |
Per ulteriori benchmark, scelta del modello e ottimizzazione delle prestazioni, consulta il nostro LLM Performance: Benchmarks, Bottlenecks & Optimization hub.