Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 et Phi - Test des modèles de langage
Prochaine série de tests LLM
Il y a peu de temps, a été publié. Commençons par un point sur la mise à jour et testons comment Mistral Small se compare aux autres LLMs ici.
Pour plus d’informations sur le débit, la latence, la VRAM et les benchmarks sur différents runtimes et matériels, consultez LLM Performance: Benchmarks, Bottlenecks & Optimization.
Avant cela, nous avions déjà effectué :

Comment nous testons
Ici, nous testons les capacités de résumé des LLMS :
- nous disposons de 40 textes d’exemple, et nous exécutons le LLM avec le prompt de question et de résumé (similaire à la méthode utilisée par perplexica)
- les résumés sont réordonnés avec des modèles d’embedding
- le nombre de bonnes réponses divisé par le nombre total de questions nous donne la performance du modèle
Résultats du test
Top 5 avec le pourcentage moyen de bonnes réponses :
- 82% : phi3 - 14b-medium-128k-instruct-q4_0
- 81% : llama3.1 - 8b-instruct-q8_0
- 81% : mistral-small - 22b-instruct-2409-q4_0
- 79% : mistral-nemo - 12b-instruct-2407-q6_K
- 79% : llama3.2 - 3b-instruct-q8_0
Tous ces modèles ont montré de bonnes performances.
Je voudrais attirer un peu d’attention sur le groupe de modèles Mistral. La qualité du langage est légèrement meilleure que la moyenne.
Un autre point : le petit modèle de 3,2 Go, llama3.2:3b-instruct-q8_0, a donné un très bon résultat pour sa taille, et il est le plus rapide d’entre tous.
Résultats détaillés du test
| Nom du modèle, paramètres, quantification | Taille | Test 1 | Test 2 | Moyenne |
|---|---|---|---|---|
| llama3.2:3b-instruct-q8_0 | 4 Go | 80 | 79 | 79 |
| llama3.1:8b-instruct-q8_0 | 9 Go | 76 | 86 | 81 |
| gemma2:27b-instruct-q3_K_S | 12 Go | 76 | 72 | 74 |
| mistral-nemo:12b-instruct-2407-q6_K | 10 Go | 76 | 82 | 79 |
| mistral-small:22b-instruct-2409-q4_0 | 12 Go | 85 | 75 | 80 |
| phi3:14b-medium-128k-instruct-q4_0 | 9 Go | 76 | 89 | 82 |
| qwen2.5:14b-instruct-q5_0 | 10 Go | 66 | 75 | 70 |
| qwen2.5:32b-instruct-q3_K_S | 14 Go | 80 | 75 | 77 |
| qwen2.5:32b-instruct-q4_0 | 18 Go | 76 | 79 | 77 |
| llama3.1:70b-instruct-q3_K_M | 34 Go | 76 | 75 | 75 |
| qwen2.5:72b-instruct-q4_1 | 45 Go | 76 | 75 | 75 |
Pour plus de benchmarks, de choix de modèles et d’optimisation des performances, consultez notre LLM Performance: Benchmarks, Bottlenecks & Optimization hub.