Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 et Phi - Test des modèles de langage

Prochaine série de tests LLM

Sommaire

Il y a peu de temps, a été publié. Commençons par un point sur la mise à jour et testons comment Mistral Small se compare aux autres LLMs ici.

Pour plus d’informations sur le débit, la latence, la VRAM et les benchmarks sur différents runtimes et matériels, consultez LLM Performance: Benchmarks, Bottlenecks & Optimization.

Avant cela, nous avions déjà effectué :

La voiture roule à toute vitesse

Comment nous testons

Ici, nous testons les capacités de résumé des LLMS :

  • nous disposons de 40 textes d’exemple, et nous exécutons le LLM avec le prompt de question et de résumé (similaire à la méthode utilisée par perplexica)
  • les résumés sont réordonnés avec des modèles d’embedding
  • le nombre de bonnes réponses divisé par le nombre total de questions nous donne la performance du modèle

Résultats du test

Top 5 avec le pourcentage moyen de bonnes réponses :

  1. 82% : phi3 - 14b-medium-128k-instruct-q4_0
  2. 81% : llama3.1 - 8b-instruct-q8_0
  3. 81% : mistral-small - 22b-instruct-2409-q4_0
  4. 79% : mistral-nemo - 12b-instruct-2407-q6_K
  5. 79% : llama3.2 - 3b-instruct-q8_0

Tous ces modèles ont montré de bonnes performances.

Je voudrais attirer un peu d’attention sur le groupe de modèles Mistral. La qualité du langage est légèrement meilleure que la moyenne.

Un autre point : le petit modèle de 3,2 Go, llama3.2:3b-instruct-q8_0, a donné un très bon résultat pour sa taille, et il est le plus rapide d’entre tous.

Résultats détaillés du test

Nom du modèle, paramètres, quantification Taille Test 1 Test 2 Moyenne
llama3.2:3b-instruct-q8_0 4 Go 80 79 79
llama3.1:8b-instruct-q8_0 9 Go 76 86 81
gemma2:27b-instruct-q3_K_S 12 Go 76 72 74
mistral-nemo:12b-instruct-2407-q6_K 10 Go 76 82 79
mistral-small:22b-instruct-2409-q4_0 12 Go 85 75 80
phi3:14b-medium-128k-instruct-q4_0 9 Go 76 89 82
qwen2.5:14b-instruct-q5_0 10 Go 66 75 70
qwen2.5:32b-instruct-q3_K_S 14 Go 80 75 77
qwen2.5:32b-instruct-q4_0 18 Go 76 79 77
llama3.1:70b-instruct-q3_K_M 34 Go 76 75 75
qwen2.5:72b-instruct-q4_1 45 Go 76 75 75

Pour plus de benchmarks, de choix de modèles et d’optimisation des performances, consultez notre LLM Performance: Benchmarks, Bottlenecks & Optimization hub.

Liens utiles