Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 et Phi - Test de modèles LLM

Prochaine série de tests de LLM

Sommaire

Il y a peu de temps a été publié. Commençons par un point de situation et testons comment Mistral Small se compare aux autres LLM.

Avant cela, nous avons déjà fait :

La voiture roule à grande vitesse

Comment nous testons

Ici, nous testons les capacités de résumé des LLM :

  • nous disposons de 40 textes d’exemple, et nous exécutons le LLM avec le prompt de question et de résumé (similaire à la manière de perplexica)
  • les résumés sont classés à l’aide de modèles d’embedding
  • le nombre de bonnes réponses divisé par le nombre total de questions nous donne la performance du modèle

Résultats du test

Top 5 avec le pourcentage moyen de bonnes réponses :

  1. 82% : phi3 - 14b-medium-128k-instruct-q4_0
  2. 81% : llama3.1 - 8b-instruct-q8_0
  3. 81% : mistral-small - 22b-instruct-2409-q4_0
  4. 79% : mistral-nemo - 12b-instruct-2407-q6_K
  5. 79% : llama3.2 - 3b-instruct-q8_0

Tous ces modèles ont montré de bonnes performances.

Je voudrais attirer un peu d’attention sur le groupe de modèles Mistral. La qualité du langage est un peu meilleure que la moyenne.

Un autre point : le petit modèle de 3,2 milliards de paramètres, lama3.2:3b-instruct-q8_0, a donné de très bons résultats pour sa taille, et c’est le plus rapide d’entre eux tous.

Résultats détaillés du test

Nom du modèle, paramètres, quantification Taille Test 1 Test 2 Moyenne
llama3.2:3b-instruct-q8_0 4GB 80 79 79
llama3.1:8b-instruct-q8_0 9GB 76 86 81
gemma2:27b-instruct-q3_K_S 12GB 76 72 74
mistral-nemo:12b-instruct-2407-q6_K 10GB 76 82 79
mistral-small:22b-instruct-2409-q4_0 12GB 85 75 80
phi3:14b-medium-128k-instruct-q4_0 9GB 76 89 82
qwen2.5:14b-instruct-q5_0 10GB 66 75 70
qwen2.5:32b-instruct-q3_K_S 14GB 80 75 77
qwen2.5:32b-instruct-q4_0 18GB 76 79 77
llama3.1:70b-instruct-q3_K_M 34GB 76 75 75
qwen2.5:72b-instruct-q4_1 45GB 76 75 75

Liens utiles