Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 et Phi - Test de modèles LLM

Prochaine série de tests de LLM

Sommaire

Il y a peu de temps a été publié. Commençons par un point de situation et testons comment Mistral Small se compare aux autres LLM.

Avant cela, nous avons déjà fait :

Test de détection des fautes logiques par de nouveaux LLMs : gemma2, qwen2 et mistralNemo

La voiture roule à grande vitesse

Comment nous testons

Ici, nous testons les capacités de résumé des LLM :

nous disposons de 40 textes d’exemple, et nous exécutons le LLM avec le prompt de question et de résumé (similaire à la manière de perplexica)
les résumés sont classés à l’aide de modèles d’embedding
le nombre de bonnes réponses divisé par le nombre total de questions nous donne la performance du modèle

Résultats du test

Top 5 avec le pourcentage moyen de bonnes réponses :

82% : phi3 - 14b-medium-128k-instruct-q4_0
81% : llama3.1 - 8b-instruct-q8_0
81% : mistral-small - 22b-instruct-2409-q4_0
79% : mistral-nemo - 12b-instruct-2407-q6_K
79% : llama3.2 - 3b-instruct-q8_0

Tous ces modèles ont montré de bonnes performances.

Je voudrais attirer un peu d’attention sur le groupe de modèles Mistral. La qualité du langage est un peu meilleure que la moyenne.

Un autre point : le petit modèle de 3,2 milliards de paramètres, lama3.2:3b-instruct-q8_0, a donné de très bons résultats pour sa taille, et c’est le plus rapide d’entre eux tous.

Résultats détaillés du test

Nom du modèle, paramètres, quantification	Taille	Test 1	Test 2	Moyenne
llama3.2:3b-instruct-q8_0	4GB	80	79	79
llama3.1:8b-instruct-q8_0	9GB	76	86	81
gemma2:27b-instruct-q3_K_S	12GB	76	72	74
mistral-nemo:12b-instruct-2407-q6_K	10GB	76	82	79
mistral-small:22b-instruct-2409-q4_0	12GB	85	75	80
phi3:14b-medium-128k-instruct-q4_0	9GB	76	89	82
qwen2.5:14b-instruct-q5_0	10GB	66	75	70
qwen2.5:32b-instruct-q3_K_S	14GB	80	75	77
qwen2.5:32b-instruct-q4_0	18GB	76	79	77
llama3.1:70b-instruct-q3_K_M	34GB	76	75	75
qwen2.5:72b-instruct-q4_1	45GB	76	75	75

Comment nous testons

Résultats du test

Résultats détaillés du test

Liens utiles