Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 et Phi - Test de modèles LLM
Prochaine série de tests de LLM
Sommaire
Il y a peu de temps a été publié. Commençons par un point de situation et testons comment Mistral Small se compare aux autres LLM.
Avant cela, nous avons déjà fait :
Comment nous testons
Ici, nous testons les capacités de résumé des LLM :
- nous disposons de 40 textes d’exemple, et nous exécutons le LLM avec le prompt de question et de résumé (similaire à la manière de perplexica)
- les résumés sont classés à l’aide de modèles d’embedding
- le nombre de bonnes réponses divisé par le nombre total de questions nous donne la performance du modèle
Résultats du test
Top 5 avec le pourcentage moyen de bonnes réponses :
- 82% : phi3 - 14b-medium-128k-instruct-q4_0
- 81% : llama3.1 - 8b-instruct-q8_0
- 81% : mistral-small - 22b-instruct-2409-q4_0
- 79% : mistral-nemo - 12b-instruct-2407-q6_K
- 79% : llama3.2 - 3b-instruct-q8_0
Tous ces modèles ont montré de bonnes performances.
Je voudrais attirer un peu d’attention sur le groupe de modèles Mistral. La qualité du langage est un peu meilleure que la moyenne.
Un autre point : le petit modèle de 3,2 milliards de paramètres, lama3.2:3b-instruct-q8_0, a donné de très bons résultats pour sa taille, et c’est le plus rapide d’entre eux tous.
Résultats détaillés du test
Nom du modèle, paramètres, quantification | Taille | Test 1 | Test 2 | Moyenne |
---|---|---|---|---|
llama3.2:3b-instruct-q8_0 | 4GB | 80 | 79 | 79 |
llama3.1:8b-instruct-q8_0 | 9GB | 76 | 86 | 81 |
gemma2:27b-instruct-q3_K_S | 12GB | 76 | 72 | 74 |
mistral-nemo:12b-instruct-2407-q6_K | 10GB | 76 | 82 | 79 |
mistral-small:22b-instruct-2409-q4_0 | 12GB | 85 | 75 | 80 |
phi3:14b-medium-128k-instruct-q4_0 | 9GB | 76 | 89 | 82 |
qwen2.5:14b-instruct-q5_0 | 10GB | 66 | 75 | 70 |
qwen2.5:32b-instruct-q3_K_S | 14GB | 80 | 75 | 77 |
qwen2.5:32b-instruct-q4_0 | 18GB | 76 | 79 | 77 |
llama3.1:70b-instruct-q3_K_M | 34GB | 76 | 75 | 75 |
qwen2.5:72b-instruct-q4_1 | 45GB | 76 | 75 | 75 |
Liens utiles
- Fiche de révision Python
- Rédiger des prompts efficaces pour les LLM
- Test des LLMs : gemma2, qwen2 et Mistral Nemo
- Installer et configurer Ollama
- Reranking avec des modèles d’embedding
- Fiche de révision Conda
- Fiche de révision Ollama
- Fiche de révision Docker
- Fiche de révision cURL
- Comment Ollama gère les requêtes parallèles
- Test : Comment Ollama utilise les performances du processeur Intel et les cœurs efficaces