Quels LLM fonctionnent le mieux pour la synthèse ?

Dans des benchmarks sur 40 textes d’exemple, Phi3 14b, Llama3.1 8b, Mistral Small 22b, Mistral Nemo 12b et Llama3.2 3b se sont classés dans la fourchette supérieure (environ 79 à 82 % de réponses correctes). La taille du modèle et la quantification influencent tous deux les résultats.

Mistral Small est-il adapté à la résumé ?

Oui. Mistral Small 22b instruct (q4_0) a atteint environ 81 % de précision dans les tests de résumé et est souvent noté pour sa qualité linguistique supérieure moyenne par rapport aux modèles comparables.

Les petits modèles LLM sont-ils utiles pour la synthèse ?

Oui. Llama3.2 3b instruct (q8_0) a atteint environ 79 % dans les mêmes tests et a été le plus rapide, ce qui en fait une bonne option lorsque la vitesse ou l’utilisation des ressources sont importantes.

Comment mesure-t-on les performances de la résumé des LLM ?

Une approche courante consiste à exécuter le modèle sur de nombreux textes d’exemple avec un prompt de résumé, puis à noter les bonnes réponses (par exemple, avec un classement des embeddings) et à rapporter le pourcentage de bonnes réponses ou la note moyenne.

Où puis-je trouver plus d’informations sur les performances et les benchmarks des LLM ?

Notre centre de performance des LLM aborde le débit par rapport à la latence, les limites de VRAM, les requêtes parallèles et les benchmarks sur différents runtimes et matériels.

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 et Phi - Test des modèles de langage

Prochaine série de tests LLM

Sommaire

Il y a peu de temps, a été publié. Commençons par un point sur la mise à jour et testons comment Mistral Small se compare aux autres LLMs ici.

Pour plus d’informations sur le débit, la latence, la VRAM et les benchmarks sur différents runtimes et matériels, consultez LLM Performance: Benchmarks, Bottlenecks & Optimization.

Avant cela, nous avions déjà effectué :

Test de détection des fautes logiques par de nouveaux LLMs : gemma2, qwen2 et mistralNemo

La voiture roule à toute vitesse

Comment nous testons

Ici, nous testons les capacités de résumé des LLMS :

nous disposons de 40 textes d’exemple, et nous exécutons le LLM avec le prompt de question et de résumé (similaire à la méthode utilisée par perplexica)
les résumés sont réordonnés avec des modèles d’embedding
le nombre de bonnes réponses divisé par le nombre total de questions nous donne la performance du modèle

Résultats du test

Top 5 avec le pourcentage moyen de bonnes réponses :

82% : phi3 - 14b-medium-128k-instruct-q4_0
81% : llama3.1 - 8b-instruct-q8_0
81% : mistral-small - 22b-instruct-2409-q4_0
79% : mistral-nemo - 12b-instruct-2407-q6_K
79% : llama3.2 - 3b-instruct-q8_0

Tous ces modèles ont montré de bonnes performances.

Je voudrais attirer un peu d’attention sur le groupe de modèles Mistral. La qualité du langage est légèrement meilleure que la moyenne.

Un autre point : le petit modèle de 3,2 Go, llama3.2:3b-instruct-q8_0, a donné un très bon résultat pour sa taille, et il est le plus rapide d’entre tous.

Résultats détaillés du test

Nom du modèle, paramètres, quantification	Taille	Test 1	Test 2	Moyenne
llama3.2:3b-instruct-q8_0	4 Go	80	79	79
llama3.1:8b-instruct-q8_0	9 Go	76	86	81
gemma2:27b-instruct-q3_K_S	12 Go	76	72	74
mistral-nemo:12b-instruct-2407-q6_K	10 Go	76	82	79
mistral-small:22b-instruct-2409-q4_0	12 Go	85	75	80
phi3:14b-medium-128k-instruct-q4_0	9 Go	76	89	82
qwen2.5:14b-instruct-q5_0	10 Go	66	75	70
qwen2.5:32b-instruct-q3_K_S	14 Go	80	75	77
qwen2.5:32b-instruct-q4_0	18 Go	76	79	77
llama3.1:70b-instruct-q3_K_M	34 Go	76	75	75
qwen2.5:72b-instruct-q4_1	45 Go	76	75	75

Pour plus de benchmarks, de choix de modèles et d’optimisation des performances, consultez notre LLM Performance: Benchmarks, Bottlenecks & Optimization hub.

Comment nous testons

Résultats du test

Résultats détaillés du test

Liens utiles