Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 y Phi - Prueba de modelos LLM

Siguiente ronda de pruebas de LLM

Índice

Hace poco fue lanzado. Vamos a ponernos al día y
testeamos cómo se comporta Mistral Small en comparación con otros LLMs.

Antes ya hicimos:

El coche está acelerando

Cómo realizamos las pruebas

Aquí probamos las capacidades de resumen de los LLMs:

  • tenemos 40 textos de ejemplo, y estamos ejecutando el LLM con el prompt de pregunta y resumen (similar a perplexica forma)
  • resúmenes reordenados con modelos de embedding
  • el número de respuestas correctas dividido por el número total de preguntas nos da el rendimiento del modelo

Resultado de la prueba

Top 5 lugares con porcentaje promedio de respuestas correctas:

  1. 82%: phi3 - 14b-medium-128k-instruct-q4_0
  2. 81%: llama3.1 - 8b-instruct-q8_0
  3. 81%: mistral-small - 22b-instruct-2409-q4_0
  4. 79%: mistral-nemo - 12b-instruct-2407-q6_K
  5. 79%: llama3.2 - 3b-instruct-q8_0

Todos estos modelos han mostrado un buen rendimiento.

Me gustaría dirigir un poco de atención hacia el grupo de modelos Mistral. La calidad del lenguaje es un poco mejor que el promedio.

Otro punto: el pequeño modelo de 3.2b llama3.2:3b-instruct-q8_0 mostró un resultado muy bueno para su tamaño, y es el más rápido de todos.

Resultado detallado de la prueba

Nombre del modelo, parámetros, cuantización Tamaño Prueba 1 Prueba 2 Promedio
llama3.2:3b-instruct-q8_0 4GB 80 79 79
llama3.1:8b-instruct-q8_0 9GB 76 86 81
gemma2:27b-instruct-q3_K_S 12GB 76 72 74
mistral-nemo:12b-instruct-2407-q6_K 10GB 76 82 79
mistral-small:22b-instruct-2409-q4_0 12GB 85 75 80
phi3:14b-medium-128k-instruct-q4_0 9GB 76 89 82
qwen2.5:14b-instruct-q5_0 10GB 66 75 70
qwen2.5:32b-instruct-q3_K_S 14GB 80 75 77
qwen2.5:32b-instruct-q4_0 18GB 76 79 77
llama3.1:70b-instruct-q3_K_M 34GB 76 75 75
qwen2.5:72b-instruct-q4_1 45GB 76 75 75

Enlaces útiles