Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 y Phi - Prueba de modelos LLM
Siguiente ronda de pruebas de LLM
Índice
Hace poco fue lanzado. Vamos a ponernos al día y
testeamos cómo se comporta Mistral Small en comparación con otros LLMs.
Antes ya hicimos:
Cómo realizamos las pruebas
Aquí probamos las capacidades de resumen de los LLMs:
- tenemos 40 textos de ejemplo, y estamos ejecutando el LLM con el prompt de pregunta y resumen (similar a perplexica forma)
- resúmenes reordenados con modelos de embedding
- el número de respuestas correctas dividido por el número total de preguntas nos da el rendimiento del modelo
Resultado de la prueba
Top 5 lugares con porcentaje promedio de respuestas correctas:
- 82%: phi3 - 14b-medium-128k-instruct-q4_0
- 81%: llama3.1 - 8b-instruct-q8_0
- 81%: mistral-small - 22b-instruct-2409-q4_0
- 79%: mistral-nemo - 12b-instruct-2407-q6_K
- 79%: llama3.2 - 3b-instruct-q8_0
Todos estos modelos han mostrado un buen rendimiento.
Me gustaría dirigir un poco de atención hacia el grupo de modelos Mistral. La calidad del lenguaje es un poco mejor que el promedio.
Otro punto: el pequeño modelo de 3.2b llama3.2:3b-instruct-q8_0 mostró un resultado muy bueno para su tamaño, y es el más rápido de todos.
Resultado detallado de la prueba
Nombre del modelo, parámetros, cuantización | Tamaño | Prueba 1 | Prueba 2 | Promedio |
---|---|---|---|---|
llama3.2:3b-instruct-q8_0 | 4GB | 80 | 79 | 79 |
llama3.1:8b-instruct-q8_0 | 9GB | 76 | 86 | 81 |
gemma2:27b-instruct-q3_K_S | 12GB | 76 | 72 | 74 |
mistral-nemo:12b-instruct-2407-q6_K | 10GB | 76 | 82 | 79 |
mistral-small:22b-instruct-2409-q4_0 | 12GB | 85 | 75 | 80 |
phi3:14b-medium-128k-instruct-q4_0 | 9GB | 76 | 89 | 82 |
qwen2.5:14b-instruct-q5_0 | 10GB | 66 | 75 | 70 |
qwen2.5:32b-instruct-q3_K_S | 14GB | 80 | 75 | 77 |
qwen2.5:32b-instruct-q4_0 | 18GB | 76 | 79 | 77 |
llama3.1:70b-instruct-q3_K_M | 34GB | 76 | 75 | 75 |
qwen2.5:72b-instruct-q4_1 | 45GB | 76 | 75 | 75 |
Enlaces útiles
- Hoja de trucos de Python
- Escribir prompts efectivos para LLMs
- Prueba de LLMs: gemma2, qwen2 y Mistral Nemo
- Instalación y configuración de Ollama
- Reordenamiento con modelos de embedding
- Hoja de trucos de Conda
- Hoja de trucos de Ollama
- Hoja de trucos de Docker
- Hoja de trucos de cURL
- Cómo maneja Ollama las solicitudes paralelas
- Prueba: cómo Ollama utiliza el rendimiento de los núcleos de CPU de Intel y núcleos eficientes