¿Cuáles LLMs realizan mejor la resumenización?

En pruebas con 40 textos de muestra, Phi3 14b, Llama3.1 8b, Mistral Small 22b, Mistral Nemo 12b y Llama3.2 3b obtuvieron resultados en el rango superior (alrededor del 79–82% correctos). Tanto el tamaño del modelo como la cuantización afectan los resultados.

¿Es Mistral Small adecuado para resumir?

Sí. Mistral Small 22b instruct (q4_0) alcanzó aproximadamente el 81% de aciertos en pruebas de resumen y suele destacar por su calidad lingüística por encima del promedio entre modelos comparables.

¿Son útiles los LLMs más pequeños para la resumenización?

Sí. Llama3.2 3b instruct (q8_0) alcanzó aproximadamente el 79% en las mismas pruebas y fue el más rápido, lo que hace que los modelos pequeños sean una buena opción cuando importa la velocidad o el uso de recursos.

¿Cómo se mide el rendimiento de la resumen en LLM?

Un enfoque común es ejecutar el modelo en muchos textos de muestra con un prompt de resumen, luego puntuar las respuestas correctas (por ejemplo, con reordenamiento de embeddings) y reportar la proporción de respuestas correctas o el puntaje promedio.

¿Dónde puedo encontrar más información sobre el rendimiento de los modelos de lenguaje grande y los benchmarks?

Nuestro centro de rendimiento de LLM aborda el throughput frente a la latencia, los límites de VRAM, las solicitudes paralelas y benchmarks en diferentes entornos de ejecución y hardware.

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 y Phi - Prueba de modelos de lenguaje grande

Siguiente ronda de pruebas de LLM

Índice

No hace mucho tiempo se lanzó. Vamos a ponernos al día y pruebe cómo se comporta Mistral Small en comparación con otros LLMs.

Para obtener más información sobre el throughput, la latencia, la VRAM y las pruebas en diferentes entornos de ejecución y hardware, consulte Rendimiento de LLM: Benchmarks, Cuellos de Botella y Optimización.

Antes ya habíamos hecho:

Prueba de detección de falacias lógicas por nuevos LLMs: gemma2, qwen2 y mistralNemo

El coche está acelerando

Cómo realizamos las pruebas

Aquí probamos las capacidades de resumen de los LLMS:

tenemos 40 textos de muestra, y estamos ejecutando el LLM con el prompt de pregunta y resumen (similar a perplexica forma)
resúmenes reordenados con modelos de embedding
el número de respuestas correctas dividido por el número total de preguntas nos da el rendimiento del modelo

Resultado de la prueba

Top 5 lugares con porcentaje promedio de respuestas correctas:

82%: phi3 - 14b-medium-128k-instruct-q4_0
81%: llama3.1 - 8b-instruct-q8_0
81%: mistral-small - 22b-instruct-2409-q4_0
79%: mistral-nemo - 12b-instruct-2407-q6_K
79%: llama3.2 - 3b-instruct-q8_0

Todos estos modelos han mostrado un buen rendimiento.

Me gustaría dirigir un poco de atención hacia el grupo de modelos Mistral. La calidad del lenguaje es un poco mejor que el promedio.

Otro punto: el pequeño modelo de 3.2b llama3.2:3b-instruct-q8_0 mostró un resultado muy bueno para su tamaño, y es el más rápido de todos.

Resultado detallado de la prueba

Nombre del modelo, parámetros, cuantización	Tamaño	Prueba 1	Prueba 2	Promedio
llama3.2:3b-instruct-q8_0	4GB	80	79	79
llama3.1:8b-instruct-q8_0	9GB	76	86	81
gemma2:27b-instruct-q3_K_S	12GB	76	72	74
mistral-nemo:12b-instruct-2407-q6_K	10GB	76	82	79
mistral-small:22b-instruct-2409-q4_0	12GB	85	75	80
phi3:14b-medium-128k-instruct-q4_0	9GB	76	89	82
qwen2.5:14b-instruct-q5_0	10GB	66	75	70
qwen2.5:32b-instruct-q3_K_S	14GB	80	75	77
qwen2.5:32b-instruct-q4_0	18GB	76	79	77
llama3.1:70b-instruct-q3_K_M	34GB	76	75	75
qwen2.5:72b-instruct-q4_1	45GB	76	75	75

Para más benchmarks, elección de modelos y ajuste de rendimiento, consulte nuestro Rendimiento de LLM: Benchmarks, Cuellos de Botella y Optimización hub.

Cómo realizamos las pruebas

Resultado de la prueba

Resultado detallado de la prueba

Enlaces útiles