Quais LLMs apresentam o melhor desempenho para resumo?

Em benchmarks realizados em 40 textos de amostra, os modelos Phi3 14b, Llama3.1 8b, Mistral Small 22b, Mistral Nemo 12b e Llama3.2 3b obtiveram pontuações no intervalo superior (cerca de 79–82% de acertos). Tanto o tamanho do modelo quanto a quantização afetam os resultados.

O Mistral Small é bom para resumo?

Sim. O Mistral Small 22b instruct (q4_0) alcançou cerca de 81% de acurácia em testes de sumarização e é frequentemente citado pela qualidade linguística acima da média entre modelos comparáveis.

Os LLMs menores são úteis para resumo?

Sim. O Llama3.2 3b instruct (q8_0) atingiu cerca de 79% nos mesmos testes e foi o mais rápido, tornando os modelos pequenos uma boa opção quando a velocidade ou o uso de recursos são importantes.

Como o desempenho da sumarização de LLMs é medido?

Uma abordagem comum é executar o modelo em vários textos de amostra com um prompt de sumarização, em seguida, pontuar as respostas corretas (por exemplo, com reranking de embeddings) e relatar a proporção de respostas corretas ou a pontuação média.

Onde posso encontrar mais informações sobre o desempenho e os benchmarks de LLMs?

Nosso hub de desempenho de LLMs abrange throughput versus latência, limites de VRAM, solicitações paralelas e benchmarks em diferentes runtimes e hardwares.

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 e Phi - Teste de LLM

Próxima rodada de testes de LLM

Conteúdo da página

Não foi muito tempo atrás que foi lançado. Vamos dar uma olhada e testar como o Mistral Small se compara a outros LLMs.

Para mais informações sobre throughput, latência, VRAM e benchmarks em diferentes ambientes de execução e hardware, consulte Desempenho de LLM: Benchmarks, Gargalos e Otimização.

Antes disso, já fizemos:

Teste de detecção de falácias lógicas por novos LLMs: gemma2, qwen2 e mistralNemo

Carro em alta velocidade

Como testamos

Aqui testamos as capacidades de sumarização dos LLMs:

temos 40 textos de amostra e executamos o LLM com os prompts de Pergunta e Sumarização (uma abordagem similar à do Perplexica)
reclassificação de resumos com modelos de embedding
o número de respostas corretas dividido pelo número total de perguntas nos dá o desempenho do modelo

Resultados do Teste

Top 5 lugares com a média de % de respostas corretas:

82%: phi3 - 14b-medium-128k-instruct-q4_0
81%: llama3.1 - 8b-instruct-q8_0
81%: mistral-small - 22b-instruct-2409-q4_0
79%: mistral-nemo - 12b-instruct-2407-q6_K
79%: llama3.2 - 3b-instruct-q8_0

Todos estes modelos demonstraram bom desempenho.

Dirigiria alguma atenção para o grupo de modelos Mistral. A qualidade da linguagem é um pouco melhor que a média.

Outro ponto - o pequeno modelo de 3,2B llama3.2:3b-instruct-q8_0 mostrou um resultado muito bom para o seu tamanho, e é o mais rápido de todos.

Resultado detalhado do teste

Nome do modelo, parâmetros, quantização	Tamanho	Teste 1	Teste 2	Média
llama3.2:3b-instruct-q8_0	4GB	80	79	79
llama3.1:8b-instruct-q8_0	9GB	76	86	81
gemma2:27b-instruct-q3_K_S	12GB	76	72	74
mistral-nemo:12b-instruct-2407-q6_K	10GB	76	82	79
mistral-small:22b-instruct-2409-q4_0	12GB	85	75	80
phi3:14b-medium-128k-instruct-q4_0	9GB	76	89	82
qwen2.5:14b-instruct-q5_0	10GB	66	75	70
qwen2.5:32b-instruct-q3_K_S	14GB	80	75	77
qwen2.5:32b-instruct-q4_0	18GB	76	79	77
llama3.1:70b-instruct-q3_K_M	34GB	76	75	75
qwen2.5:72b-instruct-q4_1	45GB	76	75	75

Para mais benchmarks, escolha de modelos e ajuste de desempenho, visite nosso hub Desempenho de LLM: Benchmarks, Gargalos e Otimização.

Como testamos

Resultados do Teste

Resultado detalhado do teste

Links úteis