Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 e Phi - Teste de LLM

Próxima rodada de testes de LLM

Conteúdo da página

Não foi muito tempo atrás que foi lançado. Vamos dar uma olhada e testar como o Mistral Small se compara a outros LLMs.

Para mais informações sobre throughput, latência, VRAM e benchmarks em diferentes ambientes de execução e hardware, consulte Desempenho de LLM: Benchmarks, Gargalos e Otimização.

Antes disso, já fizemos:

Carro em alta velocidade

Como testamos

Aqui testamos as capacidades de sumarização dos LLMs:

  • temos 40 textos de amostra e executamos o LLM com os prompts de Pergunta e Sumarização (uma abordagem similar à do Perplexica)
  • reclassificação de resumos com modelos de embedding
  • o número de respostas corretas dividido pelo número total de perguntas nos dá o desempenho do modelo

Resultados do Teste

Top 5 lugares com a média de % de respostas corretas:

  1. 82%: phi3 - 14b-medium-128k-instruct-q4_0
  2. 81%: llama3.1 - 8b-instruct-q8_0
  3. 81%: mistral-small - 22b-instruct-2409-q4_0
  4. 79%: mistral-nemo - 12b-instruct-2407-q6_K
  5. 79%: llama3.2 - 3b-instruct-q8_0

Todos estes modelos demonstraram bom desempenho.

Dirigiria alguma atenção para o grupo de modelos Mistral. A qualidade da linguagem é um pouco melhor que a média.

Outro ponto - o pequeno modelo de 3,2B llama3.2:3b-instruct-q8_0 mostrou um resultado muito bom para o seu tamanho, e é o mais rápido de todos.

Resultado detalhado do teste

Nome do modelo, parâmetros, quantização Tamanho Teste 1 Teste 2 Média
llama3.2:3b-instruct-q8_0 4GB 80 79 79
llama3.1:8b-instruct-q8_0 9GB 76 86 81
gemma2:27b-instruct-q3_K_S 12GB 76 72 74
mistral-nemo:12b-instruct-2407-q6_K 10GB 76 82 79
mistral-small:22b-instruct-2409-q4_0 12GB 85 75 80
phi3:14b-medium-128k-instruct-q4_0 9GB 76 89 82
qwen2.5:14b-instruct-q5_0 10GB 66 75 70
qwen2.5:32b-instruct-q3_K_S 14GB 80 75 77
qwen2.5:32b-instruct-q4_0 18GB 76 79 77
llama3.1:70b-instruct-q3_K_M 34GB 76 75 75
qwen2.5:72b-instruct-q4_1 45GB 76 75 75

Para mais benchmarks, escolha de modelos e ajuste de desempenho, visite nosso hub Desempenho de LLM: Benchmarks, Gargalos e Otimização.