Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 e Phi - Teste de LLM

Próxima rodada de testes de LLM

Conteúdo da página

Não há muito tempo foi lançado. Vamos nos atualizar e
teste como o Mistral Small se compara a outros LLMs.

Antes disso, já fizemos:

Carro está acelerando

Como testamos

Aqui testamos as capacidades de resumo dos LLMS:

  • temos 40 textos de amostra, e estamos executando o LLM com o prompt de Pergunta e Resumo (similar ao perplexica modo)
  • resumos reclassificados com modelos de embedding
  • o número de respostas corretas dividido pelo número total de perguntas nos dá o desempenho do modelo

Resultado do Teste

Top 5 lugares com a porcentagem média de respostas corretas:

  1. 82%: phi3 - 14b-medium-128k-instruct-q4_0
  2. 81%: llama3.1 - 8b-instruct-q8_0
  3. 81%: mistral-small - 22b-instruct-2409-q4_0
  4. 79%: mistral-nemo - 12b-instruct-2407-q6_K
  5. 79%: llama3.2 - 3b-instruct-q8_0

Todos esses modelos mostraram bom desempenho.

Direcionaria um pouco de atenção para o grupo de modelos Mistral. A qualidade do idioma é um pouco melhor do que a média.

Outro ponto – o pequeno modelo de 3,2b llama3.2:3b-instruct-q8_0 mostrou um resultado muito bom para o seu tamanho, e é o mais rápido de todos.

Resultado detalhado do teste

Nome do modelo, parâmetros, quantização Tamanho Teste 1 Teste 2 Média
llama3.2:3b-instruct-q8_0 4GB 80 79 79
llama3.1:8b-instruct-q8_0 9GB 76 86 81
gemma2:27b-instruct-q3_K_S 12GB 76 72 74
mistral-nemo:12b-instruct-2407-q6_K 10GB 76 82 79
mistral-small:22b-instruct-2409-q4_0 12GB 85 75 80
phi3:14b-medium-128k-instruct-q4_0 9GB 76 89 82
qwen2.5:14b-instruct-q5_0 10GB 66 75 70
qwen2.5:32b-instruct-q3_K_S 14GB 80 75 77
qwen2.5:32b-instruct-q4_0 18GB 76 79 77
llama3.1:70b-instruct-q3_K_M 34GB 76 75 75
qwen2.5:72b-instruct-q4_1 45GB 76 75 75