Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 e Phi - Teste de LLM

Próxima rodada de testes de LLM

Conteúdo da página

Não há muito tempo foi lançado. Vamos nos atualizar e
teste como o Mistral Small se compara a outros LLMs.

Antes disso, já fizemos:

Carro está acelerando

Como testamos

Aqui testamos as capacidades de resumo dos LLMS:

temos 40 textos de amostra, e estamos executando o LLM com o prompt de Pergunta e Resumo (similar ao perplexica modo)
resumos reclassificados com modelos de embedding
o número de respostas corretas dividido pelo número total de perguntas nos dá o desempenho do modelo

Top 5 lugares com a porcentagem média de respostas corretas:

Todos esses modelos mostraram bom desempenho.

Direcionaria um pouco de atenção para o grupo de modelos Mistral. A qualidade do idioma é um pouco melhor do que a média.

Outro ponto – o pequeno modelo de 3,2b llama3.2:3b-instruct-q8_0 mostrou um resultado muito bom para o seu tamanho, e é o mais rápido de todos.

Nome do modelo, parâmetros, quantização	Tamanho	Teste 1	Teste 2	Média
llama3.2:3b-instruct-q8_0	4GB	80	79	79
llama3.1:8b-instruct-q8_0	9GB	76	86	81
gemma2:27b-instruct-q3_K_S	12GB	76	72	74
mistral-nemo:12b-instruct-2407-q6_K	10GB	76	82	79
mistral-small:22b-instruct-2409-q4_0	12GB	85	75	80
phi3:14b-medium-128k-instruct-q4_0	9GB	76	89	82
qwen2.5:14b-instruct-q5_0	10GB	66	75	70
qwen2.5:32b-instruct-q3_K_S	14GB	80	75	77
qwen2.5:32b-instruct-q4_0	18GB	76	79	77
llama3.1:70b-instruct-q3_K_M	34GB	76	75	75
qwen2.5:72b-instruct-q4_1	45GB	76	75	75