Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 e Phi - Teste de LLM
Próxima rodada de testes de LLM
Conteúdo da página
Não há muito tempo foi lançado. Vamos nos atualizar e
teste como o Mistral Small se compara a outros LLMs.
Antes disso, já fizemos:
Como testamos
Aqui testamos as capacidades de resumo dos LLMS:
- temos 40 textos de amostra, e estamos executando o LLM com o prompt de Pergunta e Resumo (similar ao perplexica modo)
- resumos reclassificados com modelos de embedding
- o número de respostas corretas dividido pelo número total de perguntas nos dá o desempenho do modelo
Resultado do Teste
Top 5 lugares com a porcentagem média de respostas corretas:
- 82%: phi3 - 14b-medium-128k-instruct-q4_0
- 81%: llama3.1 - 8b-instruct-q8_0
- 81%: mistral-small - 22b-instruct-2409-q4_0
- 79%: mistral-nemo - 12b-instruct-2407-q6_K
- 79%: llama3.2 - 3b-instruct-q8_0
Todos esses modelos mostraram bom desempenho.
Direcionaria um pouco de atenção para o grupo de modelos Mistral. A qualidade do idioma é um pouco melhor do que a média.
Outro ponto – o pequeno modelo de 3,2b llama3.2:3b-instruct-q8_0 mostrou um resultado muito bom para o seu tamanho, e é o mais rápido de todos.
Resultado detalhado do teste
Nome do modelo, parâmetros, quantização | Tamanho | Teste 1 | Teste 2 | Média |
---|---|---|---|---|
llama3.2:3b-instruct-q8_0 | 4GB | 80 | 79 | 79 |
llama3.1:8b-instruct-q8_0 | 9GB | 76 | 86 | 81 |
gemma2:27b-instruct-q3_K_S | 12GB | 76 | 72 | 74 |
mistral-nemo:12b-instruct-2407-q6_K | 10GB | 76 | 82 | 79 |
mistral-small:22b-instruct-2409-q4_0 | 12GB | 85 | 75 | 80 |
phi3:14b-medium-128k-instruct-q4_0 | 9GB | 76 | 89 | 82 |
qwen2.5:14b-instruct-q5_0 | 10GB | 66 | 75 | 70 |
qwen2.5:32b-instruct-q3_K_S | 14GB | 80 | 75 | 77 |
qwen2.5:32b-instruct-q4_0 | 18GB | 76 | 79 | 77 |
llama3.1:70b-instruct-q3_K_M | 34GB | 76 | 75 | 75 |
qwen2.5:72b-instruct-q4_1 | 45GB | 76 | 75 | 75 |
Links úteis
- Folha de Dicas do Python
- Escrevendo prompts eficazes para LLMs
- Testando LLMs: gemma2, qwen2 e Mistral Nemo
- Instale e configure Ollama
- Reranking com modelos de embedding
- Folha de Dicas do Conda
- Folha de Dicas do Ollama
- Folha de Dicas do Docker
- Folha de Dicas do cURL
- Como Ollama Lida com Pedidos Paralelos
- Teste: Como Ollama Utiliza o Desempenho e os Núcleos Eficientes da CPU Intel