Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 e Phi - Test con LLM

Prossima fase dei test sull'LLM

Indice

Non molto tempo fa è stato rilasciato. Andiamo a rivedere e
testa come si comporta Mistral Small rispetto ad altri LLM.

Prima abbiamo già fatto:

La macchina sta accelerando

Come effettuiamo i test

Qui testiamo le capacità di sintesi degli LLMS:

  • abbiamo 40 testi di campione, e stiamo eseguendo l’LLM con il prompt di domanda e sintesi (simile al modo in cui si fa perplexica)
  • riordiniamo le sintesi con modelli di embedding
  • il numero di risposte corrette diviso per il numero totale di domande ci dà le prestazioni del modello

Risultati del test

Classifica dei primi 5 posti con la percentuale media di risposte corrette:

  1. 82%: phi3 - 14b-medium-128k-instruct-q4_0
  2. 81%: llama3.1 - 8b-instruct-q8_0
  3. 81%: mistral-small - 22b-instruct-2409-q4_0
  4. 79%: mistral-nemo - 12b-instruct-2407-q6_K
  5. 79%: llama3.2 - 3b-instruct-q8_0

Tutti questi modelli hanno mostrato buone prestazioni.

Vorrei concentrare un po’ di attenzione sul gruppo di modelli Mistral. La qualità del linguaggio è un po’ migliore rispetto alla media.

Un altro punto - il piccolo modello 3.2b llama3.2:3b-instruct-q8_0 ha mostrato un risultato molto buono per la sua dimensione, ed è il più veloce tra tutti.

Risultati dettagliati del test

Nome del modello, parametri, quantizzazione Dimensione Test 1 Test 2 Media
llama3.2:3b-instruct-q8_0 4GB 80 79 79
llama3.1:8b-instruct-q8_0 9GB 76 86 81
gemma2:27b-instruct-q3_K_S 12GB 76 72 74
mistral-nemo:12b-instruct-2407-q6_K 10GB 76 82 79
mistral-small:22b-instruct-2409-q4_0 12GB 85 75 80
phi3:14b-medium-128k-instruct-q4_0 9GB 76 89 82
qwen2.5:14b-instruct-q5_0 10GB 66 75 70
qwen2.5:32b-instruct-q3_K_S 14GB 80 75 77
qwen2.5:32b-instruct-q4_0 18GB 76 79 77
llama3.1:70b-instruct-q3_K_M 34GB 76 75 75
qwen2.5:72b-instruct-q4_1 45GB 76 75 75