Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 e Phi - Test con LLM

Prossima fase dei test sull'LLM

Indice

Non molto tempo fa è stato rilasciato. Andiamo a rivedere e
testa come si comporta Mistral Small rispetto ad altri LLM.

Prima abbiamo già fatto:

Test della rilevazione delle fallacie logiche da parte di nuovi LLM: gemma2, qwen2 e mistralNemo

La macchina sta accelerando

Come effettuiamo i test

Qui testiamo le capacità di sintesi degli LLMS:

abbiamo 40 testi di campione, e stiamo eseguendo l’LLM con il prompt di domanda e sintesi (simile al modo in cui si fa perplexica)
riordiniamo le sintesi con modelli di embedding
il numero di risposte corrette diviso per il numero totale di domande ci dà le prestazioni del modello

Risultati del test

Classifica dei primi 5 posti con la percentuale media di risposte corrette:

82%: phi3 - 14b-medium-128k-instruct-q4_0
81%: llama3.1 - 8b-instruct-q8_0
81%: mistral-small - 22b-instruct-2409-q4_0
79%: mistral-nemo - 12b-instruct-2407-q6_K
79%: llama3.2 - 3b-instruct-q8_0

Tutti questi modelli hanno mostrato buone prestazioni.

Vorrei concentrare un po’ di attenzione sul gruppo di modelli Mistral. La qualità del linguaggio è un po’ migliore rispetto alla media.

Un altro punto - il piccolo modello 3.2b llama3.2:3b-instruct-q8_0 ha mostrato un risultato molto buono per la sua dimensione, ed è il più veloce tra tutti.

Risultati dettagliati del test

Nome del modello, parametri, quantizzazione	Dimensione	Test 1	Test 2	Media
llama3.2:3b-instruct-q8_0	4GB	80	79	79
llama3.1:8b-instruct-q8_0	9GB	76	86	81
gemma2:27b-instruct-q3_K_S	12GB	76	72	74
mistral-nemo:12b-instruct-2407-q6_K	10GB	76	82	79
mistral-small:22b-instruct-2409-q4_0	12GB	85	75	80
phi3:14b-medium-128k-instruct-q4_0	9GB	76	89	82
qwen2.5:14b-instruct-q5_0	10GB	66	75	70
qwen2.5:32b-instruct-q3_K_S	14GB	80	75	77
qwen2.5:32b-instruct-q4_0	18GB	76	79	77
llama3.1:70b-instruct-q3_K_M	34GB	76	75	75
qwen2.5:72b-instruct-q4_1	45GB	76	75	75

Come effettuiamo i test

Risultati del test

Risultati dettagliati del test

Link utili