Quali LLM si prestano meglio per la sintesi?

Nei benchmark su 40 testi campione, Phi3 14b, Llama3.1 8b, Mistral Small 22b, Mistral Nemo 12b e Llama3.2 3b hanno ottenuto risultati nell’intervallo più alto (circa il 79-82% corretto). La dimensione del modello e la quantizzazione influiscono entrambe sui risultati.

È adatto Mistral Small alla sommarizzazione?

Sì. Mistral Small 22b instruct (q4_0) ha raggiunto circa l'81% di correttezza nei test di sintesi e spesso è riconosciuto per la qualità linguistica superiore alla media rispetto ai modelli comparabili.

Sono utili i modelli LLM più piccoli per la sintesi?

Sì. Llama3.2 3b instruct (q8_0) ha raggiunto circa il 79% nello stesso test e è stato il più veloce, rendendo i modelli più piccoli un’opzione vantaggiosa quando velocità o utilizzo delle risorse sono importanti.

Come viene misurata la prestazione della sommarizzazione degli LLM?

Un approccio comune è eseguire il modello su molti testi campione con un prompt di sintesi, quindi valutare le risposte corrette (ad esempio, con il rirango dei vettori di embedding) e riportare la percentuale di risposte corrette o il punteggio medio.

Dove posso trovare maggiori informazioni sulle prestazioni e sui benchmark degli LLM?

Il nostro hub sulle prestazioni del modello linguistico pesante (LLM) copre throughput vs latenza, limiti di VRAM, richieste parallele e benchmark su diversi runtimes e hardware.

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 e Phi - Test con LLM

Prossima serie di test sull'LLM

Indice

Non molto tempo fa è stato rilasciato. Veniamo al punto e testiamo come si comporta Mistral Small rispetto ad altri LLM.

Per ulteriori informazioni sul throughput, la latenza, la VRAM e i benchmark su diversi runtime e hardware, consulta LLM Performance: Benchmarks, Bottlenecks & Optimization.

Prima di questo abbiamo già fatto:

Testing logical fallacy detection by new LLMs: gemma2, qwen2 and mistralNemo

La macchina sta accelerando

Come effettuiamo i test

Qui testiamo le capacità di sintesi degli LLM:

abbiamo 40 testi campione, e stiamo eseguendo l’LLM con il prompt di domanda e sintesi (simile al metodo utilizzato in perplexica)
i riassunti vengono riconosciuti con embedding models
il numero di risposte corrette diviso per il numero totale di domande ci dà le prestazioni del modello

Risultati del test

Classifica dei primi 5 posti con la percentuale media di risposte corrette:

82%: phi3 - 14b-medium-128k-instruct-q4_0
81%: llama3.1 - 8b-instruct-q8_0
81%: mistral-small - 22b-instruct-2409-q4_0
79%: mistral-nemo - 12b-instruct-2407-q6_K
79%: llama3.2 - 3b-instruct-q8_0

Tutti questi modelli hanno mostrato prestazioni buone.

Vorrei concentrare un po’ di attenzione sul gruppo di modelli Mistral. La qualità del linguaggio è un po’ migliore rispetto alla media.

Un altro punto: il piccolo modello 3.2b llama3.2:3b-instruct-q8_0 ha mostrato un risultato molto buono per la sua dimensione, e è il più veloce di tutti.

Risultati dettagliati del test

Nome del modello, parametri, quantizzazione	Dimensione	Test 1	Test 2	Media
llama3.2:3b-instruct-q8_0	4GB	80	79	79
llama3.1:8b-instruct-q8_0	9GB	76	86	81
gemma2:27b-instruct-q3_K_S	12GB	76	72	74
mistral-nemo:12b-instruct-2407-q6_K	10GB	76	82	79
mistral-small:22b-instruct-2409-q4_0	12GB	85	75	80
phi3:14b-medium-128k-instruct-q4_0	9GB	76	89	82
qwen2.5:14b-instruct-q5_0	10GB	66	75	70
qwen2.5:32b-instruct-q3_K_S	14GB	80	75	77
qwen2.5:32b-instruct-q4_0	18GB	76	79	77
llama3.1:70b-instruct-q3_K_M	34GB	76	75	75
qwen2.5:72b-instruct-q4_1	45GB	76	75	75

Per ulteriori benchmark, scelta del modello e ottimizzazione delle prestazioni, consulta il nostro LLM Performance: Benchmarks, Bottlenecks & Optimization hub.

Come effettuiamo i test

Risultati del test

Risultati dettagliati del test

Link utili