Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 dan Phi - Uji LLM

Putaran berikutnya uji LLM

Konten Halaman

Tidak lama yang lalu telah dirilis. Mari kita mengejar dan uji bagaimana kinerja Mistral Small dibandingkan dengan LLM lainnya.

Sebelumnya kita sudah melakukan:

Uji deteksi fallacy logis oleh LLM baru: gemma2, qwen2 dan mistralNemo

Mobil sedang melaju cepat

Bagaimana kita menguji

Di sini kita menguji kemampuan ringkasan LLMS:

kita memiliki 40 teks contoh, dan kita menjalankan LLM dengan prompt Pertanyaan dan Ringkasan (seperti cara perplexica)
ringkasan yang direrank dengan model embedding
jumlah jawaban yang benar dibagi dengan jumlah total pertanyaan memberi kita kinerja model

Hasil Uji

Lima besar dengan persentase rata-rata jawaban yang benar:

82%: phi3 - 14b-medium-128k-instruct-q4_0
81%: llama3.1 - 8b-instruct-q8_0
81%: mistral-small - 22b-instruct-2409-q4_0
79%: mistral-nemo - 12b-instruct-2407-q6_K
79%: llama3.2 - 3b-instruct-q8_0

Semua model ini menunjukkan kinerja yang baik.

Saya akan menarik perhatian terhadap keluarga model Mistral. Kualitas bahasa sedikit lebih baik dari rata-rata.

Poin lain - model kecil 3.2b llama3.2:3b-instruct-q8_0 menunjukkan hasil yang sangat baik untuk ukurannya, dan ini adalah yang paling cepat dari semua.

Hasil uji terperinci

Nama model, parameter, kuantisasi	Ukuran	Uji 1	Uji 2	Rata-rata
llama3.2:3b-instruct-q8_0	4GB	80	79	79
llama3.1:8b-instruct-q8_0	9GB	76	86	81
gemma2:27b-instruct-q3_K_S	12GB	76	72	74
mistral-nemo:12b-instruct-2407-q6_K	10GB	76	82	79
mistral-small:22b-instruct-2409-q4_0	12GB	85	75	80
phi3:14b-medium-128k-instruct-q4_0	9GB	76	89	82
qwen2.5:14b-instruct-q5_0	10GB	66	75	70
qwen2.5:32b-instruct-q3_K_S	14GB	80	75	77
qwen2.5:32b-instruct-q4_0	18GB	76	79	77
llama3.1:70b-instruct-q3_K_M	34GB	76	75	75
qwen2.5:72b-instruct-q4_1	45GB	76	75	75

Bagaimana kita menguji

Hasil Uji

Hasil uji terperinci

Tautan yang berguna