Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 dan Phi - Uji LLM

Putaran berikutnya uji LLM

Konten Halaman

Tidak lama yang lalu telah dirilis. Mari kita mengejar dan uji bagaimana kinerja Mistral Small dibandingkan dengan LLM lainnya.

Sebelumnya kita sudah melakukan:

Mobil sedang melaju cepat

Bagaimana kita menguji

Di sini kita menguji kemampuan ringkasan LLMS:

  • kita memiliki 40 teks contoh, dan kita menjalankan LLM dengan prompt Pertanyaan dan Ringkasan (seperti cara perplexica)
  • ringkasan yang direrank dengan model embedding
  • jumlah jawaban yang benar dibagi dengan jumlah total pertanyaan memberi kita kinerja model

Hasil Uji

Lima besar dengan persentase rata-rata jawaban yang benar:

  1. 82%: phi3 - 14b-medium-128k-instruct-q4_0
  2. 81%: llama3.1 - 8b-instruct-q8_0
  3. 81%: mistral-small - 22b-instruct-2409-q4_0
  4. 79%: mistral-nemo - 12b-instruct-2407-q6_K
  5. 79%: llama3.2 - 3b-instruct-q8_0

Semua model ini menunjukkan kinerja yang baik.

Saya akan menarik perhatian terhadap keluarga model Mistral. Kualitas bahasa sedikit lebih baik dari rata-rata.

Poin lain - model kecil 3.2b llama3.2:3b-instruct-q8_0 menunjukkan hasil yang sangat baik untuk ukurannya, dan ini adalah yang paling cepat dari semua.

Hasil uji terperinci

Nama model, parameter, kuantisasi Ukuran Uji 1 Uji 2 Rata-rata
llama3.2:3b-instruct-q8_0 4GB 80 79 79
llama3.1:8b-instruct-q8_0 9GB 76 86 81
gemma2:27b-instruct-q3_K_S 12GB 76 72 74
mistral-nemo:12b-instruct-2407-q6_K 10GB 76 82 79
mistral-small:22b-instruct-2409-q4_0 12GB 85 75 80
phi3:14b-medium-128k-instruct-q4_0 9GB 76 89 82
qwen2.5:14b-instruct-q5_0 10GB 66 75 70
qwen2.5:32b-instruct-q3_K_S 14GB 80 75 77
qwen2.5:32b-instruct-q4_0 18GB 76 79 77
llama3.1:70b-instruct-q3_K_M 34GB 76 75 75
qwen2.5:72b-instruct-q4_1 45GB 76 75 75

Tautan yang berguna