Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 dan Phi - Uji LLM
Putaran berikutnya uji LLM
Konten Halaman
Tidak lama yang lalu telah dirilis. Mari kita mengejar dan uji bagaimana kinerja Mistral Small dibandingkan dengan LLM lainnya.
Sebelumnya kita sudah melakukan:
Bagaimana kita menguji
Di sini kita menguji kemampuan ringkasan LLMS:
- kita memiliki 40 teks contoh, dan kita menjalankan LLM dengan prompt Pertanyaan dan Ringkasan (seperti cara perplexica)
- ringkasan yang direrank dengan model embedding
- jumlah jawaban yang benar dibagi dengan jumlah total pertanyaan memberi kita kinerja model
Hasil Uji
Lima besar dengan persentase rata-rata jawaban yang benar:
- 82%: phi3 - 14b-medium-128k-instruct-q4_0
- 81%: llama3.1 - 8b-instruct-q8_0
- 81%: mistral-small - 22b-instruct-2409-q4_0
- 79%: mistral-nemo - 12b-instruct-2407-q6_K
- 79%: llama3.2 - 3b-instruct-q8_0
Semua model ini menunjukkan kinerja yang baik.
Saya akan menarik perhatian terhadap keluarga model Mistral. Kualitas bahasa sedikit lebih baik dari rata-rata.
Poin lain - model kecil 3.2b llama3.2:3b-instruct-q8_0 menunjukkan hasil yang sangat baik untuk ukurannya, dan ini adalah yang paling cepat dari semua.
Hasil uji terperinci
Nama model, parameter, kuantisasi | Ukuran | Uji 1 | Uji 2 | Rata-rata |
---|---|---|---|---|
llama3.2:3b-instruct-q8_0 | 4GB | 80 | 79 | 79 |
llama3.1:8b-instruct-q8_0 | 9GB | 76 | 86 | 81 |
gemma2:27b-instruct-q3_K_S | 12GB | 76 | 72 | 74 |
mistral-nemo:12b-instruct-2407-q6_K | 10GB | 76 | 82 | 79 |
mistral-small:22b-instruct-2409-q4_0 | 12GB | 85 | 75 | 80 |
phi3:14b-medium-128k-instruct-q4_0 | 9GB | 76 | 89 | 82 |
qwen2.5:14b-instruct-q5_0 | 10GB | 66 | 75 | 70 |
qwen2.5:32b-instruct-q3_K_S | 14GB | 80 | 75 | 77 |
qwen2.5:32b-instruct-q4_0 | 18GB | 76 | 79 | 77 |
llama3.1:70b-instruct-q3_K_M | 34GB | 76 | 75 | 75 |
qwen2.5:72b-instruct-q4_1 | 45GB | 76 | 75 | 75 |
Tautan yang berguna
- Python Cheatsheet
- Menulis prompt yang efektif untuk LLM
- Uji LLM: gemma2, qwen2 dan Mistral Nemo
- Pasang dan Konfigurasi Ollama
- Reranking dengan model embedding
- Conda Cheatsheet
- Ollama Cheatsheet
- Docker Cheatsheet
- cURL Cheatsheet
- Bagaimana Ollama Mengelola Permintaan Paralel
- Uji: Bagaimana Ollama Menggunakan Kinerja dan Core Efisien Intel CPU