मिस्ट्रल स्मॉल, जेम्मा 2, क्वेन 2.5, मिस्ट्रल नेमो, एलएलएम3 और फ़ी - एलईएम परीक्षण
एलएलएम परीक्षणों का अगला चरण
Page content
कुछ समय पहले जारी किया गया था। चलिए अपडेट करते हैं और
मिस्ट्रल स्मॉल के प्रदर्शन की तुलना करके टेस्ट करें।
पहले हमने किया था:
हम कैसे परीक्षण करते हैं
यहां हम LLMs की सारांशीकरण क्षमताओं का परीक्षण करते हैं:
- हमारे पास 40 नमूना पाठ हैं, और हम LLM के साथ प्रश्न और सारांशीकरण प्रॉम्प्ट के साथ चलाते हैं (जैसे पेरेक्सिपिका के तरीके के समान)
- एम्बेडिंग मॉडल के साथ पुनर्क्रमित सारांश [एम्बेडिंग मॉडल] (https://www.glukhov.org/post/2024/09/reranking-with-embedding-models “एम्बेडिंग मॉडल के साथ पुनर्क्रमित करें - RAG के चरण के रूप में”)
- सही उत्तरों की संख्या को कुल प्रश्नों की संख्या से विभाजित करने पर हमें मॉडल के प्रदर्शन के बारे में जानकारी मिलती है
परीक्षण परिणाम
सही उत्तरों के औसत प्रतिशत के साथ शीर्ष 5 स्थान:
- 82%: phi3 - 14b-medium-128k-instruct-q4_0
- 81%: llama3.1 - 8b-instruct-q8_0
- 81%: mistral-small - 22b-instruct-2409-q4_0
- 79%: mistral-nemo - 12b-instruct-2407-q6_K
- 79%: llama3.2 - 3b-instruct-q8_0
सभी मॉडलों ने अच्छा प्रदर्शन किया है।
मैं मिस्टल मॉडल समूह के ओर कुछ ध्यान देना चाहूंगा। भाषा की गुणवत्ता औसत से थोड़ा बेहतर है।
दूसरा बिंदु - छोटा 3.2b मॉडल lama3.2:3b-instruct-q8_0 अपने आकार के लिए बहुत अच्छा परिणाम दिखाया है, और यह सभी में सबसे तेज है।
विस्तृत परीक्षण परिणाम
मॉडल का नाम, पैराम, क्वांट | आकार | परीक्षण 1 | परीक्षण 2 | औसत |
---|---|---|---|---|
llama3.2:3b-instruct-q8_0 | 4GB | 80 | 79 | 79 |
llama3.1:8b-instruct-q8_0 | 9GB | 76 | 86 | 81 |
gemma2:27b-instruct-q3_K_S | 12GB | 76 | 72 | 74 |
mistral-nemo:12b-instruct-2407-q6_K | 10GB | 76 | 82 | 79 |
mistral-small:22b-instruct-2409-q4_0 | 12GB | 85 | 75 | 80 |
phi3:14b-medium-128k-instruct-q4_0 | 9GB | 76 | 89 | 82 |
qwen2.5:14b-instruct-q5_0 | 10GB | 66 | 75 | 70 |
qwen2.5:32b-instruct-q3_K_S | 14GB | 80 | 75 | 77 |
qwen2.5:32b-instruct-q4_0 | 18GB | 76 | 79 | 77 |
llama3.1:70b-instruct-q3_K_M | 34GB | 76 | 75 | 75 |
qwen2.5:72b-instruct-q4_1 | 45GB | 76 | 75 | 75 |
उपयोगी लिंक
- पायथन चीटशीट
- LLMs के लिए प्रभावी प्रॉम्प्ट लिखें
- परीक्षण: gemma2, qwen2 और Mistral Nemo
- ओलामा की स्थापना और विन्यास
- एम्बेडिंग मॉडल के साथ पुनर्क्रमित करें
- कॉन्डा चीटशीट
- ओलामा चीटशीट
- डॉकर चीटशीट
- cURL चीटशीट
- ओलामा कैसे समानांतर अनुरोध का प्रबंधन करता है
- परीक्षण: ओलामा कैसे इंटेल CPU प्रदर्शन और कुशल कोर का उपयोग करता है