Mistral Small、Gemma 2、Qwen 2.5、Mistral Nemo、LLama3およびPhi - LLMテスト
次のLLMテストラウンド
目次
ほども前、リリースされました。最新の状況を確認し、Mistral Smallの他のLLMと比較したパフォーマンスをテストしてみましょう。
スループット、レイテンシー、VRAM、およびランタイムとハードウェアにわたるベンチマークについては、LLMパフォーマンス: ベンチマーク、ボトルネック & 最適化をご覧ください。
以前には以下を行いました:

テスト方法
ここではLLMの要約能力をテストしています:
- 40のサンプルテキストがあり、LLMに質問と要約のプロンプトを使用して実行します (perplexicaの方法と似ています)
- 埋め込みモデルを使用して要約を再ランク付け
- 正解数を全質問数で割ったものがモデルのパフォーマンスを示します
テスト結果
平均正解率の上位5位:
- 82%: phi3 - 14b-medium-128k-instruct-q4_0
- 81%: llama3.1 - 8b-instruct-q8_0
- 81%: mistral-small - 22b-instruct-2409-q4_0
- 79%: mistral-nemo - 12b-instruct-2407-q6_K
- 79%: llama3.2 - 3b-instruct-q8_0
これらのモデルすべてが良いパフォーマンスを示しました。
Mistralモデル群に注目を向けたいと思います。言語の質は平均よりやや良いです。
もう1つのポイントは、わずか3.2bのモデルであるlama3.2:3b-instruct-q8_0がそのサイズでは非常に良い結果を示し、最も高速です。
詳細なテスト結果
| モデル名、パラメータ、量子化 | サイズ | テスト1 | テスト2 | 平均 |
|---|---|---|---|---|
| llama3.2:3b-instruct-q8_0 | 4GB | 80 | 79 | 79 |
| llama3.1:8b-instruct-q8_0 | 9GB | 76 | 86 | 81 |
| gemma2:27b-instruct-q3_K_S | 12GB | 76 | 72 | 74 |
| mistral-nemo:12b-instruct-2407-q6_K | 10GB | 76 | 82 | 79 |
| mistral-small:22b-instruct-2409-q4_0 | 12GB | 85 | 75 | 80 |
| phi3:14b-medium-128k-instruct-q4_0 | 9GB | 76 | 89 | 82 |
| qwen2.5:14b-instruct-q5_0 | 10GB | 66 | 75 | 70 |
| qwen2.5:32b-instruct-q3_K_S | 14GB | 80 | 75 | 77 |
| qwen2.5:32b-instruct-q4_0 | 18GB | 76 | 79 | 77 |
| llama3.1:70b-instruct-q3_K_M | 34GB | 76 | 75 | 75 |
| qwen2.5:72b-instruct-q4_1 | 45GB | 76 | 75 | 75 |
より多くのベンチマーク、モデル選択、およびパフォーマンス調整については、LLMパフォーマンス: ベンチマーク、ボトルネック & 最適化のハブをご覧ください。