Mistral Small、Gemma 2、Qwen 2.5、Mistral Nemo、LLama3およびPhi - LLMテスト

次のLLMテストラウンド

目次

ほども前、リリースされました。最新の状況を確認し、Mistral Smallの他のLLMと比較したパフォーマンスをテストしてみましょう

スループット、レイテンシー、VRAM、およびランタイムとハードウェアにわたるベンチマークについては、LLMパフォーマンス: ベンチマーク、ボトルネック & 最適化をご覧ください。

以前には以下を行いました:

車がスピードを出している

テスト方法

ここではLLMの要約能力をテストしています:

  • 40のサンプルテキストがあり、LLMに質問と要約のプロンプトを使用して実行します (perplexicaの方法と似ています)
  • 埋め込みモデルを使用して要約を再ランク付け
  • 正解数を全質問数で割ったものがモデルのパフォーマンスを示します

テスト結果

平均正解率の上位5位:

  1. 82%: phi3 - 14b-medium-128k-instruct-q4_0
  2. 81%: llama3.1 - 8b-instruct-q8_0
  3. 81%: mistral-small - 22b-instruct-2409-q4_0
  4. 79%: mistral-nemo - 12b-instruct-2407-q6_K
  5. 79%: llama3.2 - 3b-instruct-q8_0

これらのモデルすべてが良いパフォーマンスを示しました。

Mistralモデル群に注目を向けたいと思います。言語の質は平均よりやや良いです。

もう1つのポイントは、わずか3.2bのモデルであるlama3.2:3b-instruct-q8_0がそのサイズでは非常に良い結果を示し、最も高速です。

詳細なテスト結果

モデル名、パラメータ、量子化 サイズ テスト1 テスト2 平均
llama3.2:3b-instruct-q8_0 4GB 80 79 79
llama3.1:8b-instruct-q8_0 9GB 76 86 81
gemma2:27b-instruct-q3_K_S 12GB 76 72 74
mistral-nemo:12b-instruct-2407-q6_K 10GB 76 82 79
mistral-small:22b-instruct-2409-q4_0 12GB 85 75 80
phi3:14b-medium-128k-instruct-q4_0 9GB 76 89 82
qwen2.5:14b-instruct-q5_0 10GB 66 75 70
qwen2.5:32b-instruct-q3_K_S 14GB 80 75 77
qwen2.5:32b-instruct-q4_0 18GB 76 79 77
llama3.1:70b-instruct-q3_K_M 34GB 76 75 75
qwen2.5:72b-instruct-q4_1 45GB 76 75 75

より多くのベンチマーク、モデル選択、およびパフォーマンス調整については、LLMパフォーマンス: ベンチマーク、ボトルネック & 最適化のハブをご覧ください。

有用なリンク