Mistral Small、Gemma 2、Qwen 2.5、Mistral Nemo、LLama3およびPhi - LLMテスト

次のLLMテストラウンド

目次

少し前にもリリースされました。最新の状況を確認し、他のLLMと比較してMistral Smallのパフォーマンスをテストしてみましょう。

以前には以下を行いました:

車がスピードを出している

どのようにテストを行ったか

ここではLLMの要約能力をテストしました:

  • 40のサンプルテキストがあり、LLMに質問と要約のプロンプトを使用して実行しました (perplexica と同様の方法)
  • 埋め込みモデルを使用して要約を再ランク付け
  • 正解数を総質問数で割ることでモデルのパフォーマンスを算出

テスト結果

平均正解率の上位5位:

  1. 82%: phi3 - 14b-medium-128k-instruct-q4_0
  2. 81%: llama3.1 - 8b-instruct-q8_0
  3. 81%: mistral-small - 22b-instruct-2409-q4_0
  4. 79%: mistral-nemo - 12b-instruct-2407-q6_K
  5. 79%: llama3.2 - 3b-instruct-q8_0

これらのモデルすべてが良いパフォーマンスを示しました。

Mistralモデルグループに注目したいと思います。言語の質は平均よりやや良いです。

もう一つのポイントは、わずか3.2bのモデルであるlama3.2:3b-instruct-q8_0がそのサイズに対して非常に良い結果を示し、最も高速です。

詳細なテスト結果

モデル名、パラメータ、量子化 サイズ テスト1 テスト2 平均
llama3.2:3b-instruct-q8_0 4GB 80 79 79
llama3.1:8b-instruct-q8_0 9GB 76 86 81
gemma2:27b-instruct-q3_K_S 12GB 76 72 74
mistral-nemo:12b-instruct-2407-q6_K 10GB 76 82 79
mistral-small:22b-instruct-2409-q4_0 12GB 85 75 80
phi3:14b-medium-128k-instruct-q4_0 9GB 76 89 82
qwen2.5:14b-instruct-q5_0 10GB 66 75 70
qwen2.5:32b-instruct-q3_K_S 14GB 80 75 77
qwen2.5:32b-instruct-q4_0 18GB 76 79 77
llama3.1:70b-instruct-q3_K_M 34GB 76 75 75
qwen2.5:72b-instruct-q4_1 45GB 76 75 75

有用なリンク