要約に最も適したLLMはどれですか？

40のサンプルテキストでのベンチマークにおいて、Phi3 14b、Llama3.1 8b、Mistral Small 22b、Mistral Nemo 12b、Llama3.2 3bはすべて、高いスコア（約79〜82％の正解率）を記録しました。モデルのサイズと量子化は結果に影響を与えます。

「Mistral Smallは要約に適しているか？」

はい。Mistral Small 22b instruct (q4_0) は要約テストで約81%の正解率を達成し、同等のモデルの中では平均以上の言語品質が評価されています。

はい。Llama3.2 3b instruct (q8_0) は同じテストで約79%のスコアを達成し、最も高速で、速度やリソース使用が重要な場合に小型モデルが良い選択肢となることを示しています。

一般的なアプローチの一つは、要約のプロンプトとともにモデルを多くのサンプルテキストに適用し、正しい回答（例えば、埋め込みリランキングによって）をスコアリングした後、正しい回答の割合または平均スコアを報告することです。

私たちのLLMパフォーマンスハブでは、スループットとレイテンシーの関係、VRAMの制限、並列リクエスト、およびランタイムとハードウェアにわたるベンチマークをカバーしています。

次のLLMテストラウンド

スループット、レイテンシー、VRAM、およびランタイムとハードウェアにわたるベンチマークについては、LLMパフォーマンス: ベンチマーク、ボトルネック & 最適化をご覧ください。

以前には以下を行いました:

車がスピードを出している

ここではLLMの要約能力をテストしています:

平均正解率の上位5位:

これらのモデルすべてが良いパフォーマンスを示しました。

Mistralモデル群に注目を向けたいと思います。言語の質は平均よりやや良いです。

もう1つのポイントは、わずか3.2bのモデルであるlama3.2:3b-instruct-q8_0がそのサイズでは非常に良い結果を示し、最も高速です。

モデル名、パラメータ、量子化	サイズ	テスト1	テスト2	平均
llama3.2:3b-instruct-q8_0	4GB	80	79	79
llama3.1:8b-instruct-q8_0	9GB	76	86	81
gemma2:27b-instruct-q3_K_S	12GB	76	72	74
mistral-nemo:12b-instruct-2407-q6_K	10GB	76	82	79
mistral-small:22b-instruct-2409-q4_0	12GB	85	75	80
phi3:14b-medium-128k-instruct-q4_0	9GB	76	89	82
qwen2.5:14b-instruct-q5_0	10GB	66	75	70
qwen2.5:32b-instruct-q3_K_S	14GB	80	75	77
qwen2.5:32b-instruct-q4_0	18GB	76	79	77
llama3.1:70b-instruct-q3_K_M	34GB	76	75	75
qwen2.5:72b-instruct-q4_1	45GB	76	75	75

より多くのベンチマーク、モデル選択、およびパフォーマンス調整については、LLMパフォーマンス: ベンチマーク、ボトルネック & 最適化のハブをご覧ください。