Ollama上でDeepseek-R1をテストする
2つのdeepseek-r1モデルを2つのベースモデルと比較する
DeepSeekの 1世代目の推論モデルで、OpenAI-o1と同等の性能を備えています。 これは、LlamaおよびQwenに基づいてDeepSeek-R1から蒸留された6つの密なモデルです。
Ollamaモデルライブラリ は最近、Llama 3.1および3.3とQwen 2に基づいたDeepSeekのモデルを追加しました。
上記は、AI生成画像(Flux 1 devモデルによる) で、ロンドンの通りにDeepseek-r1の看板の隣に立つLlamaの画像です。
この投稿では、DeepSeek-r1モデルの2つを、ベースモデルであるLlama 3.1およびQwen2と比較しています。
TL;DR - テスト結果の要約
- 最も良い結果:
llama3.1:8b-instruct-q4_K_M
- 両方のdeepseek-r1モデル
deepseek-r1:7b-qwen-distill-q4_K_M
およびdeepseek-r1:8b-llama-distill-q4_K_M
- 成績は良くありませんでした。
モデル | テスト1 | テスト2 | テスト3 | テスト4 | 合計 |
---|---|---|---|---|---|
deepseek-r1:7b-qwen-distill-q4_K_M | 3 | 3 | 2 | 2 | 10 |
deepseek-r1:8b-llama-distill-q4_K_M | 3 | 2 | 4 | 1 | 10 |
llama3.1:8b-instruct-q4_K_M | 4 | 4 | 2 | 4 | 14 |
qwen2.5:7b-instruct-q4_K_M | 3 | 3 | 3 | 3 | 12 |
コメント
- テスト1では、すべてのモデルが良い成績を収めましたが、llama3.1:8b-instruct-q4_K_Mは「類似点」と「違い」のセクションを提供したため、追加ポイントが付与されました。
- テスト2では、deepseek-r1:8b-llama-distill-q4_K_Mの応答が短すぎたため、llama3.1:8b-instruct-q4_K_Mは「比較要約」のため追加ポイントが付与されました。
- テスト3では、llama3.1:8b-instruct-q4_K_Mの左寄りの傾向が気になりましたが、deepseek-r1:8b-llama-distill-q4_K_Mはバランスがよく構成も整っていました。
- テスト4では、deepseek-r1:7b-qwen-distill-q4_K_M: DEI〜30%; deepseek-r1:8b-llama-distill-q4_K_M - 性別やDEI、被害者化の点ですべてを失いました。llama3.1:8b-instruct-q4_K_M - 構成がよく「要点に沿った」応答でした。
Ollamaのインストール
https://ollama.com からOllamaサーバーをインストールしてください。
詳細な手順については Ollamaのインストールとモデルの場所の設定 をご参照ください。
DeepSeek-r1モデル、Llama 3.1およびQwen 2モデルのプル
ここではDeepSeekモデル 7b-qwen-distill-q4_K_M、8b-llama-distill-q4_K_M、 Llamaモデル: llama3.1:8b-instruct-q4_K_M および Qwen 2.5モデル: qwen2.5:7b-instruct-q4_K_M をテストしています。
DeepSeek-r1、Llama3.1およびQwen2.5モデルのダウンロード
ollama pull deepseek-r1:7b-qwen-distill-q4_K_M
ollama pull deepseek-r1:8b-llama-distill-q4_K_M
ollama pull llama3.1:8b-instruct-q4_K_M
ollama pull qwen2.5:7b-instruct-q4_K_M
DeepSeek-r1モデルの実行
DeepSeek-r1および他のLLMモデルの実行
ollama run deepseek-r1:7b-qwen-distill-q4_K_M
ollama run deepseek-r1:8b-llama-distill-q4_K_M
ollama run llama3.1:8b-instruct-q4_K_M
ollama run qwen2.5:7b-instruct-q4_K_M
Please see sample prompts and responses in the English version of this post. You can select the language on the right.
結論
Depseek-r1モデルからもっと期待していたのですが、ベースモデルよりも優れたパフォーマンスを発揮するものと予想していました。しかし、これらのモデルが小さすぎるか、あるいはr2のモデルの方がパフォーマンスが良い可能性があります。今後どうなるか、待ちましょう。