Ollama上でDeepseek-R1をテストする

2つのdeepseek-r1モデルを2つのベースモデルと比較する

DeepSeekの 1世代目の推論モデルで、OpenAI-o1と同等の性能を備えています。 これは、LlamaおよびQwenに基づいてDeepSeek-R1から蒸留された6つの密なモデルです。

Ollamaモデルライブラリ は最近、Llama 3.1および3.3とQwen 2に基づいたDeepSeekのモデルを追加しました。

ロンドンの通りに立つLlamaはDeepseek-r1の看板の隣にいます 上記は、AI生成画像(Flux 1 devモデルによる) で、ロンドンの通りにDeepseek-r1の看板の隣に立つLlamaの画像です。

この投稿では、DeepSeek-r1モデルの2つを、ベースモデルであるLlama 3.1およびQwen2と比較しています。

TL;DR - テスト結果の要約

  • 最も良い結果: llama3.1:8b-instruct-q4_K_M
  • 両方のdeepseek-r1モデル deepseek-r1:7b-qwen-distill-q4_K_M および deepseek-r1:8b-llama-distill-q4_K_M - 成績は良くありませんでした。
モデル テスト1 テスト2 テスト3 テスト4 合計
deepseek-r1:7b-qwen-distill-q4_K_M 3 3 2 2 10
deepseek-r1:8b-llama-distill-q4_K_M 3 2 4 1 10
llama3.1:8b-instruct-q4_K_M 4 4 2 4 14
qwen2.5:7b-instruct-q4_K_M 3 3 3 3 12

コメント

  • テスト1では、すべてのモデルが良い成績を収めましたが、llama3.1:8b-instruct-q4_K_Mは「類似点」と「違い」のセクションを提供したため、追加ポイントが付与されました。
  • テスト2では、deepseek-r1:8b-llama-distill-q4_K_Mの応答が短すぎたため、llama3.1:8b-instruct-q4_K_Mは「比較要約」のため追加ポイントが付与されました。
  • テスト3では、llama3.1:8b-instruct-q4_K_Mの左寄りの傾向が気になりましたが、deepseek-r1:8b-llama-distill-q4_K_Mはバランスがよく構成も整っていました。
  • テスト4では、deepseek-r1:7b-qwen-distill-q4_K_M: DEI〜30%; deepseek-r1:8b-llama-distill-q4_K_M - 性別やDEI、被害者化の点ですべてを失いました。llama3.1:8b-instruct-q4_K_M - 構成がよく「要点に沿った」応答でした。

Ollamaのインストール

https://ollama.com からOllamaサーバーをインストールしてください。

詳細な手順については Ollamaのインストールとモデルの場所の設定 をご参照ください。

DeepSeek-r1モデル、Llama 3.1およびQwen 2モデルのプル

ここではDeepSeekモデル 7b-qwen-distill-q4_K_M8b-llama-distill-q4_K_M、 Llamaモデル: llama3.1:8b-instruct-q4_K_M および Qwen 2.5モデル: qwen2.5:7b-instruct-q4_K_M をテストしています。

DeepSeek-r1、Llama3.1およびQwen2.5モデルのダウンロード

ollama pull deepseek-r1:7b-qwen-distill-q4_K_M
ollama pull deepseek-r1:8b-llama-distill-q4_K_M
ollama pull llama3.1:8b-instruct-q4_K_M
ollama pull qwen2.5:7b-instruct-q4_K_M

DeepSeek-r1モデルの実行

DeepSeek-r1および他のLLMモデルの実行

ollama run deepseek-r1:7b-qwen-distill-q4_K_M
ollama run deepseek-r1:8b-llama-distill-q4_K_M
ollama run llama3.1:8b-instruct-q4_K_M
ollama run qwen2.5:7b-instruct-q4_K_M

Please see sample prompts and responses in the English version of this post. You can select the language on the right.

結論

Depseek-r1モデルからもっと期待していたのですが、ベースモデルよりも優れたパフォーマンスを発揮するものと予想していました。しかし、これらのモデルが小さすぎるか、あるいはr2のモデルの方がパフォーマンスが良い可能性があります。今後どうなるか、待ちましょう。

有用なリンク