Deepseek-r1 是一个好模型吗？

我的测试显示 deepseek-r1 的表现不如基础模型。

在Ollama上测试Deepseek-R1

将两个 deepseek-r1 模型与两个基础模型进行比较

DeepSeek’s 第一代推理模型，其性能可与 OpenAI-o1 相媲美，包括基于 Llama 和 Qwen 的 DeepSeek-R1 的六个密集模型。

Ollama 模型库最近添加了一组基于 Llama 3.1 和 3.3 以及 Qwen 2 的 DeepSeek 模型。

Llama 站在伦敦街头，旁边是 Deepseek-r1 的标志上面是一张 AI 生成图像（由 Flux 1 dev 模型生成），展示了 Llama 站在伦敦街头 Deepseek-r1 标志旁边的场景。

在这篇文章中，我将比较两个 DeepSeek-r1 模型与其基础模型 Llama 3.1 和 Qwen2。

TL;DR - 测试结果总结

最佳结果：llama3.1:8b-instruct-q4_K_M
两个 DeepSeek-r1 模型 deepseek-r1:7b-qwen-distill-q4_K_M 和 deepseek-r1:8b-llama-distill-q4_K_M - 表现不佳。

模型	测试 1	测试 2	测试 3	测试 4	总计
deepseek-r1:7b-qwen-distill-q4_K_M	3	3	2	2	10
deepseek-r1:8b-llama-distill-q4_K_M	3	2	4	1	10
llama3.1:8b-instruct-q4_K_M	4	4	2	4	14
qwen2.5:7b-instruct-q4_K_M	3	3	3	3	12

在 测试 1 中 - 所有模型表现良好，但 llama3.1:8b-instruct-q4_K_M 因提供了 相似性 和 差异性 部分而获得额外加分。
在 测试 2 中 - deepseek-r1:8b-llama-distill-q4_K_M 生成的响应太短，llama3.1:8b-instruct-q4_K_M 因 比较摘要 而获得额外加分。
在 测试 3 中 - 不喜欢 llama3.1:8b-instruct-q4_K_M 的左倾倾向，deepseek-r1:8b-llama-distill-q4_K_M 生成了平衡且结构良好的结果。
在 测试 4 中 - deepseek-r1:7b-qwen-distill-q4_K_M: DEI~30%；deepseek-r1:8b-llama-distill-q4_K_M - 在性别认同、DEI 和受害化方面失去了所有内容。llama3.1:8b-instruct-q4_K_M - 结构良好且 切中要点 的响应。

安装 Ollama

从 https://ollama.com 安装 Ollama 服务器。

如需详细说明，请参见安装 Ollama 并配置模型位置

拉取 DeepSeek-r1 模型、Llama 3.1 和 Qwen 2 模型

在这里我测试的是 DeepSeek 模型 7b-qwen-distill-q4_K_M、8b-llama-distill-q4_K_M， Llama 模型：llama3.1:8b-instruct-q4_K_M 和 Qwen 2.5 模型：qwen2.5:7b-instruct-q4_K_M

下载 DeepSeek-r1、Llama3.1 和 Qwen2.5 模型

ollama pull deepseek-r1:7b-qwen-distill-q4_K_M
ollama pull deepseek-r1:8b-llama-distill-q4_K_M
ollama pull llama3.1:8b-instruct-q4_K_M
ollama pull qwen2.5:7b-instruct-q4_K_M

运行 DeepSeek-r1 模型

运行 DeepSeek-r1 和其他 LLM 模型

ollama run deepseek-r1:7b-qwen-distill-q4_K_M
ollama run deepseek-r1:8b-llama-distill-q4_K_M
ollama run llama3.1:8b-instruct-q4_K_M
ollama run qwen2.5:7b-instruct-q4_K_M

Please see sample prompts and responses in the English version of this post. You can select the language on the right.

结论

我原本对Depseek-r1模型寄予了更高的期望。
期望它们的表现会优于基础模型。
但也许这些模型太小了，或者可能是r2版本——表现会更好。
让我们拭目以待。

TL;DR - 测试结果总结

安装 Ollama

拉取 DeepSeek-r1 模型、Llama 3.1 和 Qwen 2 模型

运行 DeepSeek-r1 模型

结论

有用的链接