Ollama 快速参考 - 最有用的命令 - 2026 更新
“之前曾整理过这份 Ollama 命令列表……”
以下是目前最有用的 Ollama 命令列表和示例([Ollama 命令速查表](https://www.glukhov.org/zh-cn/post/2024/12/ollama-cheatsheet/ “ollama 命令速查表”)),我之前整理过,最后更新于 2026 年 1 月。希望这份列表对你也有帮助(对你有用)。

这份 Ollama 速查表主要聚焦于 CLI 命令、模型管理和自定义功能,但我们这里也包含了一些 curl 调用。
如果你正在比较不同的本地 LLM 主机解决方案,请查看我们的 Ollama、vLLM、LocalAI、Jan、LM Studio 等的全面比较。对于那些寻求命令行接口替代方案的人,Docker 模型运行器 提供了另一种 LLM 部署方法。
安装
- 选项 1:从网站下载
- 访问 ollama.com 并下载适用于你的操作系统(Mac、Linux 或 Windows)的安装程序。
- 选项 2:通过命令行安装
- 对于 Mac 和 Linux 用户,请使用以下命令:
curl https://ollama.ai/install.sh | sh
- 按照屏幕上的提示操作,并在需要时输入密码。
系统要求
- 操作系统: Mac 或 Linux(Windows 版本正在开发中)
- 内存(RAM): 最低 8GB,建议 16GB 或更多
- 存储: 至少 ~10GB 的免费空间(模型文件可能非常大,更多信息请参见 [将 Ollama 模型移动到不同驱动器](https://www.glukhov.org/zh-cn/post/2024/06/move-ollama-models/ “将 ollama 模型文件存储在另一个驱动器上”))
- 处理器: 一个相对较新的 CPU(过去五年内的)。如果你对 Ollama 如何利用不同 CPU 架构感兴趣,请参见我们对 Ollama 如何使用 Intel CPU 性能和高效核心 的分析。
对于严肃的 AI 工作负载,你可能想比较硬件选项。我们已经对 NVIDIA DGX Spark 与 Mac Studio 与 RTX-4080 在 Ollama 上的性能 进行了基准测试,如果你正在考虑投资高端硬件,我们的 DGX Spark 价格和功能比较 提供了详细的成本分析。
基本的 Ollama CLI 命令
| 命令 | 描述 |
|---|---|
ollama serve |
在你的本地系统上启动 Ollama。 |
ollama create <new_model> |
从现有模型创建一个新模型,用于自定义或训练。 |
ollama show <model> |
显示特定模型的详细信息,如其配置和发布日期。 |
ollama run <model> |
运行指定模型,使其准备好交互。 |
ollama pull <model> |
将指定模型下载到你的系统。 |
ollama list |
列出所有下载的模型。与 ollama ls 相同 |
ollama ps |
显示当前正在运行的模型。 |
ollama stop <model> |
停止指定的正在运行的模型。 |
ollama rm <model> |
从你的系统中删除指定模型。 |
ollama help |
提供有关任何命令的帮助。 |
模型管理
-
下载模型:
ollama pull mistral-nemo:12b-instruct-2407-q6_K该命令将指定模型(例如 Gemma 2B 或 mistral-nemo:12b-instruct-2407-q6_K)下载到你的系统。 模型文件可能非常大,因此请注意模型在硬盘或 SSD 上使用的空间。 你甚至可能想要 将所有 Ollama 模型从你的主目录移动到另一个更大更好的驱动器。
-
运行模型:
ollama run qwen2.5:32b-instruct-q3_K_S该命令启动指定模型并打开交互式 REPL 以进行交互。想了解 Ollama 如何管理多个并发请求?请阅读我们关于 Ollama 如何处理并行请求 的详细分析。
-
列出模型:
ollama list与以下命令相同:
ollama ls该命令列出所有已下载到你的系统中的模型,例如:
$ ollama ls NAME ID SIZE MODIFIED deepseek-r1:8b 6995872bfe4c 5.2 GB 2 周前 gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 周前 LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 周前 dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 周前 dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 周前 qwen3:8b 500a1f067a9f 5.2 GB 5 周前 qwen3:14b bdbd181c33f2 9.3 GB 5 周前 qwen3:30b-a3b 0b28110b7a33 18 GB 5 周前 devstral:24b c4b2fa0c33d7 14 GB 5 周前 -
停止模型:
ollama stop llama3.1:8b-instruct-q8_0该命令停止指定的正在运行的模型。
从 VRAM 释放模型
当模型加载到 VRAM(GPU 内存)中时,即使你完成使用它后,它仍会保留在那里。要显式地从 VRAM 释放模型并释放 GPU 内存,你可以向 Ollama API 发送一个请求,将 keep_alive 设置为 0。
- 使用 curl 从 VRAM 释放模型:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
将 MODELNAME 替换为你的实际模型名称,例如:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- 使用 Python 从 VRAM 释放模型:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
这在以下情况下特别有用:
- 你需要释放 GPU 内存供其他应用程序使用
- 你正在运行多个模型并希望管理 VRAM 使用
- 你已经完成使用一个大型模型并希望立即释放资源
注意: keep_alive 参数控制模型在最后一次请求后在内存中停留的时间(以秒为单位)。将其设置为 0 会立即从 VRAM 中卸载模型。
自定义模型
-
设置系统提示: 在 Ollama REPL 中,你可以设置一个系统提示以自定义模型的行为:
>>> /set system 对所有问题的回答请尽量用简单的英语,避免使用技术术语 >>> /save ipe >>> /bye然后,运行自定义模型:
ollama run ipe这会设置一个系统提示并保存模型供以后使用。
-
创建自定义模型文件: 创建一个文本文件(例如,
custom_model.txt),内容如下:FROM llama3.1 SYSTEM [在此处输入你的自定义指令]然后,运行:
ollama create mymodel -f custom_model.txt ollama run mymodel这会根据文件中的指令创建一个自定义模型。
使用 Ollama 处理文件
-
从文件中总结文本:
ollama run llama3.2 "将此文件的内容总结为 50 字。" < input.txt该命令使用指定的模型对
input.txt的内容进行总结。 -
将模型响应记录到文件中:
ollama run llama3.2 "告诉我关于可再生能源的信息。" > output.txt该命令将模型的响应保存到
output.txt中。
常见使用场景
-
文本生成:
- 总结大文本文件:
ollama run llama3.2 "总结以下文本:" < long-document.txt - 生成内容:
ollama run llama3.2 "写一篇关于在医疗保健中使用人工智能的好处的短文。" > article.txt - 回答特定问题:
ollama run llama3.2 "人工智能的最新趋势是什么,它们将如何影响医疗保健?"
.
- 总结大文本文件:
-
数据处理和分析:
- 将文本分类为积极、消极或中性情感:
ollama run llama3.2 "分析这条客户评论的情感:'产品很棒,但送货很慢。'" - 根据预定义的类别对文本进行分类: 使用类似的命令根据预定义的标准对文本进行分类或归类。
- 将文本分类为积极、消极或中性情感:
使用 Ollama 与 Python
- 安装 Ollama Python 库:
pip install ollama - 使用 Python 生成文本:
这个代码片段使用指定的模型和提示生成文本。
import ollama response = ollama.generate(model='gemma:2b', prompt='什么是量子比特?') print(response['response'])
对于高级 Python 集成,请查看 使用 Ollama 的 Web 搜索 API 在 Python 中,该内容涵盖了 Web 搜索功能、工具调用和 MCP 服务器集成。如果你正在构建 AI 驱动的应用程序,我们的 AI 编程助手比较 可帮助你选择适合开发的工具。
寻找基于网络的界面?Open WebUI 提供了具有 RAG 功能和多用户支持的自托管界面。对于高性能生产部署,请考虑 vLLM 作为替代方案。
有用的链接
替代方案和比较
- 本地 LLM 主机:2026 年完整指南 - Ollama、vLLM、LocalAI、Jan、LM Studio 等
- vLLM 快速入门:高性能 LLM 服务
- Docker 模型运行器与 Ollama:选择哪一个?
- Ollama 低劣化的初步迹象
性能和硬件
- Ollama 如何处理并行请求
- Ollama 如何使用 Intel CPU 性能和高效核心
- NVIDIA DGX Spark 与 Mac Studio 与 RTX-4080:Ollama 性能比较
- DGX Spark 与 Mac Studio:对 NVIDIA 的个人 AI 超级计算机的实用、价格检查
集成和开发
- 在 Python 中使用 Ollama Web 搜索 API
- AI 编程助手比较
- Open WebUI:自托管 LLM 界面
- 本地 Ollama 实例上的 LLM 开源聊天界面
- 使用结构化输出约束 LLM:Ollama、Qwen3 与 Python 或 Go
- 将 Ollama 与 Python 集成:REST API 和 Python 客户端示例
- Ollama 的 Go SDK - 示例比较