Ollama 中最常用的命令有哪些？

Ollama 中最常用的命令有：ollama list、ollama pull、ollama rm 和 ollama run

Ollama 快速参考 - 最有用的命令

“之前曾整理过这份 Ollama 命令列表……”

以下是使用频率最高的 Ollama 命令列表和示例（[Ollama 命令速查表](https://www.glukhov.org/zh-cn/post/2024/12/ollama-cheatsheet/ “ollama 命令速查表)"），我之前整理过。
希望对你也有帮助（对你有用）。

ollama 命令速查表

此 Ollama 命令速查表专注于 CLI 命令、模型管理和自定义，
但这里也包含了一些 curl 调用。

安装

选项 1：从网站下载
- 访问 ollama.com 并下载适用于你操作系统的安装程序（Mac、Linux 或 Windows）。
选项 2：通过命令行安装
- 对于 Mac 和 Linux 用户，使用以下命令：

curl https://ollama.ai/install.sh | sh

按照屏幕上的提示操作，如果需要输入密码请输入。

系统要求

操作系统： Mac 或 Linux（Windows 版本正在开发中）
内存（RAM）： 最低 8GB，推荐 16GB 或更多
存储： 至少需要 ~10GB 的可用空间（模型文件可能非常大，更多信息请参见将 Ollama 模型移动到不同磁盘）
处理器： 一个相对较新的 CPU（过去五年内）

基本 Ollama CLI 命令

命令	描述
`ollama serve`	在你的本地系统上启动 Ollama。
`ollama create <new_model>`	从现有模型创建一个新模型，用于自定义或训练。
`ollama show <model>`	显示特定模型的详细信息，例如其配置和发布日期。
`ollama run <model>`	运行指定模型，使其准备好进行交互。
`ollama pull <model>`	将指定模型下载到你的系统。
`ollama list`	列出所有下载的模型。与 `ollama ls` 相同
`ollama ps`	显示当前正在运行的模型。
`ollama stop <model>`	停止指定的正在运行的模型。
`ollama rm <model>`	从你的系统中删除指定的模型。
`ollama help`	提供有关任何命令的帮助。

模型管理

下载模型：
```
ollama pull mistral-nemo:12b-instruct-2407-q6_K
```
此命令将指定模型（例如 Gemma 2B 或 mistral-nemo:12b-instruct-2407-q6_K）下载到你的系统。
模型文件可能非常大，因此请留意模型在硬盘或 SSD 上占用的空间。
你甚至可能想要将所有 Ollama 模型从你的主目录移动到另一个更大更好的磁盘。
运行模型：
```
ollama run qwen2.5:32b-instruct-q3_K_S
```
此命令启动指定模型并打开一个交互式 REPL 用于交互。

列出模型：

ollama list

与以下命令相同：

ollama ls

此命令列出所有已下载到你系统的模型，例如：

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 周前     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 周前     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 周前     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 周前     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 周前     
qwen3:8b                                                500a1f067a9f    5.2 GB    5 周前     
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 周前     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 周前     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 周前

停止模型：
```
ollama stop llama3.1:8b-instruct-q8_0
```
此命令停止指定的正在运行的模型。

从 VRAM 释放模型

当模型加载到 VRAM（GPU 内存）中时，即使你使用完毕，它仍会保留在那里。
要显式地从 VRAM 中释放模型并释放 GPU 内存，可以向 Ollama API 发送一个带有 keep_alive: 0 的请求。

使用 curl 从 VRAM 释放模型：

curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

将 MODELNAME 替换为你的实际模型名称，例如：

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'

使用 Python 从 VRAM 释放模型：

import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

这在以下情况下特别有用：

你需要释放 GPU 内存供其他应用程序使用
你正在运行多个模型并希望管理 VRAM 使用情况
你已经使用完一个大型模型并希望立即释放资源

注意： keep_alive 参数控制模型在最后一次请求后在内存中保留的时间（以秒为单位）。将其设置为 0 会立即从 VRAM 中卸载模型。

自定义模型

设置系统提示： 在 Ollama REPL 中，你可以设置一个系统提示以自定义模型的行为：
```
>>> /set system 对所有问题的回答尽量使用通俗易懂的英语，避免使用技术术语
>>> /save ipe
>>> /bye
```
然后运行自定义模型：
```
ollama run ipe
```
这设置了系统提示并保存了模型以供将来使用。
创建自定义模型文件： 创建一个文本文件（例如 custom_model.txt），结构如下：
```
FROM llama3.1
SYSTEM [在此处输入你的自定义指令]
```
然后运行：
```
ollama create mymodel -f custom_model.txt
ollama run mymodel
```
这将根据文件中的指令创建一个自定义模型。

使用 Ollama 处理文件

从文件中总结文本：
```
ollama run llama3.2 "Summarize the content of this file in 50 words." < input.txt
```
此命令使用指定模型对 input.txt 的内容进行总结。
将模型响应记录到文件中：
```
ollama run llama3.2 "Tell me about renewable energy." > output.txt
```
此命令将模型的响应保存到 output.txt 中。

常见使用场景

文本生成：

总结大文本文件：

ollama run llama3.2 "Summarize the following text:" < long-document.txt

生成内容：

ollama run llama3.2 "Write a short article on the benefits of using AI in healthcare." > article.txt

回答特定问题：

ollama run llama3.2 "What are the latest trends in AI, and how will they affect healthcare?"

数据处理和分析：
- 将文本分类为积极、消极或中性情绪：
```
ollama run llama3.2 "Analyze the sentiment of this customer review: 'The product is fantastic, but delivery was slow.'"
```
- 将文本分类到预定义类别中：使用类似的命令根据预定义的标准对文本进行分类或归类。

使用 Ollama 与 Python

安装 Ollama Python 库：
```
pip install ollama
```

使用 Python 生成文本：

import ollama

response = ollama.generate(model='gemma:2b', prompt='what is a qubit?')
print(response['response'])

此代码片段使用指定模型和提示生成文本。

安装