Шпаргалка по CLI Ollama: ls, serve, run, ps + команды (обновление 2026)
Обновленный список команд Ollama - ls, ps, run, serve и т.д.
Этот Ollama CLI cheatsheet фокусируется на командах, которые вы используете каждый день (ollama ls, ollama serve, ollama run, ollama ps, управление моделями и общие рабочие процессы), с примерами, которые можно скопировать/вставить.
Он также включает короткий раздел «настройки производительности», чтобы помочь вам открыть для себя (а затем углубиться) OLLAMA_NUM_PARALLEL и связанные настройки.

Этот Ollama cheatsheet фокусируется на CLI-командах, управлении моделями и настройке, Но здесь также есть несколько curl вызовов.
Для полного понимания того, где Ollama находится среди локальных, самоуправляемых и облачных опций — включая vLLM, Docker Model Runner, LocalAI и облачные провайдеры — см. LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared. Если вы сравниваете различные локальные решения хостинга LLM, ознакомьтесь с нашим подробным сравнением Ollama, vLLM, LocalAI, Jan, LM Studio и других. Для тех, кто ищет альтернативы командным интерфейсам, Docker Model Runner предлагает другой подход к развертыванию LLM.
Установка Ollama (загрузка и установка через CLI)
- Вариант 1: Загрузка с сайта
- Посетите ollama.com и загрузите установщик для вашей операционной системы (Mac, Linux или Windows).
- Вариант 2: Установка через командную строку
- Для пользователей Mac и Linux используйте команду:
curl https://ollama.ai/install.sh | sh
- Следуйте инструкциям на экране и введите пароль, если потребуется.
Системные требования Ollama (ОЗУ, хранилище, процессор)
- Операционная система: Mac или Linux (версия для Windows в разработке)
- Память (ОЗУ): минимум 8ГБ, рекомендуется 16ГБ или больше
- Хранилище: как минимум ~10ГБ свободного места (файлы моделей могут быть очень большими, подробнее см. здесь Перемещение моделей Ollama на другой диск )
- Процессор: относительно современный процессор (от последних 5 лет). Если вас интересует, как Ollama использует различные архитектуры процессоров, ознакомьтесь с нашим анализом как Ollama использует производительные и эффективные ядра Intel CPU.
Для серьезных AI-нагрузок вы можете захотеть сравнить варианты оборудования. Мы протестировали NVIDIA DGX Spark vs Mac Studio vs RTX-4080 производительность с Ollama, и если вы рассматриваете возможность инвестирования в высокопроизводительное оборудование, наше сравнение цен и возможностей DGX Spark предоставляет детальный анализ затрат.
Основные команды Ollama CLI
| Команда | Описание |
|---|---|
ollama serve |
Запускает Ollama на вашем локальном системе. |
ollama create <new_model> |
Создает новую модель из существующей для настройки или обучения. |
ollama show <model> |
Отображает детали о конкретной модели, такие как ее конфигурация и дата выпуска. |
ollama run <model> |
Запускает указанную модель, делая ее готовой к взаимодействию. |
ollama pull <model> |
Загружает указанную модель на вашу систему. |
ollama list |
Перечисляет все загруженные модели. То же самое, что и ollama ls |
ollama ps |
Показывает текущие запущенные модели. |
ollama stop <model> |
Останавливает указанную запущенную модель. |
ollama rm <model> |
Удаляет указанную модель из вашей системы. |
ollama help |
Предоставляет справку о любой команде. |
Ссылки для быстрого перехода: Команда Ollama serve · Команда Ollama run · Команда Ollama ps · Основы CLI Ollama · Настройки производительности (OLLAMA_NUM_PARALLEL) · Подробное изучение параллельных запросов
Ollama CLI (что это такое)
Ollama CLI — это командный интерфейс для управления моделями и их запуска/обслуживания локально. Большинство рабочих процессов сводятся к:
- Запуск сервера:
ollama serve - Запуск модели:
ollama run <model> - Просмотр загруженных/запущенных моделей:
ollama ps - Управление моделями:
ollama pull,ollama list,ollama rm
Управление моделями Ollama: команды pull и list моделей
Список моделей:
ollama list
то же самое, что:
ollama ls
Эта команда перечисляет все модели, которые были загружены на вашу систему, с их размерами файлов на вашем жестком диске/SSD, например
$ ollama ls
NAME ID SIZE MODIFIED
deepseek-r1:8b 6995872bfe4c 5.2 GB 2 weeks ago
gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 weeks ago
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 weeks ago
dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 weeks ago
dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 weeks ago
qwen3:8b 500a1f067a9f 5.2 GB 5 weeks ago
qwen3:14b bdbd181c33f2 9.3 GB 5 weeks ago
qwen3:30b-a3b 0b28110b7a33 18 GB 5 weeks ago
devstral:24b c4b2fa0c33d7 14 GB 5 weeks ago
Загрузка модели: ollama pull
ollama pull mistral-nemo:12b-instruct-2407-q6_K
Эта команда загружает указанную модель (например, Gemma 2B или mistral-nemo:12b-instruct-2407-q6_K) на вашу систему. Файлы моделей могут быть довольно большими, поэтому следите за пространством, используемым моделями на жестком диске или SSD. Вы даже можете захотеть переместить все модели Ollama из вашей домашней директории на другой, более большой и лучший диск
Команда Ollama serve
ollama serve запускает локальный сервер Ollama (порт HTTP по умолчанию 11434).
ollama serve
“Команда ollama serve” (пример, совместимый с systemd):
# установка переменных окружения, затем запуск сервера
# сделать ollama доступным на IP-адресе хоста
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve
Команда Ollama run
Запуск модели:
ollama run gpt-oss:20b
Эта команда запускает указанную модель и открывает интерактивный REPL для взаимодействия. Хотите понять, как Ollama обрабатывает несколько параллельных запросов? Узнайте больше о том, как Ollama обрабатывает параллельные запросы в нашем подробном анализе.
ollama run запускает модель в интерактивной сессии,
поэтому в случае gpt-oss:120b вы увидите что-то вроде
$ ollama run gpt-oss:120b
>>> Отправьте сообщение (/? для помощи)
вы можете вводить свои вопросы или команды, и модель ответит.
>>> кто ты?
Размышление...
Пользователь спрашивает "кто ты?" Простой вопрос. Следует ответить как ChatGPT, языковая модель ИИ, обученная OpenAI,
и т.д. Предоставить краткое введение. Вероятно, спросить, нужна ли помощь.
...завершено размышление.
Я ChatGPT, языковая модель ИИ, созданная OpenAI. Я обучен на широком диапазоне текстов, поэтому могу помочь отвечать на вопросы, генерировать идеи, объяснять концепции, писать тексты, устранять неполадки и многое другое. Думайте обо мне как о универсальном виртуальном ассистенте — я здесь, чтобы предоставлять информацию, поддержку и общение, когда это вам нужно. Чем могу помочь сегодня?
>>> Отправьте сообщение (/? для помощи)
Чтобы выйти из интерактивной сессии ollama, нажмите Ctrl+D, или можно ввести /bye, получится то же самое:
>>> /bye
$
Примеры команды Ollama run
Чтобы запустить модель и задать один вопрос в неинтерактивном режиме:
printf "Дайте мне 10 однострочников bash для анализа логов.\n" | ollama run llama3.2
Если вы хотите увидеть подробный развернутый ответ LLM в сессии ollama - запустите модель с параметром --verbose или -v:
$ ollama run gpt-oss:20b --verbose
>>> кто ты?
Размышление...
Нам нужно ответить на простой вопрос: "кто ты?" Пользователь спрашивает "кто ты?" Мы можем ответить, что мы ChatGPT, большая языковая модель, обученная OpenAI. Мы можем также упомянуть возможности. Пользователь, вероятно, ожидает краткого представления. Мы будем дружелюбны.
...завершено размышление.
Я ChatGPT, большая языковая модель, созданная OpenAI. Я здесь, чтобы помочь отвечать на вопросы, предлагать объяснения, генерировать идеи и обсуждать широкий спектр тем — от науки и истории до творческого письма и повседневных советов. Просто дайте знать, о чем вы хотите поговорить!
общая продолжительность: 1.118585707s
время загрузки: 106.690543ms
количество токенов оценки запроса: 71 токен(ов)
время оценки запроса: 30.507392ms
скорость оценки запроса: 2327.30 токенов/с
количество токенов оценки: 132 токен(ов)
время оценки: 945.801569ms
скорость оценки: 139.56 токенов/с
>>> /bye
$
Да, это правда, это 139 токенов в секунду. Gpt-oss:20b очень быстрый. Если у вас, как и у меня, есть GPU с 16ГБ VRAM - посмотрите детали сравнения скорости ЛЛМ в Лучшие ЛЛМ для Ollama на GPU с 16ГБ VRAM.
Совет: Если вы хотите, чтобы модель была доступна через HTTP для нескольких приложений, запустите сервер с ollama serve и используйте API-клиент вместо длительных интерактивных сессий.
Команда Ollama stop
Эта команда останавливает указанную работающую модель.
ollama stop llama3.1:8b-instruct-q8_0
Ollama автоматически выгружает модели через некоторое время.
Вы можете указать это время, по умолчанию 4 минуты.
Если вы не хотите ждать оставшееся время, возможно, вам стоит использовать команду ollama stop.
Вы также можете выгрузить модель из VRAM, вызвав конечную точку API /generate с параметром keep_alive=0, см. ниже описание и пример.
Команда Ollama ps
ollama ps показывает текущие работающие модели и сессии (полезно для отладки “почему моя VRAM заполнена?”).
ollama ps
Пример вывода ollama ps приведен ниже:
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b 17052f91a42e 14 GB 100% GPU 4096 4 минуты от сейчас
Здесь видно, что на моем ПК gpt-oss:20b отлично помещается в 16ГБ VRAM моего GPU и занимает только 14ГБ.
Если я выполню ollama run gpt-oss:120b, а затем вызову ollama ps, результат будет не таким радужным:
78% слоев на CPU, и это только с окном контекста 4096 токенов. Если мне нужно увеличить контекст, будет еще больше.
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b a951a23b46a1 66 GB 78%/22% CPU/GPU 4096 4 минуты от сейчас
Настройки производительности (OLLAMA_NUM_PARALLEL)
Если вы видите очередь или таймауты при нагрузке, первым параметром, который стоит изучить, является OLLAMA_NUM_PARALLEL.
OLLAMA_NUM_PARALLEL= количество запросов, которые Ollama выполняет параллельно.- Более высокое значение может увеличить пропускную способность, но может увеличить давление на VRAM и пиковую задержку.
Быстрый пример:
OLLAMA_NUM_PARALLEL=2 ollama serve
Для полного объяснения (включая стратегии настройки и режимы сбоя), см.:
Освобождение модели Ollama из VRAM (keep_alive)
Когда модель загружается в VRAM (память GPU), она остается там даже после завершения использования. Чтобы явно освободить модель из VRAM и освободить память GPU, вы можете отправить запрос в API Ollama с keep_alive: 0.
- Освобождение модели из VRAM с помощью curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Замените MODELNAME на фактическое имя модели, например:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Освобождение модели из VRAM с помощью Python:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Это особенно полезно, когда:
- Вам нужно освободить память GPU для других приложений
- Вы запускаете несколько моделей и хотите управлять использованием VRAM
- Вы закончили использование большой модели и хотите немедленно освободить ресурсы
Примечание: Параметр keep_alive управляет тем, как долго (в секундах) модель остается загруженной в памяти после последнего запроса. Установка его в 0 немедленно выгружает модель из VRAM.
Настройка моделей Ollama (системный промт, Modelfile)
-
Установка системного промта: Внутри REPL Ollama вы можете установить системный промт для настройки поведения модели:
>>> /set system Для всех заданных вопросов отвечайте простым английским языком, избегая технических терминов по возможности >>> /save ipe >>> /byeЗатем запустите настроенную модель:
ollama run ipeЭто устанавливает системный промт и сохраняет модель для будущего использования.
-
Создание пользовательского файла модели: Создайте текстовый файл (например,
custom_model.txt) со следующей структурой:FROM llama3.1 SYSTEM [Ваши пользовательские инструкции здесь]Затем выполните:
ollama create mymodel -f custom_model.txt ollama run mymodelЭто создает настроенную модель на основе инструкций в файле.
Использование команды Ollama run с файлами (резюме, перенаправление)
-
Резюмирование текста из файла:
ollama run llama3.2 "Резюмируйте содержимое этого файла в 50 словах." < input.txtЭта команда резюмирует содержимое
input.txtс использованием указанной модели. -
Логирование ответов модели в файл:
ollama run llama3.2 "Расскажите мне о возобновляемых источниках энергии." > output.txtЭта команда сохраняет ответ модели в
output.txt.
Случаи использования CLI Ollama (генерация текста, анализ)
-
Генерация текста:
- Резюмирование большого текстового файла:
ollama run llama3.2 "Резюмируйте следующий текст:" < long-document.txt - Генерация контента:
ollama run llama3.2 "Напишите короткую статью о преимуществах использования ИИ в здравоохранении." > article.txt - Ответы на конкретные вопросы:
ollama run llama3.2 "Какие последние тенденции в ИИ, и как они повлияют на здравоохранение?"
- Резюмирование большого текстового файла:
-
Обработка и анализ данных:
- Классификация текста по положительному, отрицательному или нейтральному тону:
ollama run llama3.2 "Проанализируйте тон этого отзыва клиента: 'Продукт отличный, но доставка была медленной.'" - Категоризация текста по заранее определенным категориям: Используйте аналогичные команды для классификации или категоризации текста на основе заранее определенных критериев.
- Классификация текста по положительному, отрицательному или нейтральному тону:
Использование Ollama с Python (клиент и API)
- Установка библиотеки Python Ollama:
pip install ollama - Генерация текста с использованием Python:
Этот фрагмент кода генерирует текст с использованием указанной модели и запроса.
import ollama response = ollama.generate(model='gemma:2b', prompt='что такое кубит?') print(response['response'])
Для продвинутой интеграции с Python изучите использование Web Search API Ollama в Python, которая охватывает возможности поиска в интернете, вызов инструментов и интеграцию с серверами MCP. Если вы разрабатываете приложения с искусственным интеллектом, наше сравнение AI Coding Assistants может помочь вам выбрать подходящие инструменты для разработки.
Ищете веб-интерфейс? Open WebUI предоставляет самонастраиваемый интерфейс с возможностями RAG и поддержкой нескольких пользователей. Для высокопроизводительных производственных развертываний рассмотрите vLLM как альтернативу. Чтобы сравнить Ollama с другими вариантами локальной и облачной инфраструктуры ЛЛМ, см. Хостинг ЛЛМ: локальный, самонастраиваемый и облачная инфраструктура.
Полезные ссылки
Настройка и управление
Альтернативы и сравнения
- Хостинг локальных LLM: полное руководство 2026 года - Ollama, vLLM, LocalAI, Jan, LM Studio и другие
- Быстрый старт с vLLM: высокопроизводительное обслуживание LLM
- Docker Model Runner vs Ollama: что выбрать?
- Первые признаки деградации Ollama
Производительность и оборудование
- Как Ollama обрабатывает параллельные запросы
- Как Ollama использует производительность и эффективные ядра Intel CPU
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080: сравнение производительности Ollama
- DGX Spark vs. Mac Studio: практический взгляд на персональный AI-суперкомпьютер NVIDIA с проверкой цен
Интеграция и разработка
- Использование Web Search API Ollama в Python
- Сравнение AI-кодинговых ассистентов
- Open WebUI: самопроизвольный интерфейс LLM
- Открытые чат-интерфейсы для LLM на локальных инстансах Ollama
- Ограничение LLM с помощью структурированного вывода: Ollama, Qwen3 & Python или Go
- Интеграция Ollama с Python: примеры REST API и Python клиента
- SDK для Ollama на Go - сравнение с примерами