Шпаргалка по CLI Ollama: ls, serve, run, ps + команды (обновление 2026)

Обновленный список команд Ollama - ls, ps, run, serve и т.д.

Содержимое страницы

Этот Ollama CLI cheatsheet фокусируется на командах, которые вы используете каждый день (ollama ls, ollama serve, ollama run, ollama ps, управление моделями и общие рабочие процессы), с примерами, которые можно скопировать/вставить.

Он также включает короткий раздел «настройки производительности», чтобы помочь вам открыть для себя (а затем углубиться) OLLAMA_NUM_PARALLEL и связанные настройки.

ollama cheatsheet

Этот Ollama cheatsheet фокусируется на CLI-командах, управлении моделями и настройке, Но здесь также есть несколько curl вызовов.

Для полного понимания того, где Ollama находится среди локальных, самоуправляемых и облачных опций — включая vLLM, Docker Model Runner, LocalAI и облачные провайдеры — см. LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared. Если вы сравниваете различные локальные решения хостинга LLM, ознакомьтесь с нашим подробным сравнением Ollama, vLLM, LocalAI, Jan, LM Studio и других. Для тех, кто ищет альтернативы командным интерфейсам, Docker Model Runner предлагает другой подход к развертыванию LLM.

Установка Ollama (загрузка и установка через CLI)

  • Вариант 1: Загрузка с сайта
    • Посетите ollama.com и загрузите установщик для вашей операционной системы (Mac, Linux или Windows).
  • Вариант 2: Установка через командную строку
    • Для пользователей Mac и Linux используйте команду:
curl https://ollama.ai/install.sh | sh
  • Следуйте инструкциям на экране и введите пароль, если потребуется.

Системные требования Ollama (ОЗУ, хранилище, процессор)

Для серьезных AI-нагрузок вы можете захотеть сравнить варианты оборудования. Мы протестировали NVIDIA DGX Spark vs Mac Studio vs RTX-4080 производительность с Ollama, и если вы рассматриваете возможность инвестирования в высокопроизводительное оборудование, наше сравнение цен и возможностей DGX Spark предоставляет детальный анализ затрат.

Основные команды Ollama CLI

Команда Описание
ollama serve Запускает Ollama на вашем локальном системе.
ollama create <new_model> Создает новую модель из существующей для настройки или обучения.
ollama show <model> Отображает детали о конкретной модели, такие как ее конфигурация и дата выпуска.
ollama run <model> Запускает указанную модель, делая ее готовой к взаимодействию.
ollama pull <model> Загружает указанную модель на вашу систему.
ollama list Перечисляет все загруженные модели. То же самое, что и ollama ls
ollama ps Показывает текущие запущенные модели.
ollama stop <model> Останавливает указанную запущенную модель.
ollama rm <model> Удаляет указанную модель из вашей системы.
ollama help Предоставляет справку о любой команде.

Ссылки для быстрого перехода: Команда Ollama serve · Команда Ollama run · Команда Ollama ps · Основы CLI Ollama · Настройки производительности (OLLAMA_NUM_PARALLEL) · Подробное изучение параллельных запросов

Ollama CLI (что это такое)

Ollama CLI — это командный интерфейс для управления моделями и их запуска/обслуживания локально. Большинство рабочих процессов сводятся к:

  • Запуск сервера: ollama serve
  • Запуск модели: ollama run <model>
  • Просмотр загруженных/запущенных моделей: ollama ps
  • Управление моделями: ollama pull, ollama list, ollama rm

Управление моделями Ollama: команды pull и list моделей

Список моделей:

ollama list

то же самое, что:

ollama ls

Эта команда перечисляет все модели, которые были загружены на вашу систему, с их размерами файлов на вашем жестком диске/SSD, например

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 weeks ago     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 weeks ago     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 weeks ago     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 weeks ago     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 weeks ago     
qwen3:8b                                                500a1f067a9f    5.2 GB    5 weeks ago     
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 weeks ago     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 weeks ago     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 weeks ago  

Загрузка модели: ollama pull

ollama pull mistral-nemo:12b-instruct-2407-q6_K

Эта команда загружает указанную модель (например, Gemma 2B или mistral-nemo:12b-instruct-2407-q6_K) на вашу систему. Файлы моделей могут быть довольно большими, поэтому следите за пространством, используемым моделями на жестком диске или SSD. Вы даже можете захотеть переместить все модели Ollama из вашей домашней директории на другой, более большой и лучший диск

Команда Ollama serve

ollama serve запускает локальный сервер Ollama (порт HTTP по умолчанию 11434).

ollama serve

“Команда ollama serve” (пример, совместимый с systemd):

# установка переменных окружения, затем запуск сервера
# сделать ollama доступным на IP-адресе хоста
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve

Команда Ollama run

Запуск модели:

ollama run gpt-oss:20b

Эта команда запускает указанную модель и открывает интерактивный REPL для взаимодействия. Хотите понять, как Ollama обрабатывает несколько параллельных запросов? Узнайте больше о том, как Ollama обрабатывает параллельные запросы в нашем подробном анализе.

ollama run запускает модель в интерактивной сессии, поэтому в случае gpt-oss:120b вы увидите что-то вроде

$ ollama run gpt-oss:120b
>>> Отправьте сообщение (/? для помощи)

вы можете вводить свои вопросы или команды, и модель ответит.

>>> кто ты?
Размышление...
Пользователь спрашивает "кто ты?" Простой вопрос. Следует ответить как ChatGPT, языковая модель ИИ, обученная OpenAI,
и т.д. Предоставить краткое введение. Вероятно, спросить, нужна ли помощь.
...завершено размышление.

Я ChatGPT, языковая модель ИИ, созданная OpenAI. Я обучен на широком диапазоне текстов, поэтому могу помочь отвечать на вопросы, генерировать идеи, объяснять концепции, писать тексты, устранять неполадки и многое другое. Думайте обо мне как о универсальном виртуальном ассистенте — я здесь, чтобы предоставлять информацию, поддержку и общение, когда это вам нужно. Чем могу помочь сегодня?

>>> Отправьте сообщение (/? для помощи)

Чтобы выйти из интерактивной сессии ollama, нажмите Ctrl+D, или можно ввести /bye, получится то же самое:

>>> /bye
$

Примеры команды Ollama run

Чтобы запустить модель и задать один вопрос в неинтерактивном режиме:

printf "Дайте мне 10 однострочников bash для анализа логов.\n" | ollama run llama3.2

Если вы хотите увидеть подробный развернутый ответ LLM в сессии ollama - запустите модель с параметром --verbose или -v:

$ ollama run gpt-oss:20b --verbose
>>> кто ты?
Размышление...
Нам нужно ответить на простой вопрос: "кто ты?" Пользователь спрашивает "кто ты?" Мы можем ответить, что мы ChatGPT, большая языковая модель, обученная OpenAI. Мы можем также упомянуть возможности. Пользователь, вероятно, ожидает краткого представления. Мы будем дружелюбны.
...завершено размышление.

Я ChatGPT, большая языковая модель, созданная OpenAI. Я здесь, чтобы помочь отвечать на вопросы, предлагать объяснения, генерировать идеи и обсуждать широкий спектр тем — от науки и истории до творческого письма и повседневных советов. Просто дайте знать, о чем вы хотите поговорить!

общая продолжительность:       1.118585707s
время загрузки:        106.690543ms
количество токенов оценки запроса:    71 токен(ов)
время оценки запроса: 30.507392ms
скорость оценки запроса:     2327.30 токенов/с
количество токенов оценки:           132 токен(ов)
время оценки:        945.801569ms
скорость оценки:            139.56 токенов/с
>>> /bye
$

Да, это правда, это 139 токенов в секунду. Gpt-oss:20b очень быстрый. Если у вас, как и у меня, есть GPU с 16ГБ VRAM - посмотрите детали сравнения скорости ЛЛМ в Лучшие ЛЛМ для Ollama на GPU с 16ГБ VRAM.

Совет: Если вы хотите, чтобы модель была доступна через HTTP для нескольких приложений, запустите сервер с ollama serve и используйте API-клиент вместо длительных интерактивных сессий.

Команда Ollama stop

Эта команда останавливает указанную работающую модель.

ollama stop llama3.1:8b-instruct-q8_0

Ollama автоматически выгружает модели через некоторое время. Вы можете указать это время, по умолчанию 4 минуты. Если вы не хотите ждать оставшееся время, возможно, вам стоит использовать команду ollama stop. Вы также можете выгрузить модель из VRAM, вызвав конечную точку API /generate с параметром keep_alive=0, см. ниже описание и пример.

Команда Ollama ps

ollama ps показывает текущие работающие модели и сессии (полезно для отладки “почему моя VRAM заполнена?”).

ollama ps

Пример вывода ollama ps приведен ниже:

NAME           ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gpt-oss:20b    17052f91a42e    14 GB    100% GPU     4096       4 минуты от сейчас

Здесь видно, что на моем ПК gpt-oss:20b отлично помещается в 16ГБ VRAM моего GPU и занимает только 14ГБ.

Если я выполню ollama run gpt-oss:120b, а затем вызову ollama ps, результат будет не таким радужным: 78% слоев на CPU, и это только с окном контекста 4096 токенов. Если мне нужно увеличить контекст, будет еще больше.

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    a951a23b46a1    66 GB    78%/22% CPU/GPU    4096       4 минуты от сейчас

Настройки производительности (OLLAMA_NUM_PARALLEL)

Если вы видите очередь или таймауты при нагрузке, первым параметром, который стоит изучить, является OLLAMA_NUM_PARALLEL.

  • OLLAMA_NUM_PARALLEL = количество запросов, которые Ollama выполняет параллельно.
  • Более высокое значение может увеличить пропускную способность, но может увеличить давление на VRAM и пиковую задержку.

Быстрый пример:

OLLAMA_NUM_PARALLEL=2 ollama serve

Для полного объяснения (включая стратегии настройки и режимы сбоя), см.:

Освобождение модели Ollama из VRAM (keep_alive)

Когда модель загружается в VRAM (память GPU), она остается там даже после завершения использования. Чтобы явно освободить модель из VRAM и освободить память GPU, вы можете отправить запрос в API Ollama с keep_alive: 0.

  • Освобождение модели из VRAM с помощью curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Замените MODELNAME на фактическое имя модели, например:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • Освобождение модели из VRAM с помощью Python:
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Это особенно полезно, когда:

  • Вам нужно освободить память GPU для других приложений
  • Вы запускаете несколько моделей и хотите управлять использованием VRAM
  • Вы закончили использование большой модели и хотите немедленно освободить ресурсы

Примечание: Параметр keep_alive управляет тем, как долго (в секундах) модель остается загруженной в памяти после последнего запроса. Установка его в 0 немедленно выгружает модель из VRAM.

Настройка моделей Ollama (системный промт, Modelfile)

  • Установка системного промта: Внутри REPL Ollama вы можете установить системный промт для настройки поведения модели:

    >>> /set system Для всех заданных вопросов отвечайте простым английским языком, избегая технических терминов по возможности
    >>> /save ipe
    >>> /bye
    

    Затем запустите настроенную модель:

    ollama run ipe
    

    Это устанавливает системный промт и сохраняет модель для будущего использования.

  • Создание пользовательского файла модели: Создайте текстовый файл (например, custom_model.txt) со следующей структурой:

    FROM llama3.1
    SYSTEM [Ваши пользовательские инструкции здесь]
    

    Затем выполните:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    Это создает настроенную модель на основе инструкций в файле.

Использование команды Ollama run с файлами (резюме, перенаправление)

  • Резюмирование текста из файла:

    ollama run llama3.2 "Резюмируйте содержимое этого файла в 50 словах." < input.txt
    

    Эта команда резюмирует содержимое input.txt с использованием указанной модели.

  • Логирование ответов модели в файл:

    ollama run llama3.2 "Расскажите мне о возобновляемых источниках энергии." > output.txt
    

    Эта команда сохраняет ответ модели в output.txt.

Случаи использования CLI Ollama (генерация текста, анализ)

  • Генерация текста:

    • Резюмирование большого текстового файла:
      ollama run llama3.2 "Резюмируйте следующий текст:" < long-document.txt
      
    • Генерация контента:
      ollama run llama3.2 "Напишите короткую статью о преимуществах использования ИИ в здравоохранении." > article.txt
      
    • Ответы на конкретные вопросы:
      ollama run llama3.2 "Какие последние тенденции в ИИ, и как они повлияют на здравоохранение?"
      
  • Обработка и анализ данных:

    • Классификация текста по положительному, отрицательному или нейтральному тону:
      ollama run llama3.2 "Проанализируйте тон этого отзыва клиента: 'Продукт отличный, но доставка была медленной.'"
      
    • Категоризация текста по заранее определенным категориям: Используйте аналогичные команды для классификации или категоризации текста на основе заранее определенных критериев.

Использование Ollama с Python (клиент и API)

  • Установка библиотеки Python Ollama:
    pip install ollama
    
  • Генерация текста с использованием Python:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='что такое кубит?')
    print(response['response'])
    
    Этот фрагмент кода генерирует текст с использованием указанной модели и запроса.

Для продвинутой интеграции с Python изучите использование Web Search API Ollama в Python, которая охватывает возможности поиска в интернете, вызов инструментов и интеграцию с серверами MCP. Если вы разрабатываете приложения с искусственным интеллектом, наше сравнение AI Coding Assistants может помочь вам выбрать подходящие инструменты для разработки.

Ищете веб-интерфейс? Open WebUI предоставляет самонастраиваемый интерфейс с возможностями RAG и поддержкой нескольких пользователей. Для высокопроизводительных производственных развертываний рассмотрите vLLM как альтернативу. Чтобы сравнить Ollama с другими вариантами локальной и облачной инфраструктуры ЛЛМ, см. Хостинг ЛЛМ: локальный, самонастраиваемый и облачная инфраструктура.

Полезные ссылки

Настройка и управление

Альтернативы и сравнения

Производительность и оборудование

Интеграция и разработка