Шпаргалка Ollama - самые полезные команды - обновление 2026
Недавно собрал этот список команд Ollama...
Вот список и примеры самых полезных команд Ollama (шпаргалка по командам Ollama), которые я собрал некоторое время назад, последний раз обновлялась в январе 2026 года. Надеюсь, это будет полезно и вам тоже.

Эта шпаргалка по Ollama сосредоточена на командах командной строки, управлении моделями и настройке, но здесь также есть несколько curl запросов.
Если вы сравниваете различные решения для хостинга локальных LLM, ознакомьтесь с нашим подробным сравнением Ollama, vLLM, LocalAI, Jan, LM Studio и других. Для тех, кто ищет альтернативы командным интерфейсам, Docker Model Runner предлагает другой подход к развертыванию LLM.
Установка
- Вариант 1: Скачать с сайта
- Посетите ollama.com и скачайте установщик для вашей операционной системы (Mac, Linux или Windows).
- Вариант 2: Установка через командную строку
- Для пользователей Mac и Linux используйте команду:
curl https://ollama.ai/install.sh | sh
- Следуйте инструкциям на экране и введите пароль, если потребуется.
Системные требования
- Операционная система: Mac или Linux (версия для Windows в разработке)
- Оперативная память (RAM): минимум 8ГБ, рекомендуется 16ГБ или больше
- Хранилище: как минимум ~10ГБ свободного места (файлы моделей могут быть очень большими, подробнее здесь Перемещение моделей Ollama на другой диск)
- Процессор: относительно современный CPU (последние 5 лет). Если вас интересует, как Ollama использует различные архитектуры CPU, ознакомьтесь с нашим анализом как Ollama использует производительные и эффективные ядра Intel CPU.
Для серьезных нагрузок ИИ вы можете сравнить варианты оборудования. Мы протестировали производительность NVIDIA DGX Spark vs Mac Studio vs RTX-4080 с Ollama, и если вы рассматриваете инвестиции в высокопроизводительное оборудование, наше сравнение цен и возможностей DGX Spark предоставляет подробный анализ затрат.
Основные команды CLI Ollama
| Команда | Описание |
|---|---|
ollama serve |
Запускает Ollama на вашем локальном компьютере. |
ollama create <new_model> |
Создает новую модель на основе существующей для настройки или обучения. |
ollama show <model> |
Отображает детали о конкретной модели, такие как ее конфигурация и дата выпуска. |
ollama run <model> |
Запускает указанную модель, делая ее готовой к взаимодействию. |
ollama pull <model> |
Загружает указанную модель на ваш компьютер. |
ollama list |
Перечисляет все загруженные модели. То же самое, что и ollama ls |
ollama ps |
Показывает текущие запущенные модели. |
ollama stop <model> |
Останавливает указанную запущенную модель. |
ollama rm <model> |
Удаляет указанную модель с вашего компьютера. |
ollama help |
Предоставляет справку по любой команде. |
Управление моделями
-
Загрузка модели:
ollama pull mistral-nemo:12b-instruct-2407-q6_KЭта команда загружает указанную модель (например, Gemma 2B или mistral-nemo:12b-instruct-2407-q6_K) на ваш компьютер. Файлы моделей могут быть довольно большими, поэтому следите за использованием места на жестком диске или SSD. Возможно, вам захочется переместить все модели Ollama из вашей домашней директории на другой, более большой и лучший диск
-
Запуск модели:
ollama run qwen2.5:32b-instruct-q3_K_SЭта команда запускает указанную модель и открывает интерактивный REPL для взаимодействия. Хотите понять, как Ollama управляет несколькими параллельными запросами? Узнайте больше о как Ollama обрабатывает параллельные запросы в нашем подробном анализе.
-
Список моделей:
ollama listто же самое, что:
ollama lsЭта команда перечисляет все модели, которые были загружены на ваш компьютер, например
$ ollama ls NAME ID SIZE MODIFIED deepseek-r1:8b 6995872bfe4c 5.2 GB 2 weeks ago gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 weeks ago LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 weeks ago dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 weeks ago dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 weeks ago qwen3:8b 500a1f067a9f 5.2 GB 5 weeks ago qwen3:14b bdbd181c33f2 9.3 GB 5 weeks ago qwen3:30b-a3b 0b28110b7a33 18 GB 5 weeks ago devstral:24b c4b2fa0c33d7 14 GB 5 weeks ago -
Остановка модели:
ollama stop llama3.1:8b-instruct-q8_0Эта команда останавливает указанную запущенную модель.
Освобождение модели из VRAM
Когда модель загружена в VRAM (память GPU), она остается там даже после завершения использования. Чтобы явно освободить модель из VRAM и освободить память GPU, вы можете отправить запрос в API Ollama с параметром keep_alive: 0.
- Освобождение модели из VRAM с помощью curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Замените MODELNAME на фактическое имя вашей модели, например:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Освобождение модели из VRAM с помощью Python:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Это особенно полезно, когда:
- Вам нужно освободить память GPU для других приложений
- Вы запускаете несколько моделей и хотите управлять использованием VRAM
- Вы закончили использование большой модели и хотите немедленно освободить ресурсы
Примечание: Параметр keep_alive управляет тем, как долго (в секундах) модель остается загруженной в памяти после последнего запроса. Установка его в значение 0 немедленно выгружает модель из VRAM.
Настройка моделей
-
Установка системного запроса: Внутри REPL Ollama вы можете установить системный запрос для настройки поведения модели:
>>> /set system Для всех заданных вопросов отвечайте простым английским языком, избегая технических терминов по возможности >>> /save ipe >>> /byeЗатем запустите настроенную модель:
ollama run ipeЭто устанавливает системный запрос и сохраняет модель для будущего использования.
-
Создание пользовательского файла модели: Создайте текстовый файл (например,
custom_model.txt) со следующей структурой:FROM llama3.1 SYSTEM [Ваши пользовательские инструкции здесь]Затем выполните:
ollama create mymodel -f custom_model.txt ollama run mymodelЭто создает настроенную модель на основе инструкций в файле.
Использование Ollama с файлами
-
Суммирование текста из файла:
ollama run llama3.2 "Суммируйте содержимое этого файла в 50 слов." < input.txtЭта команда суммирует содержимое
input.txtс использованием указанной модели. -
Логирование ответов модели в файл:
ollama run llama3.2 "Расскажите мне о возобновляемых источниках энергии." > output.txtЭта команда сохраняет ответ модели в
output.txt.
Общие случаи использования
-
Генерация текста:
- Суммирование большого текстового файла:
ollama run llama3.2 "Суммируйте следующий текст:" < long-document.txt - Генерация контента:
ollama run llama3.2 "Напишите короткую статью о преимуществах использования ИИ в здравоохранении." > article.txt - Ответы на конкретные вопросы:
ollama run llama3.2 "Какие последние тенденции в ИИ и как они повлияют на здравоохранение?"
- Суммирование большого текстового файла:
-
Обработка и анализ данных:
- Классификация текста по положительному, отрицательному или нейтральному тону:
ollama run llama3.2 "Проанализируйте тон этого отзыва клиента: 'Продукт отличный, но доставка была медленной.'" - Категоризация текста по заранее определенным категориям: Используйте аналогичные команды для классификации или категоризации текста на основе заранее определенных критериев.
- Классификация текста по положительному, отрицательному или нейтральному тону:
Использование Ollama с Python
- Установка библиотеки Ollama для Python:
pip install ollama - Генерация текста с использованием Python:
Этот фрагмент кода генерирует текст с использованием указанной модели и запроса.
import ollama response = ollama.generate(model='gemma:2b', prompt='что такое кубит?') print(response['response'])
Для расширенной интеграции с Python изучите использование Web Search API Ollama в Python, который охватывает возможности веб-поиска, вызов инструментов и интеграцию с серверами MCP. Если вы разрабатываете приложения с искусственным интеллектом, наше сравнение AI Coding Assistants поможет вам выбрать подходящие инструменты для разработки.
Ищете веб-интерфейс? Open WebUI предоставляет самонастраиваемый интерфейс с возможностями RAG и поддержкой нескольких пользователей. Для высокопроизводительных производственных развертываний рассмотрите vLLM как альтернативу.
Полезные ссылки
Альтернативы и сравнения
- Хостинг локальных LLM: Полное руководство 2026 - Ollama, vLLM, LocalAI, Jan, LM Studio & другие
- Быстрый старт vLLM: Высокопроизводительное обслуживание LLM
- Docker Model Runner vs Ollama: Что выбрать?
- Первые признаки деградации Ollama
Производительность и оборудование
- Как Ollama обрабатывает параллельные запросы
- Как Ollama использует производительность и эффективные ядра Intel CPU
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Сравнение производительности Ollama
- DGX Spark vs. Mac Studio: Практический обзор с проверкой цен NVIDIA’s персонального суперкомпьютера для ИИ
Интеграция и разработка
- Использование Web Search API Ollama в Python
- Сравнение AI Coding Assistants
- Open WebUI: Самонастраиваемый интерфейс LLM
- Открытые чат-интерфейсы для LLM на локальных инстансах Ollama
- Ограничение LLM с помощью структурированного вывода: Ollama, Qwen3 & Python или Go
- Интеграция Ollama с Python: Примеры REST API и клиента Python
- SDK для Go для Ollama - сравнение с примерами