Какие команды в Ollama наиболее популярны?

Самые популярные команды в Ollama: ollama list, ollama pull, ollama rm и ollama run

Шпаргалка по Ollama - самые полезные команды

Недавно собрал этот список команд Ollama...

Содержимое страницы

Вот список и примеры самых полезных команд Ollama (шпаргалка по командам Ollama), которые я собрал некоторое время назад. Надеюсь, это будет полезно и вам тоже.

шпаргалка ollama

Эта шпаргалка по Ollama сосредоточена на командной строке, управлении моделями и настройке, но здесь также есть несколько curl запросов.

Установка

Вариант 1: Скачать с сайта
- Посетите ollama.com и скачайте установщик для вашей операционной системы (Mac, Linux или Windows).
Вариант 2: Установка через командную строку
- Для пользователей Mac и Linux используйте команду:

curl https://ollama.ai/install.sh | sh

Следуйте инструкциям на экране и введите пароль, если потребуется.

Системные требования

Операционная система: Mac или Linux (версия для Windows в разработке)
Оперативная память (RAM): минимум 8ГБ, рекомендуется 16ГБ или больше
Место на диске: как минимум ~10ГБ свободного места (файлы моделей могут быть очень большими, подробнее Перемещение моделей Ollama на другой диск)
Процессор: относительно современный CPU (последние 5 лет).

Основные команды CLI Ollama

Команда	Описание
`ollama serve`	Запускает Ollama на вашем локальном компьютере.
`ollama create <new_model>`	Создает новую модель на основе существующей для настройки или обучения.
`ollama show <model>`	Отображает детали о конкретной модели, такие как ее конфигурация и дата выпуска.
`ollama run <model>`	Запускает указанную модель, делая ее готовой к взаимодействию.
`ollama pull <model>`	Загружает указанную модель на ваш компьютер.
`ollama list`	Перечисляет все загруженные модели. То же самое, что и `ollama ls`
`ollama ps`	Показывает текущие запущенные модели.
`ollama stop <model>`	Останавливает указанную запущенную модель.
`ollama rm <model>`	Удаляет указанную модель с вашего компьютера.
`ollama help`	Предоставляет справку по любой команде.

Управление моделями

Загрузка модели:
```
ollama pull mistral-nemo:12b-instruct-2407-q6_K
```
Эта команда загружает указанную модель (например, Gemma 2B или mistral-nemo:12b-instruct-2407-q6_K) на ваш компьютер. Файлы моделей могут быть довольно большими, поэтому следите за использованием места на жестком диске или SSD. Возможно, вам захочется переместить все модели Ollama из вашей домашней директории на другой, более большой и лучший диск
Запуск модели:
```
ollama run qwen2.5:32b-instruct-q3_K_S
```
Эта команда запускает указанную модель и открывает интерактивный REPL для взаимодействия.

Список моделей:

ollama list

то же самое, что:

ollama ls

Эта команда перечисляет все модели, которые были загружены на ваш компьютер, например

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 weeks ago
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 weeks ago
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 weeks ago
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 weeks ago
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 weeks ago
qwen3:8b                                                500a1f067a9f    5.2 GB    5 weeks ago
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 weeks ago
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 weeks ago
devstral:24b                                            c4b2fa0c33d7    14 GB     5 weeks ago

Остановка модели:
```
ollama stop llama3.1:8b-instruct-q8_0
```
Эта команда останавливает указанную запущенную модель.

Освобождение модели из VRAM

Когда модель загружена в VRAM (память GPU), она остается там даже после завершения использования. Чтобы явно освободить модель из VRAM и освободить память GPU, вы можете отправить запрос в API Ollama с keep_alive: 0.

Освобождение модели из VRAM с помощью curl:

curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Замените MODELNAME на фактическое имя модели, например:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'

Освобождение модели из VRAM с помощью Python:

import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Это особенно полезно, когда:

Вам нужно освободить память GPU для других приложений
Вы запускаете несколько моделей и хотите управлять использованием VRAM
Вы закончили использование большой модели и хотите немедленно освободить ресурсы

Примечание: Параметр keep_alive управляет тем, как долго (в секундах) модель остается загруженной в памяти после последнего запроса. Установка его в 0 немедленно выгружает модель из VRAM.

Настройка моделей

Установка системного приглашения: Внутри REPL Ollama вы можете установить системное приглашение для настройки поведения модели:
```
>>> /set system Для всех заданных вопросов отвечайте простым английским языком, избегая технических терминов по возможности
>>> /save ipe
>>> /bye
```
Затем запустите настроенную модель:
```
ollama run ipe
```
Это устанавливает системное приглашение и сохраняет модель для будущего использования.
Создание пользовательского файла модели: Создайте текстовый файл (например, custom_model.txt) со следующей структурой:
```
FROM llama3.1
SYSTEM [Ваши пользовательские инструкции здесь]
```
Затем выполните:
```
ollama create mymodel -f custom_model.txt
ollama run mymodel
```
Это создает настроенную модель на основе инструкций в файле.

Использование Ollama с файлами

Суммирование текста из файла:
```
ollama run llama3.2 "Суммируйте содержимое этого файла в 50 слов." < input.txt
```
Эта команда суммирует содержимое input.txt с использованием указанной модели.
Логирование ответов модели в файл:
```
ollama run llama3.2 "Расскажите мне о возобновляемых источниках энергии." > output.txt
```
Эта команда сохраняет ответ модели в output.txt.

Общие случаи использования

Генерация текста:

Суммирование большого текстового файла:

ollama run llama3.2 "Суммируйте следующий текст:" < long-document.txt

Генерация контента:

ollama run llama3.2 "Напишите короткую статью о преимуществах использования ИИ в здравоохранении." > article.txt

Ответы на конкретные вопросы:

ollama run llama3.2 "Какие последние тенденции в ИИ и как они повлияют на здравоохранение?"

Обработка и анализ данных:
- Классификация текста по положительному, отрицательному или нейтральному тону:
```
ollama run llama3.2 "Проанализируйте тон этого отзыва клиента: 'Продукт отличный, но доставка была медленной.'"
```
- Категоризация текста по заранее определенным категориям: Используйте аналогичные команды для классификации или категоризации текста на основе заранее определенных критериев.

Использование Ollama с Python

Установка библиотеки Ollama для Python:
```
pip install ollama
```
Генерация текста с использованием Python:
```
import ollama

response = ollama.generate(model='gemma:2b', prompt='что такое кубит?')
print(response['response'])
```
Этот фрагмент кода генерирует текст с использованием указанной модели и приглашения.