Что такое Docker Model Runner (DMR) и чем он отличается от Ollama?

Docker Model Runner — это официальное решение Docker, представленное в апреле 2025 года для запуска моделей ИИ локально с использованием нативных команд Docker (docker model pull, docker model run). Оно упаковывает модели как OCI Artifacts и интегрируется с Docker Hub. Ollama — это автономный runtime для LLM с собственным CLI (ollama run, ollama pull), оптимизированный для простоты. DMR подходит для команд, использующих рабочие процессы Docker, тогда как Ollama проще для быстрого прототипирования независимо от инфраструктуры.

Какой вариант быстрее для инференса - Docker Model Runner или Ollama?

Оба Ollama и Docker Model Runner (DMR) обеспечивают схожие скорости инференса, так как DMR поддерживает модели в формате GGUF, как и Ollama. Docker добавляет минимальные накладные расходы при правильной настройке. Производительность в основном зависит от ускорения на GPU, квантования модели (Q4, Q5, Q8) и оборудования, а не от выбора раннера.

Могу ли я запускать несколько моделей одновременно с обеими решениями?

Да, обе системы поддерживают запуск нескольких моделей. Ollama обеспечивает нативную переключение между моделями. Docker Model Runner и другие решения на основе Docker могут запускать несколько моделей в отдельных контейнерах с лучшей изоляцией ресурсов и поддержкой различных фреймворков одновременно.

Нужна ли поддержка GPU для Docker Model Runner и Ollama?

Нет, оба могут работать на системах только с CPU, хотя производительность будет значительно медленнее. Ollama автоматически обнаруживает и использует доступные GPU. Docker Model Runner предоставляет нативную поддержку GPU без сложной конфигурации nvidia-docker, упрощая ускорение на GPU по сравнению с традиционными Docker-контейнерами.

Какое решение лучше для производственных развертываний?

Docker Model Runner и контейнеризированные решения предпочтительны для продакшена благодаря поддержке оркестрации (Kubernetes), ограничениям ресурсов, проверкам состояния и интеграции с мониторингом. Ollama преуспевает в разработке, прототипировании и развертывании на одном сервере, где важна простота. Оба решения готовы к продакшену при правильной настройке.

Можно ли использовать Docker Hub для распространения моделей с Docker Model Runner?

Да! Docker Model Runner упаковывает модели как OCI-артефакты, что позволяет распространять их через Docker Hub и другие OCI-совместимые реестры. Используйте docker model package для создания обмениваемых артефактов моделей. Это обеспечивает контроль версий, управление доступом и знакомые Docker-процессы для распространения моделей.

Нужно ли использовать Docker Model Runner или Ollama в контейнерах Docker?

Docker Model Runner — это нативное решение Docker, оптимальное для команд, уже использующих рабочие процессы Docker. Запуск Ollama в контейнерах Docker сочетает простоту Ollama с оркестрацией контейнеров. Выберите DMR для нативной интеграции с Docker или контейнеры Ollama, если предпочитаете интерфейс управления моделями Ollama с возможностями развертывания Docker.

Docker Model Runner против Ollama: что выбрать?

Сравните Docker Model Runner и Ollama для локальных LLM

Запуск больших языковых моделей (LLM) локально стал все более популярным благодаря конфиденциальности, контролю затрат и возможностям работы офлайн. Ландшафт значительно изменился в апреле 2025 года, когда Docker представил Docker Model Runner (DMR), свое официальное решение для развертывания моделей ИИ.

Теперь три подхода конкурируют за внимание разработчиков: официальный Docker Model Runner, сторонние контейнеризованные решения (vLLM, TGI) и автономная платформа Ollama.

docker model runner windows

Понимание Docker Model Runners

Docker-решения для запуска моделей используют контейнеризацию для упаковки движков инференса LLM вместе с их зависимостями. В ландшафт входят как официальное решение Docker, так и сторонние фреймворки.

Docker Model Runner (DMR) - Официальное решение

В апреле 2025 года Docker представил Docker Model Runner (DMR), официальный продукт, предназначенный для упрощения запуска моделей ИИ локально с использованием инфраструктуры Docker. Это демонстрирует приверженность Docker упрощению развертывания моделей ИИ так же, как и развертывания контейнеров.

Основные особенности DMR:

Нативная интеграция с Docker: Использует знакомые команды Docker (docker model pull, docker model run, docker model package)
Упаковка OCI Artifacts: Модели упаковываются как OCI Artifacts, что позволяет распространять их через Docker Hub и другие реестры
API, совместимый с OpenAI: Замена для конечных точек OpenAI, упрощающая интеграцию
Ускорение на GPU: Нативная поддержка GPU без сложной конфигурации nvidia-docker
Поддержка формата GGUF: Работает с популярными квантованными форматами моделей
Интеграция с Docker Compose: Легко настраивать и развертывать модели с использованием стандартных инструментов Docker
Поддержка Testcontainers: Бесшовная интеграция с фреймворками тестирования

Установка:

Docker Desktop: Включить через вкладку AI в настройках
Docker Engine: Установить пакет docker-model-plugin

Пример использования:

# Загрузка модели из Docker Hub
docker model pull ai/smollm2

# Запуск инференса
docker model run ai/smollm2 "Объясните Docker Model Runner"

# Упаковка пользовательской модели
docker model package --gguf /path/to/model.gguf --push myorg/mymodel:latest

DMR сотрудничает с Google, Hugging Face и VMware Tanzu для расширения экосистемы моделей ИИ, доступных через Docker Hub. Если вы новичок в Docker или вам нужна refresher по командам Docker, наша Шпаргалка по Docker предоставляет всестороннее руководство по основным операциям Docker.

Сторонние Docker-решения

Помимо DMR, в экосистеме представлены проверенные фреймворки:

Контейнеры vLLM: Сервер инференса с высокой пропускной способностью, оптимизированный для пакетной обработки
Text Generation Inference (TGI): Готовое к производству решение от Hugging Face
Контейнеры llama.cpp: Легковесная реализация на C++ с квантованием
Пользовательские контейнеры: Обертки для PyTorch, Transformers или проприетарных фреймворков

Преимущества Docker-подхода

Гибкость и независимость от фреймворков: Docker-контейнеры могут запускать любой фреймворк LLM, от PyTorch до ONNX Runtime, давая разработчикам полный контроль над стеком инференса.

Изоляция ресурсов: Каждый контейнер работает в изолированных средах с определенными ограничениями ресурсов (CPU, память, GPU), предотвращая конфликты ресурсов при развертывании нескольких моделей.

Поддержка оркестрации: Docker интегрируется с Kubernetes, Docker Swarm и облачными платформами для масштабирования, балансировки нагрузки и обеспечения высокой доступности.

Контроль версий: Разные версии моделей или фреймворков могут сосуществовать на одной системе без конфликтов зависимостей.

Недостатки Docker-подхода

Сложность: Требует понимания контейнеризации, монтирования томов, сетевой конфигурации и передачи GPU (nvidia-docker).

Накладные расходы: Хотя и минимальные, Docker добавляет тонкий слой абстракции, который немного влияет на время запуска и использование ресурсов.

Нагрузка на конфигурацию: Каждое развертывание требует тщательной настройки Dockerfile, переменных окружения и параметров времени выполнения.

Понимание Ollama

Ollama — это специализированное приложение для запуска LLM локально, разработанное с упором на простоту как на главный принцип. Оно предоставляет:

Нативный бинарный файл для Linux, macOS и Windows
Встроенная библиотека моделей с установкой в один клик
Автоматическое обнаружение и оптимизация GPU
RESTful API, совместимый с форматом OpenAI
Управление контекстом и состоянием моделей

Преимущества Ollama

Простота: Установка простая (curl | sh на Linux), а запуск моделей требует только ollama run llama2. Для полного списка команд Ollama и шаблонов использования ознакомьтесь с нашей Шпаргалкой по Ollama.

Оптимизированная производительность: Построен на llama.cpp, Ollama высоко оптимизирован для скорости инференса с поддержкой квантования (Q4, Q5, Q8).

Управление моделями: Встроенный реестр моделей с командами ollama pull, ollama list и ollama rm упрощает жизненный цикл моделей.

Опыт разработчика: Чистый API, обширная документация и растущая экосистема интеграций (LangChain, CrewAI и др.). Универсальность Ollama распространяется на специализированные сценарии использования, такие как переранжирование текстовых документов с использованием моделей встраивания.

Эффективность использования ресурсов: Автоматическое управление памятью и разгрузка моделей в состоянии простоя экономит системные ресурсы.

ollama ui

Недостатки Ollama

Зависимость от фреймворка: Основная поддержка моделей, совместимых с llama.cpp, ограничивает гибкость для фреймворков вроде vLLM или пользовательских движков инференса.

Ограниченная настраиваемость: Продвинутые конфигурации (пользовательское квантование, конкретные CUDA-потоки) менее доступны, чем в Docker-средах.

Сложности оркестрации: Хотя Ollama можно запускать в контейнерах, он не поддерживает нативно продвинутые функции оркестрации, такие как горизонтальное масштабирование.

Сравнение производительности

Скорость инференса

Docker Model Runner: Производительность сопоставима с Ollama, так как обе поддерживают квантованные модели GGUF. Для Llama 2 7B (Q4) ожидайте 20-30 токенов/секунду на CPU и 50-80 токенов/секунду на средних GPU. Минимальные накладные расходы контейнера.

Ollama: Использует высокооптимизированный бэкенд llama.cpp с эффективным квантованием. Для Llama 2 7B (Q4) ожидайте 20-30 токенов/секунду на CPU и 50-80 токенов/секунду на средних GPU. Нет накладных расходов контейнеризации. Для подробностей о том, как Ollama обрабатывает параллельные запросы, см. наш анализ как Ollama обрабатывает параллельные запросы.

Docker (vLLM): Оптимизирован для пакетной обработки с непрерывным пакетированием. Одиночные запросы могут быть немного медленнее, но пропускная способность превосходит при высокой одновременной нагрузке (100+ токенов/секунду на модель с пакетированием).

Docker (TGI): Аналогично vLLM с отличной производительностью пакетирования. Добавляет функции, такие как потоковая передача и генерация токен за токеном.

Использование памяти

Docker Model Runner: Аналогично Ollama с автоматической загрузкой моделей. Модели GGUF Q4 обычно используют 4-6 ГБ ОЗУ. Накладные расходы контейнера минимальны (десятки МБ).

Ollama: Автоматическое управление памятью загружает модели по требованию и разгружает в состоянии простоя. Модель 7B Q4 обычно использует 4-6 ГБ ОЗУ. Наиболее эффективна для сценариев с одной моделью.

Традиционные Docker-решения: Использование памяти зависит от фреймворка. vLLM предварительно выделяет память GPU для оптимальной производительности, в то время как контейнеры на основе PyTorch могут использовать больше ОЗУ для весов моделей и KV-кэша (8-14 ГБ для моделей 7B).

Время запуска

Docker Model Runner: Запуск контейнера добавляет ~1 секунду, плюс загрузка модели (2-5 секунд). Всего: 3-6 секунд для средних моделей.

Ollama: Почти мгновенный запуск с загрузкой модели, занимающей 2-5 секунд для моделей среднего размера. Самый быстрый холодный запуск.

Традиционный Docker: Запуск контейнера добавляет 1-3 секунды, плюс время загрузки модели. Предварительный нагрев контейнеров смягчает это в производственных развертываниях.

Docker Model Runner vs Ollama: Прямое сравнение

С официальным появлением Docker в пространстве LLM-раннеров сравнение становится более интересным. Вот как DMR и Ollama соотносятся друг с другом:

Особенность	Docker Model Runner	Ollama
Установка	Вкладка AI в Docker Desktop или `docker-model-plugin`	Одна команда: `curl \| sh`
Стиль команд	`docker model pull/run/package`	`ollama pull/run/list`
Формат модели	GGUF (OCI Artifacts)	GGUF (нативный)
Распределение моделей	Docker Hub, реестры OCI	Реестр Ollama
Настройка GPU	Автоматическая (проще, чем традиционный Docker)	Автоматическая
API	Совместимый с OpenAI	Совместимый с OpenAI
Интеграция с Docker	Нативная (это Docker)	Запускается в Docker при необходимости
Поддержка Compose	Нативная	Через Docker-образ
Кривая обучения	Низкая (для пользователей Docker)	Самая низкая (для всех)
Партнеры экосистемы	Google, Hugging Face, VMware	LangChain, CrewAI, Open WebUI
Лучше всего для	Рабочих процессов на основе Docker	Простота автономной работы

Ключевое наблюдение: DMR приносит рабочие процессы Docker в развертывание LLM, в то время как Ollama остается независимой от фреймворка с более простой автономной работой. Ваша существующая инфраструктура имеет большее значение, чем технические различия.

Совместимость API

Все современные решения сходятся на совместимых с OpenAI API, упрощая интеграцию:

API Docker Model Runner: Совместимые с OpenAI конечные точки автоматически предоставляются при запуске моделей. Дополнительная настройка не требуется.

# Модель запускается с автоматически открытым API
docker model run ai/llama2

# Использование совместимого с OpenAI конечного пункта
curl http://localhost:8080/v1/chat/completions -d '{
  "model": "llama2",
  "messages": [{"role": "user", "content": "Почему небо голубое?"}]
}'

API Ollama: Совместимые с OpenAI конечные точки делают его прямой заменой для приложений, использующих SDK OpenAI. Потоковая передача полностью поддерживается.

curl http://localhost:11434/api/generate -d '{
  "model": "llama2",
  "prompt": "Почему небо голубое?"
}'

API сторонних решений на основе Docker: vLLM и TGI предлагают совместимые с OpenAI конечные точки, в то время как пользовательские контейнеры могут реализовывать проприетарные API.

Совместимость с OpenAI означает, что вы можете переключаться между решениями с минимальными изменениями кода.

Управление ресурсами

Ускорение на GPU

Docker Model Runner: Нативная поддержка GPU без сложной настройки nvidia-docker. Автоматически обнаруживает и использует доступные GPU, значительно упрощая работу с GPU в Docker по сравнению с традиционными контейнерами.

# Ускорение на GPU работает автоматически
docker model run ai/llama2

Ollama: Автоматическое обнаружение GPU на CUDA-совместимых GPU NVIDIA. Не требуется настройка, кроме установки драйверов.

Традиционные контейнеры Docker: Требуется runtime nvidia-docker и явное выделение GPU:

docker run --gpus all my-llm-container

Резервное копирование на CPU

Оба решения плавно переходят на инференс на CPU при недоступности GPU, хотя производительность значительно снижается (в 5-10 раз медленнее для больших моделей). Для получения информации о производительности только на CPU на современных процессорах, прочитайте наш тест как Ollama использует производительные и эффективные ядра Intel CPU.

Поддержка нескольких GPU

Ollama: Поддерживает тензорный параллелизм на нескольких GPU для больших моделей.

Docker: Зависит от фреймворка. vLLM и TGI поддерживают инференс на нескольких GPU при правильной настройке.

Сообщество и экосистема

Docker Model Runner: Запущен в апреле 2025 года с сильной корпоративной поддержкой. Партнерства с Google, Hugging Face и VMware Tanzu AI Solutions обеспечивают широкий доступ к моделям. Интеграция с огромным сообществом разработчиков Docker (миллионы пользователей) обеспечивает мгновенный доступ к экосистеме. Пока создаются ресурсы, специфичные для сообщества, как для нового продукта.

Ollama: Быстро растущее сообщество с 50K+ звездами на GitHub. Сильная интеграция с экосистемой (LangChain, LiteLLM, Open WebUI, CrewAI) и активное сообщество на Discord. Обширные сторонние инструменты и руководства. Более зрелые документация и ресурсы сообщества. Для всестороннего обзора доступных интерфейсов см. наше руководство по открытым чат-интерфейсам для локальных инстансов Ollama. Как и в случае любого быстро растущего открытого проекта, важно следить за направлением развития проекта - прочитайте наш анализ первых признаков ухудшения Ollama для понимания потенциальных проблем.

Сторонние решения на основе Docker: vLLM и TGI имеют зрелые экосистемы с корпоративной поддержкой. Обширные кейсы использования в производстве, руководства по оптимизации и шаблоны развертывания от Hugging Face и сообщества.

Рассмотрение затрат

Docker Model Runner: Бесплатен с Docker Desktop (личное/образовательное) или Docker Engine. Docker Desktop требует подписки для крупных организаций (250+ сотрудников или доход $10M+). Модели, распространяемые через Docker Hub, следуют ценообразованию реестра Docker (бесплатные публичные репозитории, платные частные репозитории).

Ollama: Полностью бесплатный и с открытым исходным кодом без лицензионных затрат независимо от размера организации. Затраты на ресурсы зависят только от оборудования.

Сторонние решения на основе Docker: Бесплатны для открытых фреймворков (vLLM, TGI). Возможные затраты на платформы оркестрации контейнеров (ECS, GKE) и хранение в частных реестрах.

Рассмотрение безопасности

Docker Model Runner: Использует модель безопасности Docker с изоляцией контейнеров. Модели, упакованные как артефакты OCI, могут быть проверены и подписаны. Распределение через Docker Hub обеспечивает контроль доступа и проверку на уязвимости для корпоративных пользователей.

Ollama: Работает как локальный сервис с API, открытым по умолчанию на localhost. Сетевое взаимодействие требует явной настройки. Реестр моделей доверенный (курируемый Ollama), что снижает риски цепочки поставок.

Традиционные решения на основе Docker: Встроена сетевая изоляция. Проверка безопасности контейнеров (Snyk, Trivy) и подпись изображений - стандартные практики в производственных средах.

Все решения требуют внимания к:

Происхождению моделей: Недоверенные модели могут содержать вредоносный код или бэкдоры
Аутентификации API: Реализуйте аутентификацию/авторизацию в производственных развертываниях
Ограничению скорости: Предотвращение злоупотреблений и истощения ресурсов
Сетевому взаимодействию: Убедитесь, что API не случайно открыты в интернет
Конфиденциальности данных: Модели обрабатывают конфиденциальные данные; обеспечьте соответствие нормам защиты данных

Пути миграции

От Ollama к Docker Model Runner

Поддержка GGUF в Docker Model Runner упрощает миграцию:

Включите Docker Model Runner в Docker Desktop или установите docker-model-plugin
Преобразуйте ссылки на модели: ollama run llama2 → docker model pull ai/llama2 и docker model run ai/llama2
Обновите конечные точки API с localhost:11434 на конечную точку DMR (обычно localhost:8080)
Оба используют совместимые с OpenAI API, поэтому код приложения требует минимальных изменений

От Docker Model Runner к Ollama

Переход на Ollama для более простой автономной работы:

Установите Ollama: curl -fsSL https://ollama.ai/install.sh | sh
Загрузите эквивалентные модели: ollama pull llama2
Обновите конечные точки API до localhost:11434 Ollama
Проверьте функциональность с ollama run llama2

От традиционных контейнеров Docker к DMR

Упростите настройку LLM в Docker:

Включите Docker Model Runner
Замените пользовательские Dockerfile командами docker model pull
Удалите настройку nvidia-docker (DMR автоматически обрабатывает GPU)
Используйте docker model run вместо сложных команд docker run

От любого решения к Ollama в Docker

Подход “лучшее из обоих миров”:

docker pull ollama/ollama
Запуск: docker run -d --gpus all -v ollama:/root/.ollama -p 11434:11434 ollama/ollama
Используйте команды Ollama как обычно: docker exec -it ollama ollama pull llama2
Получите оркестрацию Docker с простотой Ollama

Мониторинг и наблюдаемость

Ollama: Базовые метрики через API (/api/tags, /api/ps). Сторонние инструменты, такие как Open WebUI, предоставляют дашборды.

Docker: Полная интеграция с Prometheus, Grafana, ELK stack и облачными сервисами мониторинга. Метрики контейнеров (CPU, память, GPU) легко доступны.

Заключение

Ландшафт локального развертывания ЛЛМ значительно эволюционировал с появлением Docker Model Runner (DMR) в 2025 году. Выбор теперь зависит от ваших конкретных требований:

Для разработчиков, ищущих интеграцию с Docker: DMR предоставляет нативную интеграцию с рабочим процессом Docker с командами docker model
Для максимальной простоты: Ollama остается самым простым решением с управлением моделями в один клик
Для производства и корпоративного использования: Оба решения DMR и сторонние (vLLM, TGI) в Docker предлагают оркестрацию, мониторинг и масштабируемость
Для лучшего из обоих: Запускайте Ollama в контейнерах Docker, чтобы сочетать простоту с производственной инфраструктурой

Появление DMR сокращает разрыв между Docker и Ollama в плане удобства использования. Ollama все еще выигрывает в простоте для быстрого прототипирования, в то время как DMR преуспевает для команд, уже инвестировавших в рабочие процессы Docker. Оба подхода активно развиваются, готовы к производству, и экосистема достаточно зрелая, чтобы переключение между ними было относительно безболезненным.

Итог: Если вы уже активно используете Docker, DMR - естественный выбор. Если вы хотите самый простой опыт независимо от инфраструктуры, выберите Ollama.

Понимание Docker Model Runners

Docker Model Runner (DMR) - Официальное решение

Сторонние Docker-решения

Преимущества Docker-подхода

Недостатки Docker-подхода

Понимание Ollama

Преимущества Ollama

Недостатки Ollama

Сравнение производительности

Скорость инференса

Использование памяти

Время запуска

Docker Model Runner vs Ollama: Прямое сравнение

Рекомендации по выбору использования

Выбирайте Docker Model Runner, когда

Выбирайте Ollama, когда

Выбирайте сторонние решения на основе Docker, когда

Гибридные подходы: Лучшее из обоих миров

Вариант 1: Docker Model Runner + Традиционные контейнеры

Вариант 2: Ollama в Docker

Вариант 3: Комбинирование по сценариям