Нужно ли переустанавливать Docker Model Runner для включения GPU?

Да, если Docker Model Runner уже был установлен без поддержки GPU, его необходимо переустановить с помощью команды docker model reinstall-runner –gpu cuda. Это загружает версию с поддержкой CUDA (docker/model-runner_latest-cuda) вместо версии, работающей только на CPU.

Что, если nvidia-container-runtime находится в другом месте?

Используйте nvidia-container-runtime , чтобы найти путь установки, затем обновите значение “path” в файле /etc/docker/daemon.json соответственно. Обычно путь имеет вид /usr/bin/nvidia-container-runtime, но может отличаться в зависимости от вашей установки.

Как проверить, используется ли GPU?

Проверьте логи Docker Model Runner с помощью команды docker model logs | grep -i cuda. Вы должны увидеть сообщения вроде “using device CUDA0”, “offloaded X/X layers to GPU”, и “CUDA0 model buffer size”. Также можно мониторить использование GPU с помощью nvidia-smi во время работы модели.

Какие графические процессоры поддерживаются?

Docker Model Runner поддерживает несколько GPU бэкендов: cuda (NVIDIA CUDA), rocm (AMD ROCm), musa (Moore Threads MUSA), cann (Huawei CANN), auto (автоматическое определение) и none (только CPU). Используйте флаг –gpu во время установки, чтобы указать ваш бэкенд.

Добавление поддержки GPU NVIDIA в Docker Model Runner

Q: Почему Docker Model Runner не использует GPU по умолчанию?

Docker Model Runner требует явной конфигурации GPU, так как должен быть установлен с CUDA-версией. В отличие от стандартных команд docker run, docker model run не поддерживает флаги –gpus, поэтому поддержка GPU должна быть настроена на уровне Docker-демона и во время установки раннера.

Включите ускорение с помощью GPU для Docker Model Runner с поддержкой NVIDIA CUDA

Docker Model Runner — это официальный инструмент Docker для запуска моделей ИИ локально, но включение ускорения NVidia GPU в Docker Model Runner требует специальной настройки.

В отличие от стандартных команд docker run, docker model run не поддерживает флаги --gpus или -e, поэтому поддержка GPU должна быть настроена на уровне демона Docker и во время установки раннера.

Если вы ищете альтернативное решение для хостинга LLM с более простой настройкой GPU, рассмотрите Ollama, которая имеет встроенную поддержку GPU и более простую установку. Однако Docker Model Runner предлагает лучшую интеграцию с экосистемой Docker и распределением артефактов OCI.

Docker Model Runner с поддержкой NVIDIA GPU Это изображение было сгенерировано моделью ИИ Flux 1 dev.

Предварительные требования

Перед настройкой поддержки GPU убедитесь, что у вас есть:

NVIDIA GPU с установленными совместимыми драйверами. Для помощи в выборе подходящего GPU для задач ИИ см. наше руководство Сравнение характеристик NVidia GPU для ИИ.
NVIDIA Container Toolkit установлен (см. раздел поддержки NVIDIA RTX для Docker)
Docker Model Runner установлен (может быть переустановлен с поддержкой GPU)

Проверьте доступность вашего GPU:

nvidia-smi

Тестирование доступа Docker к GPU:

docker run --rm --gpus all nvidia/cuda:12.2.2-base-ubi8 nvidia-smi

Для большего количества команд Docker и вариантов настройки см. наш Docker Cheatsheet.

Шаг 1: Настройка демона Docker для NVIDIA Runtime

Docker Model Runner требует, чтобы NVIDIA runtime был установлен как стандартный runtime в конфигурации демона Docker.

Поиск пути к NVIDIA Container Runtime

Сначала найдите, где установлен nvidia-container-runtime:

which nvidia-container-runtime

Обычно это выводит /usr/bin/nvidia-container-runtime. Запомните этот путь для следующего шага.

Настройка демона Docker

Создайте или обновите /etc/docker/daemon.json, чтобы установить NVIDIA как стандартный runtime:

sudo tee /etc/docker/daemon.json > /dev/null << 'EOF'
{
  "default-runtime": "nvidia",
  "runtimes": {
    "nvidia": {
      "path": "/usr/bin/nvidia-container-runtime",
      "runtimeArgs": []
    }
  }
}
EOF

Важно: Если which nvidia-container-runtime вернул другой путь, обновите значение "path" в JSON-конфигурации соответственно.

Перезапуск сервиса Docker

Примените настройки, перезапустив Docker:

sudo systemctl restart docker

Проверка конфигурации

Подтвердите, что NVIDIA runtime настроен:

docker info | grep -i runtime

Вы должны увидеть Default Runtime: nvidia в выводе.

Шаг 2: Установка Docker Model Runner с поддержкой GPU

Docker Model Runner должен быть установлен или переустановлен с явной поддержкой GPU. Контейнер раннера сам по себе должен быть версией с поддержкой CUDA.

Остановка текущего раннера (если запущен)

Если Docker Model Runner уже установлен, остановите его сначала:

docker model stop-runner

Установка/переустановка с поддержкой CUDA

Установите или переустановите Docker Model Runner с поддержкой CUDA GPU:

docker model reinstall-runner --gpu cuda

Эта команда:

Загружает версию с поддержкой CUDA (docker/model-runner:latest-cuda) вместо версии только для CPU
Настраивает контейнер раннера для использования NVIDIA runtime
Включает ускорение GPU для всех моделей

Примечание: Если вы уже установили Docker Model Runner без поддержки GPU, вам нужно переустановить его с флагом --gpu cuda. Просто настройка демона Docker недостаточна — контейнер раннера сам по себе должен быть версией с поддержкой CUDA.

Доступные бэкенды GPU

Docker Model Runner поддерживает несколько бэкендов GPU:

cuda - NVIDIA CUDA (наиболее распространенный для GPU NVIDIA)
rocm - AMD ROCm (для GPU AMD)
musa - Moore Threads MUSA
cann - Huawei CANN
auto - Автоматическое определение (по умолчанию, может работать некорректно)
none - Только CPU

Для GPU NVIDIA всегда используйте --gpu cuda явно.

Шаг 3: Проверка доступа к GPU

После установки проверьте, что Docker Model Runner может получить доступ к вашему GPU.

Проверка доступа к GPU контейнера раннера

Тестирование доступа к GPU из контейнера Docker Model Runner:

docker exec docker-model-runner nvidia-smi

Это должно отобразить информацию о вашем GPU, подтверждая, что контейнер имеет доступ к GPU.

Проверка статуса раннера

Убедитесь, что Docker Model Runner работает:

docker model status

Вы должны увидеть, что раннер активен с поддержкой llama.cpp.

Шаг 4: Тестирование модели с GPU

Запустите модель и проверьте, что она использует GPU.

Запуск модели

Начните инференс модели:

docker model run ai/qwen3:14B-Q6_K "who are you?"

Проверка использования GPU в логах

Проверьте логи Docker Model Runner для подтверждения использования GPU:

docker model logs | grep -i cuda

Вы должны увидеть сообщения, подтверждающие использование GPU:

using device CUDA0 (NVIDIA GeForce RTX 4080) - обнаружено устройство GPU
offloaded 41/41 layers to GPU - слои модели загружены на GPU
CUDA0 model buffer size = 10946.13 MiB - выделение памяти GPU
CUDA0 KV buffer size = 640.00 MiB - кеш ключ-значение на GPU
CUDA0 compute buffer size = 306.75 MiB - буфер вычислений на GPU

Мониторинг использования GPU

В другом терминале мониторьте использование GPU в реальном времени:

nvidia-smi -l 1

Вы должны увидеть увеличение использования памяти GPU и загрузки при запуске модели.

Для более продвинутых вариантов мониторинга GPU и инструментов см. наше руководство Приложения для мониторинга GPU в Linux / Ubuntu.

Устранение неполадок

Модель все еще использует CPU

Если модель все еще работает на CPU:

Проверьте конфигурацию демона Docker:
```
docker info | grep -i runtime
```
Должно отображаться Default Runtime: nvidia
Проверьте runtime контейнера раннера:
```
docker inspect docker-model-runner | grep -A 2 '"Runtime"'
```
Должно отображаться "Runtime": "nvidia"
Переустановите раннер с поддержкой GPU:
```
docker model reinstall-runner --gpu cuda
```
Проверьте логи на наличие ошибок:
```
docker model logs | tail -50
```

GPU не обнаружен

Если GPU не обнаружен:

Проверьте установку NVIDIA Container Toolkit:
```
dpkg -l | grep nvidia-container-toolkit
```
Тестирование доступа к GPU с помощью стандартного Docker:
```
docker run --rm --gpus all nvidia/cuda:12.2.2-base-ubi8 nvidia-smi
```
Для устранения неполадок с Docker см. наш Docker Cheatsheet.
Проверьте драйверы NVIDIA:
```
nvidia-smi
```

Проблемы с производительностью

Если производительность GPU низкая:

Проверьте использование GPU:
```
nvidia-smi
```
Обратите внимание на процент использования GPU
Убедитесь, что слои модели находятся на GPU:
```
docker model logs | grep "offloaded.*layers to GPU"
```
Все слои должны быть загружены на GPU
Проверьте проблемы с памятью:
```
nvidia-smi
```
Убедитесь, что память GPU не исчерпана

Лучшие практики

Всегда указывайте бэкенд GPU явно: Используйте --gpu cuda вместо --gpu auto для GPU NVIDIA, чтобы обеспечить правильную настройку.
Проверяйте конфигурацию после изменений: Всегда проверяйте docker info | grep -i runtime после изменения настроек демона Docker.
Мониторьте использование GPU: Используйте nvidia-smi для мониторинга памяти GPU и загрузки во время инференса модели. Для более продвинутых инструментов мониторинга см. наше руководство Приложения для мониторинга GPU в Linux / Ubuntu.
Регулярно проверяйте логи: Просматривайте docker model logs, чтобы убедиться, что модели используют ускорение GPU.
Используйте подходящие размеры моделей: Убедитесь, что у вашего GPU достаточно памяти для модели. Используйте квантованные модели (Q4, Q5, Q6, Q8) для лучшей эффективности использования памяти GPU. Для помощи в выборе подходящего GPU для ваших задач ИИ см. наше руководство Сравнение характеристик NVidia GPU для ИИ.