Ollama в Docker Compose с использованием GPU и постоянным хранилищем моделей
Ollama-сервер с приоритетом композинга, поддержкой GPU и сохранением состояния.
Ollama отлично работает на «голом» железе. Но становится еще интереснее, если рассматривать его как сервис: стабильный конечный пункт, зафиксированные версии, постоянное хранилище данных и GPU, который либо доступен, либо нет.