Планировщик моделей и распределения памяти в новой версии Ollama - v0.12.1

Мой собственный тест Планировщика моделей Оllama

Содержимое страницы

Здесь я сравниваю, сколько видеопамяти новая версия Ollama выделяет для модели по сравнению с предыдущей версией. Новая версия работает хуже.

Как указано на официальном сайте, новая версия Ollama имеет Новое распределение моделей с

Максимальное использование GPU:
Новое управление памятью в Ollama выделяет больше памяти для GPU,
увеличивая скорость генерации и обработки токенов

и приведены некоторые примеры, например:

Длинный контекст

    GPU: 1x NVIDIA GeForce RTX 4090
    Модель: gemma3:12b
    Длина контекста: 128k

Старая                                   Новая
52.02 токенов/с скорость генерации токенов 85.54 токенов/с скорость генерации токенов
19.9GiB видеопамяти                       21.4GiB видеопамяти
48⁄49 слоёв загружено на GPU            49⁄49 слоёв загружено на GPU

Здесь я тестирую, как это работает на моём ПК. Мои результаты сильно отличаются от официальных тестов, они полностью противоположны. У меня немного другая конфигурация оборудования, и я тестировал разные модели, но результаты ничуть не лучше, а часто хуже. Это подтверждает пост о Первых признаках деградации Ollama.

ollama llamas Это изображение взято из блог-поста на сайте Ollama.

Кратко

Я тестировал, как новая версия Ollama распределяет большие языковые модели, которые не помещаются в мои 16ГБ видеопамяти.

  • mistral-small3.2:24b
  • qwen3:30b-a3b
  • gemma3:27b
  • qwen3:32b

Я запускал ollama run <modelname>, затем задавал простой вопрос, например, who are you?, и в отдельном терминале проверял ответы ollama ps и nvidia-smi. Всё довольно просто.

Только qwen3:30b-a3b показал тот же баланс CPU/GPU, три другие модели были перегружены CPU в новой версии. По моим тестам, к моему разочарованию, новая версия Ollama работает хуже, и эти результаты противоречат посту в блоге Ollama.

Детальное сравнение данных

Модель Старая версия: выделено видеопамяти Старая версия: CPU/GPU Новая версия: выделено видеопамяти Новая версия: CPU/GPU
mistral-small3.2:24b 14489MiB 41%/59% 14249MiB 44%/56%
qwen3:30b-a3b 15065MiB 21%/79% 14867MiB 21%/79%
gemma3:27b 13771MiB 28%/72% 14817MiB 29%/71%
qwen3:32b 14676MiB 30%/70% 15139MiB 32%/68%

Разочарован.

Полезные ссылки