Планировщик моделей и распределения памяти в новой версии Ollama - v0.12.1
Мой собственный тест Планировщика моделей Оllama
Здесь я сравниваю, сколько видеопамяти новая версия Ollama выделяет для модели по сравнению с предыдущей версией. Новая версия работает хуже.
Как указано на официальном сайте, новая версия Ollama имеет Новое распределение моделей
с
Максимальное использование GPU:
Новое управление памятью в Ollama выделяет больше памяти для GPU,
увеличивая скорость генерации и обработки токенов
и приведены некоторые примеры, например:
Длинный контекст
GPU: 1x NVIDIA GeForce RTX 4090
Модель: gemma3:12b
Длина контекста: 128k
Старая Новая
52.02 токенов/с скорость генерации токенов 85.54 токенов/с скорость генерации токенов
19.9GiB видеопамяти 21.4GiB видеопамяти
48⁄49 слоёв загружено на GPU 49⁄49 слоёв загружено на GPU
Здесь я тестирую, как это работает на моём ПК. Мои результаты сильно отличаются от официальных тестов, они полностью противоположны. У меня немного другая конфигурация оборудования, и я тестировал разные модели, но результаты ничуть не лучше, а часто хуже. Это подтверждает пост о Первых признаках деградации Ollama.
Это изображение взято из блог-поста на сайте Ollama.
Кратко
Я тестировал, как новая версия Ollama распределяет большие языковые модели, которые не помещаются в мои 16ГБ видеопамяти.
- mistral-small3.2:24b
- qwen3:30b-a3b
- gemma3:27b
- qwen3:32b
Я запускал ollama run <modelname>
, затем задавал простой вопрос, например, who are you?
, и в отдельном терминале проверял ответы ollama ps
и nvidia-smi
. Всё довольно просто.
Только qwen3:30b-a3b показал тот же баланс CPU/GPU, три другие модели были перегружены CPU в новой версии. По моим тестам, к моему разочарованию, новая версия Ollama работает хуже, и эти результаты противоречат посту в блоге Ollama.
Детальное сравнение данных
Модель | Старая версия: выделено видеопамяти | Старая версия: CPU/GPU | Новая версия: выделено видеопамяти | Новая версия: CPU/GPU |
---|---|---|---|---|
mistral-small3.2:24b | 14489MiB | 41%/59% | 14249MiB | 44%/56% |
qwen3:30b-a3b | 15065MiB | 21%/79% | 14867MiB | 21%/79% |
gemma3:27b | 13771MiB | 28%/72% | 14817MiB | 29%/71% |
qwen3:32b | 14676MiB | 30%/70% | 15139MiB | 32%/68% |
Разочарован.