Новая версия Ollama лучше предыдущей?

Новая версия Ollama потребляет больше памяти, чем предыдущая.

Планировщик моделей и распределения памяти в новой версии Ollama - v0.12.1

Мой собственный тест Планировщика моделей Оllama

Содержимое страницы

Здесь я сравниваю, сколько видеопамяти новая версия Ollama выделяет для модели по сравнению с предыдущей версией. Новая версия работает хуже.

Как указано на официальном сайте, новая версия Ollama имеет Новое распределение моделей с

Максимальное использование GPU:
Новое управление памятью в Ollama выделяет больше памяти для GPU,
увеличивая скорость генерации и обработки токенов

и приведены некоторые примеры, например:

Длинный контекст

    GPU: 1x NVIDIA GeForce RTX 4090
    Модель: gemma3:12b
    Длина контекста: 128k

Старая                                   Новая
52.02 токенов/с скорость генерации токенов 85.54 токенов/с скорость генерации токенов
19.9GiB видеопамяти                       21.4GiB видеопамяти
48⁄49 слоёв загружено на GPU            49⁄49 слоёв загружено на GPU

Здесь я тестирую, как это работает на моём ПК. Мои результаты сильно отличаются от официальных тестов, они полностью противоположны. У меня немного другая конфигурация оборудования, и я тестировал разные модели, но результаты ничуть не лучше, а часто хуже. Это подтверждает пост о Первых признаках деградации Ollama.

ollama llamas Это изображение взято из блог-поста на сайте Ollama.

Кратко

Я тестировал, как новая версия Ollama распределяет большие языковые модели, которые не помещаются в мои 16ГБ видеопамяти.

mistral-small3.2:24b
qwen3:30b-a3b
gemma3:27b
qwen3:32b

Я запускал ollama run <modelname>, затем задавал простой вопрос, например, who are you?, и в отдельном терминале проверял ответы ollama ps и nvidia-smi. Всё довольно просто.

Только qwen3:30b-a3b показал тот же баланс CPU/GPU, три другие модели были перегружены CPU в новой версии. По моим тестам, к моему разочарованию, новая версия Ollama работает хуже, и эти результаты противоречат посту в блоге Ollama.

Детальное сравнение данных

Модель	Старая версия: выделено видеопамяти	Старая версия: CPU/GPU	Новая версия: выделено видеопамяти	Новая версия: CPU/GPU
mistral-small3.2:24b	14489MiB	41%/59%	14249MiB	44%/56%
qwen3:30b-a3b	15065MiB	21%/79%	14867MiB	21%/79%
gemma3:27b	13771MiB	28%/72%	14817MiB	29%/71%
qwen3:32b	14676MiB	30%/70%	15139MiB	32%/68%

Разочарован.

Кратко

Детальное сравнение данных

Полезные ссылки