Распределение памяти и планирование моделей в новой версии Ollama - v0.12.1
Мое собственное тестирование планирования моделей Ollama
Здесь я сравниваю, сколько VRAM новая версия Ollama выделяет для модели по сравнению с предыдущей версией. Новая версия работает хуже.
Для более подробной информации о пропускной способности, задержках, VRAM и бенчмарках на различных платформах и оборудовании, см. Производительность LLM: Бенчмарки, Узкие Места и Оптимизация.
Как указано на официальном сайте, новая версия Ollama имеет Новое распределение моделей с
Максимизация использования GPU:
Новое управление памятью Ollama выделяет больше памяти для GPU,
увеличивая скорость генерации и обработки токенов
и приведены некоторые примеры, например:
Длинный контекст
GPU: 1x NVIDIA GeForce RTX 4090
Модель: gemma3:12b
Длина контекста: 128k
Старая Новая
52.02 токенов/с скорость генерации токенов 85.54 токенов/с скорость генерации токенов
19.9GiB VRAM 21.4GiB VRAM
48⁄49 слоев загружено на GPU 49⁄49 слоев загружено на GPU
Здесь я тестирую, как это работает на моем ПК. Мои результаты сильно отличаются от официальных тестов, они полностью противоположны. У меня немного другая конфигурация оборудования, и я тестировал разные модели, но результаты ничуть не лучше, а часто хуже. Это подтверждает пост о Первых Признаках Ухудшения Ollama.
Это изображение взято из блог-поста на сайте Ollama.
TL;DR
Я тестировал, как новая версия Ollama распределяет LLM, которые не помещаются в мои 16GB VRAM.
- mistral-small3.2:24b
- qwen3:30b-a3b
- gemma3:27b
- qwen3:32b
Я запускал ollama run <modelname>, затем задавал простой вопрос, например who are you?, и в отдельном терминале проверял ответы ollama ps и nvidia-smi. Все довольно просто.
Только qwen3:30b-a3b показал тот же баланс CPU/GPU, три других модели были перегружены на CPU в новой версии. По моим тестам, к моему разочарованию, новая версия Ollama работает хуже, и эти результаты противоречат посту в блоге Ollama.
Детальное сравнение данных
| Модель | Старая вер: выделено VRAM | Старая вер: CPU/GPU | Новая вер: выделено VRAM | Новая вер: CPU/GPU |
|---|---|---|---|---|
| mistral-small3.2:24b | 14489MiB | 41%/59% | 14249MiB | 44%/56% |
| qwen3:30b-a3b | 15065MiB | 21%/79% | 14867MiB | 21%/79% |
| gemma3:27b | 13771MiB | 28%/72% | 14817MiB | 29%/71% |
| qwen3:32b | 14676MiB | 30%/70% | 15139MiB | 32%/68% |
Разочарован.
Для более подробных бенчмарков, настройки памяти и рекомендаций по производительности, см. наш Центр Производительности LLM: Бенчмарки, Узкие Места и Оптимизация.