Распределение памяти и планирование моделей в новой версии Ollama - v0.12.1

Мое собственное тестирование планирования моделей Ollama

Содержимое страницы

Здесь я сравниваю, сколько VRAM новая версия Ollama выделяет для модели по сравнению с предыдущей версией. Новая версия работает хуже.

Для более подробной информации о пропускной способности, задержках, VRAM и бенчмарках на различных платформах и оборудовании, см. Производительность LLM: Бенчмарки, Узкие Места и Оптимизация.

Как указано на официальном сайте, новая версия Ollama имеет Новое распределение моделей с

Максимизация использования GPU:
Новое управление памятью Ollama выделяет больше памяти для GPU,
увеличивая скорость генерации и обработки токенов

и приведены некоторые примеры, например:

Длинный контекст

    GPU: 1x NVIDIA GeForce RTX 4090
    Модель: gemma3:12b
    Длина контекста: 128k

Старая                                   Новая
52.02 токенов/с скорость генерации токенов 85.54 токенов/с скорость генерации токенов
19.9GiB VRAM                       21.4GiB VRAM
48⁄49 слоев загружено на GPU            49⁄49 слоев загружено на GPU

Здесь я тестирую, как это работает на моем ПК. Мои результаты сильно отличаются от официальных тестов, они полностью противоположны. У меня немного другая конфигурация оборудования, и я тестировал разные модели, но результаты ничуть не лучше, а часто хуже. Это подтверждает пост о Первых Признаках Ухудшения Ollama.

ollama llamas Это изображение взято из блог-поста на сайте Ollama.

TL;DR

Я тестировал, как новая версия Ollama распределяет LLM, которые не помещаются в мои 16GB VRAM.

  • mistral-small3.2:24b
  • qwen3:30b-a3b
  • gemma3:27b
  • qwen3:32b

Я запускал ollama run <modelname>, затем задавал простой вопрос, например who are you?, и в отдельном терминале проверял ответы ollama ps и nvidia-smi. Все довольно просто.

Только qwen3:30b-a3b показал тот же баланс CPU/GPU, три других модели были перегружены на CPU в новой версии. По моим тестам, к моему разочарованию, новая версия Ollama работает хуже, и эти результаты противоречат посту в блоге Ollama.

Детальное сравнение данных

Модель Старая вер: выделено VRAM Старая вер: CPU/GPU Новая вер: выделено VRAM Новая вер: CPU/GPU
mistral-small3.2:24b 14489MiB 41%/59% 14249MiB 44%/56%
qwen3:30b-a3b 15065MiB 21%/79% 14867MiB 21%/79%
gemma3:27b 13771MiB 28%/72% 14817MiB 29%/71%
qwen3:32b 14676MiB 30%/70% 15139MiB 32%/68%

Разочарован.

Для более подробных бенчмарков, настройки памяти и рекомендаций по производительности, см. наш Центр Производительности LLM: Бенчмарки, Узкие Места и Оптимизация.

Полезные ссылки