Какая LLM работает быстрее всего на GPU с 16 ГБ VRAM с использованием Ollama?

GPT-OSS 20B продемонстрировал максимальную скорость — 139,93 токена/сек, полностью помещаясь в 16 ГБ VRAM. Модель работает полностью на GPU без разгрузки на CPU, что делает её идеальной для задач, критичных к скорости.

Что происходит, когда LLM превышает 16 ГБ видеопамяти?

Ollama автоматически переносит слои модели в системную память и на CPU. Это существенно снижает производительность — например, скорость Mistral Small 3.2 24B падает до 18,51 токена/сек, когда 18% слоев обрабатываются на CPU.

Как размер контекста влияет на использование VRAM в Ollama?

Большие контекстные окна требуют большего объема VRAM для кеша KV. При использовании контекста 19K модель, помещающаяся в VRAM с контекстом 4K, может потребовать выгрузки на CPU. Уменьшите размер контекста, если необходимо максимизировать использование GPU.

Достаточно ли Qwen3 14B для видеокарты с 16 ГБ видеопамяти?

Да. Модель Qwen3 14B использует всего 12 ГБ видеопамяти и работает полностью на GPU со скоростью 61,85 токена в секунду. Она демонстрирует превосходное следование инструкциям и комфортно помещается в 16 ГБ видеопамяти, оставляя место для увеличения размера контекста.

Следует ли использовать более крупные модели с разгрузкой на CPU или более маленькие модели, работающие полностью на GPU?

Для интерактивных сценариев использования обычно лучше подходят более маленькие модели, работающие полностью на GPU. Потеря скорости из-за выгрузки вычислений на CPU существенна: GPT-OSS 120B при 12,64 токенах в секунду ощущается заметно медленнее по сравнению с GPT-OSS 20B, достигающим 139,93 токенов в секунду.

Где я могу найти больше бенчмарков производительности LLM и руководств по оптимизации?

Наш центр компетенций по производительности LLM охватывает соотношение пропускной способности и задержки, ограничения видеопамяти, параллельные запросы, выделение памяти, а также сравнительные тесты производительности в различных средах выполнения и на разном оборудовании.

Как использование VRAM влияет на скорость генерации токенов в Ollama?

Модели, которые полностью помещаются в VRAM, избегают выгрузки на CPU и работают значительно быстрее. Руководство по производительности LLM объясняет ограничения VRAM и их влияние на скорость инференса.

Сравнение производительности LLM на Ollama на GPU с 16 ГБ VRAM

Тест скорости LLM на RTX 4080 с 16 ГБ VRAM

Содержимое страницы

Запуск больших языковых моделей локально обеспечивает конфиденциальность, возможность работы автономно и нулевые затраты на API. Это тестирование показывает, чего именно можно ожидать от 14 популярных LLM в Ollama на RTX 4080.

Имея видеокарту с 16 ГБ видеопамяти (VRAM), я постоянно сталкивался с компромиссом: большие модели с потенциально более высоким качеством или маленькие модели с более быстрым инференсом. Подробнее о производительности LLM — пропускной способности против задержки, ограничениях VRAM, параллельных запросах и тестировании различных сред выполнения — см. Производительность LLM: тестирование, узкие места и оптимизация.

В данной статье фокус сделан на Ollama. Что касается тех же GPU класса 16 ГБ, протестированных с llama.cpp при контексте 19K, 32K и 64K (VRAM, загрузка GPU, токены в секунду для плотных и MoE чекпоинтов), см. Тестирование LLM на 16 ГБ VRAM с llama.cpp (скорость и контекст).

Как только пропускная способность и распределение VRAM выглядят приемлемыми, для агентовских рабочих нагрузок все еще нужны разумные пресеты температуры и штрафов для стеков Qwen и Gemma; см. Параметры агентовского инференса для Qwen и Gemma.

Производительность LLM в Ollama - ранжирование тараканов

TL;DR

Вот обновленная таблица сравнения производительности LLM на RTX 4080 16GB с Ollama 0.17.7, (2026-03-09) добавлены модели Qwen 3.5 9b, 9bq8, 27b и 35b:

Модель	Использовано RAM+VRAM	Распределение CPU/GPU	Токенов/сек
gpt-oss:20b	14 ГБ	100% GPU	139.93
qwen3.5:9b	9.3 ГБ	100% GPU	90.89
ministral-3:14b	13 ГБ	100% GPU	70.13
qwen3:14b	12 ГБ	100% GPU	61.85
qwen3.5:9b-q8_0	13 ГБ	100% GPU	61.22
qwen3-coder:30b	20 ГБ	25%/75% CPU/GPU	57.17
qwen3-vl:30b-a3b	22 ГБ	30%/70% CPU/GPU	50.99
glm-4.7-flash	21 ГБ	27%/73% CPU/GPU	33.86
nemotron-3-nano:30b	25 ГБ	38%/62% CPU/GPU	32.77
qwen3.5:35b	27 ГБ	43%/57% CPU/GPU	20.66
devstral-small-2:24b	19 ГБ	18%/82% CPU/GPU	18.67
mistral-small3.2:24b	19 ГБ	18%/82% CPU/GPU	18.51
gpt-oss:120b	66 ГБ	78%/22% CPU/GPU	12.64
qwen3.5:27b	24 ГБ	43%/57% CPU/GPU	6.48

Ключевой вывод: Модели, которые помещаются полностью в VRAM, работают значительно быстрее. GPT-OSS 20B достигает 139.93 токенов/сек, в то время как GPT-OSS 120B с большой разгрузкой на CPU ползет со скоростью 12.64 токенов/сек — разница в скорости составляет 11 раз.

Конфигурация тестового оборудования

Тестирование проводилось на следующей системе:

GPU: NVIDIA RTX 4080 с 16 ГБ VRAM
CPU: Intel Core i7-14700 (8 P-ядер + 12 E-ядер)
RAM: 64 ГБ DDR5-6000

Это представляет собой распространенную высокопроизводительную потребительскую конфигурацию для локального инференса LLM. 16 ГБ VRAM — это критическое ограничение, определяющее, какие модели работают полностью на GPU, а какие требуют разгрузки на CPU.

Понимание того, как Ollama использует ядра процессора Intel, становится важным, когда модели превышают емкость VRAM, поскольку производительность CPU напрямую влияет на скорость инференса разгруженных слоев.

Цель данного тестирования

Основная цель заключалась в измерении скорости инференса в реалистичных условиях. Я уже знал из опыта, что Mistral Small 3.2 24B превосходит в качестве языка, в то время как Qwen3 14B предлагает превосходное следование инструкциям для моих конкретных случаев использования.

Данное тестирование отвечает на практический вопрос: Как быстро каждая модель может генерировать текст и какова цена скорости при превышении лимитов VRAM?

Параметры теста были следующими:

Размер контекста: 19 000 токенов. Это среднее значение в моих запросах Generate.
Промпт: “сравните погоду и климат в столицах Австралии”
Метрика: скорость оценки (токенов в секунду во время генерации)

Установка и версия Ollama

Все тесты использовали Ollama версии 0.15.2, последнюю версию на момент тестирования. Позже было перезапущено на Ollama v 0.17.7 — чтобы добавить модели Qwen3.5. Для полного справочника команд Ollama, использованных в этом тестировании, см. Шпаргалку Ollama.

Для быстрого повторения — установка Ollama на Linux:

curl -fsSL https://ollama.com/install.sh | sh

Проверка установки:

ollama --version

Если вам нужно хранить модели на другом диске из-за нехватки места, посмотрите как переместить модели Ollama на другой диск.

Тестируемые модели

Следующие модели были протестированы, в алфавитном порядке:

Модель	Параметры	Квантование	Примечания
devstral-small-2:24b	24B	Q4_K_M	Ориентация на код
glm-4.7-flash	30B	Q4_K_M	Модель для размышлений
gpt-oss:20b	20B	Q4_K_M	Самая быстрая в целом
gpt-oss:120b	120B	Q4_K_M	Самая большая из протестированных
ministral-3:14b	14B	Q4_K_M	Эффективная модель от Mistral
mistral-small3.2:24b	24B	Q4_K_M	Высокое качество языка
nemotron-3-nano:30b	30B	Q4_K_M	Предложение от NVIDIA
qwen3:14b	14B	Q4_K_M	Лучшее следование инструкциям
qwen3.5:9b	9B	Q4_K_M	Быстрая, полностью на GPU
qwen3.5:9b-q8_0	9B	Q8_0	Более высокое качество, полностью на GPU
qwen3.5:27b	27B	Q4_K_M	Отличное качество, медленная в Ollama
qwen3-vl:30b-a3b	30B	Q4_K_M	Поддержка зрения
qwen3-coder:30b	30B	Q4_K_M	Ориентация на код
qwen3.5:35b	35B	Q4_K_M	Хорошие возможности для кода

Для загрузки любой модели:

ollama pull gpt-oss:20b
ollama pull qwen3:14b

Понимание разгрузки на CPU

Когда требования модели к памяти превышают доступную VRAM, Ollama автоматически распределяет слои модели между GPU и системной памятью. Вывод показывает это как процентное соотношение, например, “18%/82% CPU/GPU”.

Это имеет огромные последствия для производительности. Каждая генерация токена требует передачи данных между памятью CPU и GPU — это узкое место, которое усугубляется с каждым слоем, разгруженным на CPU.

Узор ясен из наших результатов:

Модели 100% GPU: 61-140 токенов/сек
Модели 70-82% GPU: 19-51 токенов/сек
22% GPU (в основном CPU): 12.6 токенов/сек

Это объясняет, почему модель с 20B параметров может превзойти модель с 120B параметров в 11 раз на практике. Если вы планируете обслуживать несколько параллельных запросов, понимание того, как Ollama обрабатывает параллельные запросы, становится essential для планирования емкости.

Детальные результаты тестирования

Модели, работающие на 100% на GPU

GPT-OSS 20B — Чемпион по скорости

ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000

NAME           SIZE     PROCESSOR    CONTEXT
gpt-oss:20b    14 GB    100% GPU     19000

eval count:           2856 token(s)
eval duration:        20.410517947s
eval rate:            139.93 tokens/s

При 139.93 токенах/сек GPT-OSS 20B является явным победителем для приложений, критичных к скорости. Она использует всего 14 ГБ VRAM, оставляя запас для больших контекстных окон или других рабочих нагрузок GPU.

Qwen3 14B — Отличный баланс

ollama run qwen3:14b --verbose
/set parameter num_ctx 19000

NAME         SIZE     PROCESSOR    CONTEXT
qwen3:14b    12 GB    100% GPU     19000

eval count:           3094 token(s)
eval duration:        50.020594575s
eval rate:            61.85 tokens/s

Qwen3 14B предлагает лучшее следование инструкциям по моему опыту, с комфортным потреблением памяти в 12 ГБ. При 61.85 токенах/сек она достаточно отзывчива для интерактивного использования.

Для разработчиков, интегрирующих Qwen3 в приложения, см. Структурированный вывод LLM с Ollama и Qwen3 для извлечения структурированных JSON-ответов.

Ministral 3 14B — Быстрая и компактная

ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000

NAME               SIZE     PROCESSOR    CONTEXT
ministral-3:14b    13 GB    100% GPU     19000

eval count:           1481 token(s)
eval duration:        21.11734277s
eval rate:            70.13 tokens/s

Меньшая модель от Mistral обеспечивает 70.13 токенов/сек, полностью помещаясь в VRAM. Solid выбор, когда вам нужно качество семейства Mistral при максимальной скорости.

qwen3.5:9b - быстрая и новая

ollama run  qwen3.5:9b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME          ID              SIZE      PROCESSOR    CONTEXT
qwen3.5:9b    6488c96fa5fa    9.3 GB    100% GPU     19000

eval count:           3802 token(s)
eval duration:        41.830174597s
eval rate:            90.89 tokens/s

qwen3.5:9b-q8_0 - квантование q8

Это квантование снижает производительность qwen3.5:9b на 30% по сравнению с q4.

ollama run  qwen3.5:9b-q8_0 --verbose
/set parameter num_ctx 19000

compare weather and climate between capital cities of australia
NAME               ID              SIZE     PROCESSOR    CONTEXT
qwen3.5:9b-q8_0    441ec31e4d2a    13 GB    100% GPU     19000

eval count:           3526 token(s)
eval duration:        57.595540159s
eval rate:            61.22 tokens/s

Модели, требующие разгрузки на CPU

qwen3-coder:30b - самая быстрая из набора LLM 30b, так как только текстовая

ollama run qwen3-coder:30b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME               ID              SIZE     PROCESSOR          CONTEXT
qwen3-coder:30b    06c1097efce0    20 GB    25%/75% CPU/GPU    19000
22%/605%

eval count:           559 token(s)
eval duration:        9.77768875s
eval rate:            57.17 tokens/s

Qwen3-VL 30B — Лучшая производительность при частичной разгрузке

ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000

NAME                         SIZE     PROCESSOR          CONTEXT
qwen3-vl:30b-a3b-instruct    22 GB    30%/70% CPU/GPU    19000

eval count:           1450 token(s)
eval duration:        28.439319709s
eval rate:            50.99 tokens/s

Несмотря на то, что 30% слоев находятся на CPU, Qwen3-VL поддерживает 50.99 токенов/сек — быстрее, чем некоторые модели 100% GPU. Возможность обработки изображений добавляет универсальность для мультимодальных задач.

Mistral Small 3.2 24B — Компромисс между качеством и скоростью

ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000

NAME                    SIZE     PROCESSOR          CONTEXT
mistral-small3.2:24b    19 GB    18%/82% CPU/GPU    19000

eval count:           831 token(s)
eval duration:        44.899859038s
eval rate:            18.51 tokens/s

Mistral Small 3.2 предлагает превосходное качество языка, но платит высокую цену за скорость. При 18.51 токенах/сек она ощущается заметно медленнее для интерактивного чата. Стоит того для задач, где качество важнее задержки.

GLM 4.7 Flash — MoE модель для размышлений

ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000

NAME                 SIZE     PROCESSOR          CONTEXT
glm-4.7-flash        21 GB    27%/73% CPU/GPU    19000

eval count:           2446 token(s)
eval duration:        1m12.239164004s
eval rate:            33.86 tokens/s

GLM 4.7 Flash — это модель Mixture of Experts с 30B-A3B — 30B общих параметров, но только 3B активных на токен. Как “модель для размышлений”, она генерирует внутреннее обоснование перед ответами. 33.86 токенов/сек включает как токены размышления, так и токены вывода. Несмотря на разгрузку на CPU, архитектура MoE сохраняет ее reasonably быстрой.

qwen3.5:35b - Новая модель с приличной производительностью для самохостинга

ollama run qwen3.5:35b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME           ID              SIZE     PROCESSOR          CONTEXT
qwen3.5:35b    4af949f8bdf0    27 GB    43%/57% CPU/GPU    19000

eval count:           3418 token(s)
eval duration:        2m45.458926548s
eval rate:            20.66 tokens/s

GPT-OSS 120B — Тяжеловес

ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000

NAME            SIZE     PROCESSOR          CONTEXT
gpt-oss:120b    66 GB    78%/22% CPU/GPU    19000

eval count:           5008 token(s)
eval duration:        6m36.168233066s
eval rate:            12.64 tokens/s

Запуск модели 120B на 16 ГБ VRAM технически возможен, но мучителен. При 78% на CPU скорость 12.64 токенов/сек делает интерактивное использование разочаровывающим. Лучше подходит для пакетной обработки, где задержка не имеет значения.

qwen3.5:27b - Умная, но медленная в Ollama

ollama run qwen3.5:27b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME           ID              SIZE     PROCESSOR          CONTEXT
qwen3.5:27b    193ec05b1e80    24 GB    43%/57% CPU/GPU    19000

eval count:           3370 token(s)
eval duration:        8m40.087510281s
eval rate:            6.48 tokens/s

Я протестировал qwen3.5:27b и получил крайне хорошее мнение о производительности этой модели с OpenCode. Она очень способна, информирована, отлично справляется с вызовом инструментов, хотя она медленная на моей машине в Ollama. Я пробовал другие платформы для самохостинга LLM и получил гораздо более высокие скорости. Я думаю, что пришло время расстаться с Ollama. Напишу об этом немного позже.

Практические рекомендации

Для интерактивного чата

Используйте модели, которые помещаются на 100% в VRAM:

GPT-OSS 20B — Максимальная скорость (139.93 т/с)
Ministral 3 14B — Хорошая скорость с качеством Mistral (70.13 т/с)
Qwen3 14B — Лучшее следование инструкциям (61.85 т/с)

Для лучшего опыта чата рассмотрите Открытые интерфейсы чата для локального Ollama.

Для пакетной обработки

Это снова на моем оборудовании — 14 ГБ VRAM.

Когда скорость менее критична:

Mistral Small 3.2 24B — Превосходное качество языка
Qwen3-VL 30B — Возможность обработки изображений и текста

Когда скорость совсем не критична:

Qwen3.5:35b - Хорошие возможности для кода
Qwen3.5:27b - Крайне хорошая, но медленная в Ollama. У меня был большой успех в хостинге этой модели на llama.cpp.

Для разработки и программирования

Если вы создаете приложения с Ollama:

Альтернативные варианты хостинга

Если вас беспокоят ограничения Ollama (см. Беспокойства по поводу “ущемления” Ollama), рассмотрите другие варианты в Руководстве по локальному хостингу LLM или сравните Docker Model Runner против Ollama.

Заключение

С 16 ГБ VRAM вы можете запускать capable LLM с впечатляющей скоростью — если выберете мудро. Ключевые выводы:

Оставайтесь в пределах лимитов VRAM для интерактивного использования. Модель 20B при 140 токенах/сек превосходит модель 120B при 12 токенах/сек для большинства практических целей.
GPT-OSS 20B побеждает по чистой скорости, но Qwen3 14B предлагает лучший баланс скорости и возможностей для задач следования инструкциям.
Разгрузка на CPU работает, но ожидайте замедление в 3-10 раз. Приемлемо для пакетной обработки, разочаровывающе для чата.
Размер контекста имеет значение. Контекст 19K, использованный здесь, значительно увеличивает использование VRAM. Уменьшите контекст для лучшей утилизации GPU.

Для поиска с ИИ, сочетающего локальные LLM с результатами из веба, см. самохостинг Perplexica с Ollama.

Чтобы изучить больше тестирований, компромиссы между VRAM и пропускной способностью, а также настройку производительности в Ollama и других средах выполнения, проверьте наш хаб Производительность LLM: тестирование, узкие места и оптимизация.

Сравнение производительности LLM на Ollama на GPU с 16 ГБ VRAM

TL;DR

Конфигурация тестового оборудования

Цель данного тестирования

Установка и версия Ollama

Тестируемые модели

Понимание разгрузки на CPU

Детальные результаты тестирования

Модели, работающие на 100% на GPU

GPT-OSS 20B — Чемпион по скорости

Qwen3 14B — Отличный баланс

Ministral 3 14B — Быстрая и компактная

qwen3.5:9b - быстрая и новая

qwen3.5:9b-q8_0 - квантование q8

Модели, требующие разгрузки на CPU

qwen3-coder:30b - самая быстрая из набора LLM 30b, так как только текстовая

Qwen3-VL 30B — Лучшая производительность при частичной разгрузке

Mistral Small 3.2 24B — Компромисс между качеством и скоростью

GLM 4.7 Flash — MoE модель для размышлений

qwen3.5:35b - Новая модель с приличной производительностью для самохостинга

GPT-OSS 120B — Тяжеловес

qwen3.5:27b - Умная, но медленная в Ollama

Практические рекомендации

Для интерактивного чата

Для пакетной обработки

Для разработки и программирования

Альтернативные варианты хостинга

Заключение

Полезные ссылки

Внутренние ресурсы

Внешние ссылки

TL;DR

Конфигурация тестового оборудования

Цель данного тестирования

Установка и версия Ollama

Тестируемые модели

Понимание разгрузки на CPU

Детальные результаты тестирования

Модели, работающие на 100% на GPU

GPT-OSS 20B — Чемпион по скорости

Qwen3 14B — Отличный баланс

Ministral 3 14B — Быстрая и компактная

qwen3.5:9b - быстрая и новая

qwen3.5:9b-q8_0 - квантование q8

Модели, требующие разгрузки на CPU

qwen3-coder:30b - самая быстрая из набора LLM 30b, так как только текстовая

Qwen3-VL 30B — Лучшая производительность при частичной разгрузке

Mistral Small 3.2 24B — Компромисс между качеством и скоростью

GLM 4.7 Flash — MoE модель для размышлений

qwen3.5:35b - Новая модель с приличной производительностью для самохостинга

GPT-OSS 120B — Тяжеловес

qwen3.5:27b - Умная, но медленная в Ollama

Практические рекомендации

Для интерактивного чата

Для пакетной обработки

Для разработки и программирования

Альтернативные варианты хостинга

Заключение

Полезные ссылки

Внутренние ресурсы

Внешние ссылки

Подписаться