Какой LLM работает быстрее на GPU с 16 ГБ VRAM с использованием Ollama?

GPT-OSS 20B достиг наивысшей скорости в 139,93 токенов/сек, полностью помещаясь в 16 ГБ видеопамяти. Он работает на 100% на GPU без выгрузки на CPU, что делает его идеальным для приложений, критичных к скорости.

Что происходит, когда LLM превышает 16 ГБ видеопамяти?

Ollama автоматически переносит слои моделей в оперативную память и процессор системы. Это значительно снижает производительность — например, Mistral Small 3.2 24B падает до 18,51 токенов в секунду, когда 18% слоёв работают на процессоре.

Как размер контекста влияет на использование видеопамяти в Ollama?

Более крупные контекстные окна требуют больше VRAM для кэша KV. При использовании контекста 19K модель, которая помещается в VRAM с контекстом 4K, может потребовать выгрузки на CPU. Уменьшите размер контекста, если необходимо максимально использовать GPU.

Подходит ли Qwen3 14B для видеокарты с 16 ГБ памяти?

Да. Qwen3 14B использует всего 12 ГБ видеопамяти и работает полностью на GPU со скоростью 61,85 токенов в секунду. Он обеспечивает отличное выполнение инструкций и удобно помещается в 16 ГБ с возможностью увеличения размера контекста.

Следует ли использовать более крупные модели с выгрузкой на CPU или более мелкие модели, полностью работающие на GPU?

Для интерактивных сценариев использование меньших моделей, работающих на 100% на GPU, обычно предпочтительнее. Штраф за скорость при выгрузке на CPU существенный — GPT-OSS 120B со скоростью 12,64 токенов в секунду кажется медленным по сравнению с GPT-OSS 20B со скоростью 139,93 токенов в секунду.

Как использование VRAM связано со скоростью токенов в Ollama?

Модели, которые полностью помещаются в VRAM, избегают выгрузки на CPU и работают значительно быстрее. Руководство по производительности LLM объясняет ограничения VRAM и их влияние на скорость инференса.

Сравнение производительности больших языковых моделей на Ollama с видеокартой 16 ГБ VRAM

Q: Где можно найти больше бенчмарков производительности LLM и руководств по оптимизации?

Наш центр производительности LLM охватывает пропускную способность против задержки, ограничения VRAM, параллельные запросы, распределение памяти и бенчмарки по различным средам выполнения и оборудованию.

Тест скорости LLM на RTX 4080 с 16 ГБ видеопамяти

Содержимое страницы

Запуск крупных языковых моделей локально обеспечивает вам конфиденциальность, возможность работы оффлайн и отсутствие затрат на API. Этот бенчмарк раскрывает, чего именно можно ожидать от 14 популярных LLMs на Ollama на RTX 4080.

С видеокартой на 16GB VRAM я постоянно сталкивался с компромиссом: более крупные модели с потенциально лучшим качеством или более компактные модели с быстрым выводом. Для более подробной информации о производительности ЛЯМ — пропускная способность против задержки, ограничения VRAM, параллельные запросы и бенчмарки по различным средам выполнения — см. Производительность ЛЯМ: Бенчмарки, узкие места и оптимизация.

Производительность ЛЯМ на Ollama - сортировка тараканов

Кратко

Вот обновленная таблица сравнения производительности ЛЯМ на RTX 4080 16GB с Ollama 0.17.7, добавлены модели Qwen 3.5 9b, 9bq8, 27b и 35b (2026-03-09):

Модель	Используемая RAM+VRAM	Разделение CPU/GPU	Токенов/сек
gpt-oss:20b	14 ГБ	100% GPU	139.93
qwen3.5:9b	9.3 ГБ	100% GPU	90.89
ministral-3:14b	13 ГБ	100% GPU	70.13
qwen3:14b	12 ГБ	100% GPU	61.85
qwen3.5:9b-q8_0	13 ГБ	100% GPU	61.22
qwen3-coder:30b	20 ГБ	25%/75% CPU/GPU	57.17
qwen3-vl:30b-a3b	22 ГБ	30%/70% CPU/GPU	50.99
glm-4.7-flash	21 ГБ	27%/73% CPU/GPU	33.86
nemotron-3-nano:30b	25 ГБ	38%/62% CPU/GPU	32.77
qwen3.5:35b	27 ГБ	43%/57% CPU/GPU	20.66
devstral-small-2:24b	19 ГБ	18%/82% CPU/GPU	18.67
mistral-small3.2:24b	19 ГБ	18%/82% CPU/GPU	18.51
gpt-oss:120b	66 ГБ	78%/22% CPU/GPU	12.64
qwen3.5:27b	24 ГБ	43%/57% CPU/GPU	6.48

Ключевой вывод: Модели, которые полностью помещаются в VRAM, работают значительно быстрее. GPT-OSS 20B достигает 139.93 токенов/сек, в то время как GPT-OSS 120B с сильным отключением CPU ползет со скоростью 12.64 токенов/сек — разница в скорости в 11 раз.

Тестовая аппаратная конфигурация

Бенчмарк проводился на следующей системе:

GPU: NVIDIA RTX 4080 с 16GB VRAM
CPU: Intel Core i7-14700 (8 P-ядер + 12 E-ядер)
RAM: 64GB DDR5-6000

Это представляет собой типичную конфигурацию высокого уровня для локального вывода ЛЯМ. 16GB VRAM — это критическое ограничение — оно определяет, какие модели работают полностью на GPU, а какие требуют отключения CPU.

Понимание как Ollama использует ядра Intel CPU становится важным, когда модели превышают емкость VRAM, так как производительность CPU напрямую влияет на скорость вывода слоев, отключенных на CPU.

Цель этого бенчмарка

Основная цель заключалась в измерении скорости вывода в реалистичных условиях. Я уже знал из опыта, что Mistral Small 3.2 24B превосходит по качеству языка, а Qwen3 14B предлагает лучшее следование инструкциям для моих конкретных случаев использования.

Этот бенчмарк отвечает на практический вопрос: Насколько быстро каждая модель может генерировать текст, и какой штраф за скорость за превышение лимитов VRAM?

Параметры теста были следующими:

Размер контекста: 19,000 токенов. Это среднее значение в моих запросах Generate.
Запрос: “сравнить погоду и климат между столицами Австралии”
Метрика: скорость вывода (токенов в секунду во время генерации)

Установка и версия Ollama

Все тесты использовали версию Ollama 0.15.2, последнюю на момент тестирования. Позже перезапущены на Ollama v 0.17.7 — для добавления моделей Qwen3.5. Для полного списка команд Ollama, использованных в этом бенчмарке, см. Шпаргалку по Ollama.

Для быстрого восстановления — установка Ollama на Linux:

curl -fsSL https://ollama.com/install.sh | sh

Проверка установки:

ollama --version

Если вам нужно хранить модели на другом диске из-за ограничений по месту, ознакомьтесь с как переместить модели Ollama на другой диск.

Протестированные модели

Вот список протестированных моделей, в алфавитном порядке:

Модель	Параметры	Квантование	Примечания
devstral-small-2:24b	24B	Q4_K_M	Ориентированная на код
glm-4.7-flash	30B	Q4_K_M	Модель мышления
gpt-oss:20b	20B	Q4_K_M	Самая быстрая в целом
gpt-oss:120b	120B	Q4_K_M	Самая крупная протестированная
ministral-3:14b	14B	Q4_K_M	Эффективная модель Mistral
mistral-small3.2:24b	24B	Q4_K_M	Сильное качество языка
nemotron-3-nano:30b	30B	Q4_K_M	Предложение NVIDIA
qwen3:14b	14B	Q4_K_M	Лучшее следование инструкциям
qwen3.5:9b	9B	Q4_K_M	Быстрая, полностью на GPU
qwen3.5:9b-q8_0	9B	Q8_0	Высокое качество, полностью на GPU
qwen3.5:27b	27B	Q4_K_M	Отличное качество, медленная на Ollama
qwen3-vl:30b-a3b	30B	Q4_K_M	С возможностью зрения
qwen3-coder:30b	30B	Q4_K_M	Ориентированная на код
qwen3.5:35b	35B	Q4_K_M	Хорошие возможности кодирования

Для загрузки любой модели:

ollama pull gpt-oss:20b
ollama pull qwen3:14b

Понимание отключения CPU

Когда требования модели к памяти превышают доступную VRAM, Ollama автоматически распределяет слои модели между GPU и системной RAM. Результат показывает это как процентное соотношение, например, “18%/82% CPU/GPU”.

Это имеет огромные последствия для производительности. Каждая генерация токена требует передачи данных между памятью CPU и GPU — узкое место, которое усугубляется с каждым слоем, отключенным на CPU.

Из наших результатов ясно:

Модели 100% GPU: 61-140 токенов/сек
Модели 70-82% GPU: 19-51 токенов/сек
22% GPU (в основном CPU): 12.6 токенов/сек

Это объясняет, почему модель с параметрами 20B может превзойти модель с параметрами 120B в 11 раз на практике. Если вы планируете обслуживать несколько одновременных запросов, понимание как Ollama обрабатывает параллельные запросы становится существенным для планирования мощностей.

Подробные результаты бенчмарков

Модели, работающие на 100% на GPU

GPT-OSS 20B — Чемпион по скорости

ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000

NAME           SIZE     PROCESSOR    CONTEXT
gpt-oss:20b    14 GB    100% GPU     19000

eval count:           2856 token(s)
eval duration:        20.410517947s
eval rate:            139.93 tokens/s

Со скоростью 139.93 токенов/сек, GPT-OSS 20B является явным победителем для приложений, критичных к скорости. Он использует всего 14ГБ видеопамяти, оставляя запас для больших окон контекста или других задач GPU.

Qwen3 14B — Отличный баланс

ollama run qwen3:14b --verbose
/set parameter num_ctx 19000

NAME         SIZE     PROCESSOR    CONTEXT
qwen3:14b    12 GB    100% GPU     19000

eval count:           3094 token(s)
eval duration:        50.020594575s
eval rate:            61.85 tokens/s

Qwen3 14B предлагает лучшее выполнение инструкций по моему опыту, с комфортным использованием 12ГБ памяти. Со скоростью 61.85 токенов/сек, он достаточно отзывчив для интерактивного использования.

Для разработчиков, интегрирующих Qwen3 в приложения, см. LLM Structured Output with Ollama and Qwen3 для извлечения структурированных JSON-ответов.

Ministral 3 14B — Быстрый и компактный

ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000

NAME               SIZE     PROCESSOR    CONTEXT
ministral-3:14b    13 GB    100% GPU     19000

eval count:           1481 token(s)
eval duration:        21.11734277s
eval rate:            70.13 tokens/s

Модель Mistral меньшего размера обеспечивает 70.13 токенов/сек, полностью помещаясь в видеопамять. Отличный выбор, когда нужна скорость и качество семейства Mistral.

qwen3.5:9b - быстрый и новый

ollama run  qwen3.5:9b --verbose
/set parameter num_ctx 19000
сравнить погоду и климат между столицами Австралии

NAME          ID              SIZE      PROCESSOR    CONTEXT
qwen3.5:9b    6488c96fa5fa    9.3 GB    100% GPU     19000

eval count:           3802 token(s)
eval duration:        41.830174597s
eval rate:            90.89 tokens/s

qwen3.5:9b-q8_0 - квантование q8

Это квантование снижает производительность qwen3.5:9b на 30% по сравнению с q4.

ollama run  qwen3.5:9b-q8_0 --verbose
/set parameter num_ctx 19000

сравнить погоду и климат между столицами Австралии
NAME               ID              SIZE     PROCESSOR    CONTEXT
qwen3.5:9b-q8_0    441ec31e4d2a    13 GB    100% GPU     19000

eval count:           3526 token(s)
eval duration:        57.595540159s
eval rate:            61.22 tokens/s

Модели, требующие выгрузки на CPU

qwen3-coder:30b - самая быстрая из набора 30B LLM благодаря текстовой направленности

ollama run qwen3-coder:30b --verbose
/set parameter num_ctx 19000
сравнить погоду и климат между столицами Австралии

NAME               ID              SIZE     PROCESSOR          CONTEXT
qwen3-coder:30b    06c1097efce0    20 GB    25%/75% CPU/GPU    19000
22%/605%

eval count:           559 token(s)
eval duration:        9.77768875s
eval rate:            57.17 tokens/s

Qwen3-VL 30B — Лучшая производительность при частичной выгрузке

ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000

NAME                         SIZE     PROCESSOR          CONTEXT
qwen3-vl:30b-a3b-instruct    22 GB    30%/70% CPU/GPU    19000

eval count:           1450 token(s)
eval duration:        28.439319709s
eval rate:            50.99 tokens/s

Несмотря на 30% слоев на CPU, Qwen3-VL поддерживает 50.99 токенов/сек — быстрее, чем некоторые модели на 100% GPU. Возможности работы с изображениями добавляют универсальность для мультимодальных задач.

Mistral Small 3.2 24B — Компромисс между качеством и скоростью

ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000

NAME                    SIZE     PROCESSOR          CONTEXT
mistral-small3.2:24b    19 GB    18%/82% CPU/GPU    19000

eval count:           831 token(s)
eval duration:        44.899859038s
eval rate:            18.51 tokens/s

Mistral Small 3.2 предлагает лучшее качество языка, но с существенной потерей скорости. Со скоростью 18.51 токенов/сек, он заметно медленнее для интерактивного чата. Стоит того для задач, где важнее качество, чем задержка.

GLM 4.7 Flash — Модель “мыслительного” типа MoE

ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000

NAME                 SIZE     PROCESSOR          CONTEXT
glm-4.7-flash        21 GB    27%/73% CPU/GPU    19000

eval count:           2446 token(s)
eval duration:        1m12.239164004s
eval rate:            33.86 tokens/s

GLM 4.7 Flash — это модель Mixture of Experts 30B-A3B — 30B параметров всего, но только 3B активных на токен. Как “мыслительная” модель, она генерирует внутренние рассуждения перед ответами. Скорость 33.86 токенов/сек включает как токены мышления, так и вывода. Несмотря на выгрузку на CPU, архитектура MoE сохраняет её достаточно быстрой.

qwen3.5:35b - Новая модель с хорошей производительностью при самохостинге

ollama run qwen3.5:35b --verbose
/set parameter num_ctx 19000
сравнить погоду и климат между столицами Австралии

NAME           ID              SIZE     PROCESSOR          CONTEXT
qwen3.5:35b    4af949f8bdf0    27 GB    43%/57% CPU/GPU    19000

eval count:           3418 token(s)
eval duration:        2m45.458926548s
eval rate:            20.66 tokens/s

GPT-OSS 120B — Тяжеловес

ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000

NAME            SIZE     PROCESSOR          CONTEXT
gpt-oss:120b    66 GB    78%/22% CPU/GPU    19000

eval count:           5008 token(s)
eval duration:        6m36.168233066s
eval rate:            12.64 tokens/s

Запуск 120B модели на 16ГБ видеопамяти технически возможен, но болезненен. С 78% на CPU, скорость 12.64 токенов/сек делает интерактивное использование раздражающим. Лучше подходит для пакетной обработки, где задержка не важна.

qwen3.5:27b - Умный, но медленный на Ollama

ollama run qwen3.5:27b --verbose
/set parameter num_ctx 19000
сравнить погоду и климат между столицами Австралии

NAME           ID              SIZE     PROCESSOR          CONTEXT
qwen3.5:27b    193ec05b1e80    24 GB    43%/57% CPU/GPU    19000

eval count:           3370 token(s)
eval duration:        8m40.087510281s
eval rate:            6.48 tokens/s

Я тестировал qwen3.5:27b и получил отличное мнение о производительности этой модели с OpenCode. Она очень способная, знающая, с отличным вызовом инструментов, хотя и медленная на моем компьютере на Ollama. Я пробовал другие платформы самохостинга LLM и получал значительно более высокие скорости. Я думаю, пришло время расстаться с Ollama. Напишу об этом немного позже.

Практические рекомендации

Для интерактивного чата

Используйте модели, которые полностью помещаются в видеопамять:

GPT-OSS 20B — Максимальная скорость (139.93 т/с)
Ministral 3 14B — Хорошая скорость с качеством Mistral (70.13 т/с)
Qwen3 14B — Лучшее выполнение инструкций (61.85 т/с)

Для лучшего опыта чата рассмотрите Открытые интерфейсы чата для локального Ollama.

Для пакетной обработки

Это снова на моем оборудовании - 14ГБ видеопамяти.

Когда скорость менее критична:

Mistral Small 3.2 24B — Превосходное качество языка
Qwen3-VL 30B — Возможности работы с изображениями и текстом

Когда скорость вообще не критична:

Qwen3.5:35b - Хорошие возможности кодирования
Qwen3.5:27b - Очень хорошая, но медленная на Ollama. У меня был значительный успех в хостинге этой модели на llama.cpp.

Для разработки и кодирования

Если вы создаете приложения с Ollama:

Альтернативные варианты хостинга

Если вас беспокоят ограничения Ollama (см. Озабоченности по поводу ухудшения Ollama), исследуйте другие варианты в Руководстве по локальному хостингу LLM или сравните Docker Model Runner vs Ollama.

Заключение

С 16ГБ видеопамяти вы можете запускать способные LLM на впечатляющих скоростях — если выбираете мудро. Основные выводы:

Оставайтесь в пределах лимитов видеопамяти для интерактивного использования. 20B модель со скоростью 140 токенов/сек побеждает 120B модель со скоростью 12 токенов/сек для большинства практических целей.
GPT-OSS 20B побеждает по чистой скорости, но Qwen3 14B предлагает лучший баланс скорости и возможностей для выполнения инструкций.
Выгрузка на CPU работает, но ожидайте замедления в 3-10 раз. Приемлемо для пакетной обработки, раздражающе для чата.
Размер контекста важен. Используемый здесь контекст 19К значительно увеличивает использование видеопамяти. Уменьшайте контекст для лучшего использования GPU.

Для поиска на основе ИИ, сочетающего локальные LLM с веб-результатами, см. Самохостинг Perplexica с Ollama.

Чтобы изучить больше бенчмарков, компромиссов между видеопамятью и пропускной способностью, а также настройки производительности в Ollama и других средах выполнения, посетите наш Центр производительности LLM: Бенчмарки, узкие места и оптимизация.