Лучшие языковые модели для Ollama на GPU с 16 ГБ видеопамяти

Тест скорости LLM на RTX 4080 с 16 ГБ видеопамяти

Содержимое страницы

Запуск крупных языковых моделей локально обеспечивает вам конфиденциальность, возможность работы оффлайн и отсутствие затрат на API. Этот бенчмарк раскрывает, чего именно можно ожидать от 9 популярных LLMs на Ollama на RTX 4080.

С видеокартой на 16ГБ VRAM я постоянно сталкивался с компромиссом: большие модели с потенциально лучшим качеством или маленькие модели с более быстрой инференцией.

7 llamas - Сравнение LLMs на Ollama

TL;DR

Вот таблица сравнения производительности LLM на RTX 4080 16GB с Ollama 0.15.2:

Модель Используемая RAM+VRAM Разделение CPU/GPU Токенов/сек
gpt-oss:20b 14 ГБ 100% GPU 139.93
ministral-3:14b 13 ГБ 100% GPU 70.13
qwen3:14b 12 ГБ 100% GPU 61.85
qwen3-vl:30b-a3b 22 ГБ 30%/70% 50.99
glm-4.7-flash 21 ГБ 27%/73% 33.86
nemotron-3-nano:30b 25 ГБ 38%/62% 32.77
devstral-small-2:24b 19 ГБ 18%/82% 18.67
mistral-small3.2:24b 19 ГБ 18%/82% 18.51
gpt-oss:120b 66 ГБ 78%/22% 12.64

Ключевой вывод: Модели, которые полностью помещаются в VRAM, работают значительно быстрее. GPT-OSS 20B достигает 139.93 токенов/сек, в то время как GPT-OSS 120B с сильным отключением CPU ползет со скоростью 12.64 токенов/сек — разница в скорости в 11 раз.

Тестовое оборудование

Бенчмарк проводился на следующей системе:

  • GPU: NVIDIA RTX 4080 с 16ГБ VRAM
  • CPU: Intel Core i7-14700 (8 P-ядер + 12 E-ядер)
  • RAM: 64ГБ DDR5-6000

Это представляет собой типичную конфигурацию высокопроизводительного потребительского оборудования для локальной инференции LLM. 16ГБ VRAM — это критическое ограничение — оно определяет, какие модели работают полностью на GPU, а какие требуют отключения CPU.

Понимание как Ollama использует ядра Intel CPU становится важным, когда модели превышают объем VRAM, так как производительность CPU напрямую влияет на скорость инференции отключенных слоев.

Цель этого бенчмарка

Основная цель заключалась в измерении скорости инференции в реалистичных условиях. Я уже знал из опыта, что Mistral Small 3.2 24B превосходит по качеству языка, а Qwen3 14B предлагает лучшее выполнение инструкций для моих конкретных случаев использования.

Этот бенчмарк отвечает на практический вопрос: Насколько быстро каждая модель может генерировать текст, и какой штраф за скорость за превышение лимитов VRAM?

Параметры теста были:

  • Размер контекста: 19,000 токенов
  • Запрос: “сравнить погоду и климат между столицами Австралии”
  • Метрика: скорость оценки (токенов в секунду во время генерации)

Установка и версия Ollama

Все тесты использовали версию Ollama 0.15.2, последнюю на момент тестирования. Для полного списка команд Ollama, использованных в этом бенчмарке, см. шпаргалку Ollama.

Для установки Ollama на Linux:

curl -fsSL https://ollama.com/install.sh | sh

Проверка установки:

ollama --version

Если вам нужно хранить модели на другом диске из-за ограничений по месту, ознакомьтесь с как переместить модели Ollama на другой диск.

Протестированные модели

Были протестированы следующие модели:

Модель Параметры Квантование Примечания
gpt-oss:20b 20B Q4_K_M Самая быстрая в целом
gpt-oss:120b 120B Q4_K_M Самая большая протестированная
qwen3:14b 14B Q4_K_M Лучшее выполнение инструкций
qwen3-vl:30b-a3b 30B Q4_K_M С возможностью зрения
ministral-3:14b 14B Q4_K_M Эффективная модель Mistral
mistral-small3.2:24b 24B Q4_K_M Сильное качество языка
devstral-small-2:24b 24B Q4_K_M Ориентированная на код
glm-4.7-flash 30B Q4_K_M Модель “мышления”
nemotron-3-nano:30b 30B Q4_K_M Предложение NVIDIA

Для загрузки любой модели:

ollama pull gpt-oss:20b
ollama pull qwen3:14b

Понимание отключения CPU

Когда требования модели к памяти превышают доступный объем VRAM, Ollama автоматически распределяет слои модели между GPU и системной RAM. Вывод показывает это как процентное соотношение, например, “18%/82% CPU/GPU”.

Это имеет огромные последствия для производительности. Каждая генерация токена требует передачи данных между памятью CPU и GPU — узкое место, которое усугубляется с каждым слоем, отключенным на CPU.

Из наших результатов очевидна закономерность:

  • 100% GPU модели: 61-140 токенов/сек
  • 70-82% GPU модели: 19-51 токенов/сек
  • 22% GPU (в основном CPU): 12.6 токенов/сек

Это объясняет, почему модель с 20B параметрами может превзойти модель с 120B параметрами в 11 раз на практике. Если вы планируете обслуживать несколько одновременных запросов, понимание как Ollama обрабатывает параллельные запросы становится существенным для планирования мощности.

Подробные результаты бенчмарка

Модели, работающие 100% на GPU

GPT-OSS 20B — Чемпион по скорости

ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000

NAME           SIZE     PROCESSOR    CONTEXT
gpt-oss:20b    14 GB    100% GPU     19000

eval count:           2856 token(s)
eval duration:        20.410517947s
eval rate:            139.93 tokens/s

Со скоростью 139.93 токенов/сек, GPT-OSS 20B — явный победитель для приложений, критичных к скорости. Он использует только 14ГБ VRAM, оставляя запас для больших окон контекста или других нагрузок GPU.

Qwen3 14B — Отличный баланс

ollama run qwen3:14b --verbose
/set parameter num_ctx 19000

NAME         SIZE     PROCESSOR    CONTEXT
qwen3:14b    12 GB    100% GPU     19000

eval count:           3094 token(s)
eval duration:        50.020594575s
eval rate:            61.85 tokens/s

Qwen3 14B предлагает лучшее выполнение инструкций по моему опыту, с комфортным объемом памяти 12ГБ. Со скоростью 61.85 токенов/сек он достаточно отзывчив для интерактивного использования.

Для разработчиков, интегрирующих Qwen3 в приложения, см. Структурированный вывод LLM с Ollama и Qwen3 для извлечения структурированных JSON-ответов.

Ministral 3 14B — Быстрый и компактный

ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000

NAME               SIZE     PROCESSOR    CONTEXT
ministral-3:14b    13 GB    100% GPU     19000

eval count:           1481 token(s)
eval duration:        21.11734277s
eval rate:            70.13 tokens/s

Меньшая модель Mistral обеспечивает 70.13 токенов/сек, полностью помещаясь в VRAM. Отличный выбор, когда вам нужна скорость семейства Mistral.

Модели, требующие отключения CPU

Qwen3-VL 30B — Лучшая производительность с частичным отключением

ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000

NAME                         SIZE     PROCESSOR          CONTEXT
qwen3-vl:30b-a3b-instruct    22 GB    30%/70% CPU/GPU    19000

eval count:           1450 token(s)
eval duration:        28.439319709s
eval rate:            50.99 tokens/s

Несмотря на 30% слоев на CPU, Qwen3-VL поддерживает 50.99 токенов/сек — быстрее, чем некоторые модели на 100% GPU. Возможность зрения добавляет универсальность для мультимодальных задач.

Mistral Small 3.2 24B — Компромисс между качеством и скоростью

ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000

NAME                    SIZE     PROCESSOR          CONTEXT
mistral-small3.2:24b    19 GB    18%/82% CPU/GPU    19000

eval count:           831 token(s)
eval duration:        44.899859038s
eval rate:            18.51 tokens/s

Mistral Small 3.2 предлагает лучшее качество языка, но платит высокой ценой за скорость. Со скоростью 18.51 токенов/сек он ощутимо медленнее для интерактивного чата. Стоит того для задач, где качество важнее задержки.

GLM 4.7 Flash — Модель MoE “мышления”

ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000

NAME                 SIZE     PROCESSOR          CONTEXT
glm-4.7-flash        21 GB    27%/73% CPU/GPU    19000

eval count:           2446 token(s)
eval duration:        1m12.239164004s
eval rate:            33.86 tokens/s

GLM 4.7 Flash — это модель Mixture of Experts 30B-A3B — 30B параметров всего, но только 3B активных на токен. Как “мыслящая” модель, она генерирует внутренние рассуждения перед ответами. Скорость 33.86 токенов/сек включает как токены мышления, так и вывода. Несмотря на отключение CPU, архитектура MoE сохраняет ее достаточно быстрой.

GPT-OSS 120B — Тяжелый игрок

ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000

NAME            SIZE     PROCESSOR          CONTEXT
gpt-oss:120b    66 GB    78%/22% CPU/GPU    19000

eval count:           5008 token(s)
eval duration:        6m36.168233066s
eval rate:            12.64 tokens/s

Запуск модели на 120B на 16ГБ VRAM технически возможен, но болезненен. С 78% на CPU, скорость 12.64 токенов/сек делает интерактивное использование раздражающим. Лучше подходит для пакетной обработки, где задержка не имеет значения.

Практические рекомендации

Для интерактивного чата

Используйте модели, которые полностью помещаются в VRAM:

  1. GPT-OSS 20B — Максимальная скорость (139.93 т/с)
  2. Ministral 3 14B — Хорошая скорость с качеством Mistral (70.13 т/с)
  3. Qwen3 14B — Лучшее выполнение инструкций (61.85 т/с)

Для лучшего опыта чата рассмотрите Открытые чат-интерфейсы для локального Ollama.

Для пакетной обработки

Когда скорость менее критична:

  • Mistral Small 3.2 24B — Превосходное качество языка
  • Qwen3-VL 30B — Возможности зрения и текста

Для разработки и программирования

Если вы создаете приложения с Ollama:

Альтернативные варианты хостинга

Если вас беспокоят ограничения Ollama (см. Ограничения Ollama), изучите другие варианты в Руководстве по локальному хостингу LLM или сравните Docker Model Runner vs Ollama.

Заключение

С 16 ГБ VRAM вы можете запускать мощные LLMs на впечатляющих скоростях — если выберете правильно. Основные выводы:

  1. Оставайтесь в пределах VRAM для интерактивного использования. Модель на 20 млрд параметров со скоростью 140 токенов/сек превосходит модель на 120 млрд параметров со скоростью 12 токенов/сек для большинства практических целей.

  2. GPT-OSS 20B побеждает по чистой скорости, но Qwen3 14B предлагает лучший баланс скорости и возможностей для задач, требующих выполнения инструкций.

  3. Разгрузка на CPU работает, но ожидайте замедления в 3-10 раз. Приемлемо для пакетной обработки, раздражающе для чата.

  4. Размер контекста имеет значение. Используемый здесь контекст на 19К увеличивает потребление VRAM значительно. Уменьшите контекст для лучшего использования GPU.

Для поиска с использованием ИИ, сочетающего локальные LLMs с веб-результатами, см. развертывание Perplexica с Ollama.

Полезные ссылки

Внутренние ресурсы

Внешние ссылки