Лучшие языковые модели для Ollama на GPU с 16 ГБ видеопамяти
Тест скорости LLM на RTX 4080 с 16 ГБ видеопамяти
Запуск крупных языковых моделей локально обеспечивает вам конфиденциальность, возможность работы оффлайн и отсутствие затрат на API. Этот бенчмарк раскрывает, чего именно можно ожидать от 9 популярных LLMs на Ollama на RTX 4080.
С видеокартой на 16ГБ VRAM я постоянно сталкивался с компромиссом: большие модели с потенциально лучшим качеством или маленькие модели с более быстрой инференцией.

TL;DR
Вот таблица сравнения производительности LLM на RTX 4080 16GB с Ollama 0.15.2:
| Модель | Используемая RAM+VRAM | Разделение CPU/GPU | Токенов/сек |
|---|---|---|---|
| gpt-oss:20b | 14 ГБ | 100% GPU | 139.93 |
| ministral-3:14b | 13 ГБ | 100% GPU | 70.13 |
| qwen3:14b | 12 ГБ | 100% GPU | 61.85 |
| qwen3-vl:30b-a3b | 22 ГБ | 30%/70% | 50.99 |
| glm-4.7-flash | 21 ГБ | 27%/73% | 33.86 |
| nemotron-3-nano:30b | 25 ГБ | 38%/62% | 32.77 |
| devstral-small-2:24b | 19 ГБ | 18%/82% | 18.67 |
| mistral-small3.2:24b | 19 ГБ | 18%/82% | 18.51 |
| gpt-oss:120b | 66 ГБ | 78%/22% | 12.64 |
Ключевой вывод: Модели, которые полностью помещаются в VRAM, работают значительно быстрее. GPT-OSS 20B достигает 139.93 токенов/сек, в то время как GPT-OSS 120B с сильным отключением CPU ползет со скоростью 12.64 токенов/сек — разница в скорости в 11 раз.
Тестовое оборудование
Бенчмарк проводился на следующей системе:
- GPU: NVIDIA RTX 4080 с 16ГБ VRAM
- CPU: Intel Core i7-14700 (8 P-ядер + 12 E-ядер)
- RAM: 64ГБ DDR5-6000
Это представляет собой типичную конфигурацию высокопроизводительного потребительского оборудования для локальной инференции LLM. 16ГБ VRAM — это критическое ограничение — оно определяет, какие модели работают полностью на GPU, а какие требуют отключения CPU.
Понимание как Ollama использует ядра Intel CPU становится важным, когда модели превышают объем VRAM, так как производительность CPU напрямую влияет на скорость инференции отключенных слоев.
Цель этого бенчмарка
Основная цель заключалась в измерении скорости инференции в реалистичных условиях. Я уже знал из опыта, что Mistral Small 3.2 24B превосходит по качеству языка, а Qwen3 14B предлагает лучшее выполнение инструкций для моих конкретных случаев использования.
Этот бенчмарк отвечает на практический вопрос: Насколько быстро каждая модель может генерировать текст, и какой штраф за скорость за превышение лимитов VRAM?
Параметры теста были:
- Размер контекста: 19,000 токенов
- Запрос: “сравнить погоду и климат между столицами Австралии”
- Метрика: скорость оценки (токенов в секунду во время генерации)
Установка и версия Ollama
Все тесты использовали версию Ollama 0.15.2, последнюю на момент тестирования. Для полного списка команд Ollama, использованных в этом бенчмарке, см. шпаргалку Ollama.
Для установки Ollama на Linux:
curl -fsSL https://ollama.com/install.sh | sh
Проверка установки:
ollama --version
Если вам нужно хранить модели на другом диске из-за ограничений по месту, ознакомьтесь с как переместить модели Ollama на другой диск.
Протестированные модели
Были протестированы следующие модели:
| Модель | Параметры | Квантование | Примечания |
|---|---|---|---|
| gpt-oss:20b | 20B | Q4_K_M | Самая быстрая в целом |
| gpt-oss:120b | 120B | Q4_K_M | Самая большая протестированная |
| qwen3:14b | 14B | Q4_K_M | Лучшее выполнение инструкций |
| qwen3-vl:30b-a3b | 30B | Q4_K_M | С возможностью зрения |
| ministral-3:14b | 14B | Q4_K_M | Эффективная модель Mistral |
| mistral-small3.2:24b | 24B | Q4_K_M | Сильное качество языка |
| devstral-small-2:24b | 24B | Q4_K_M | Ориентированная на код |
| glm-4.7-flash | 30B | Q4_K_M | Модель “мышления” |
| nemotron-3-nano:30b | 30B | Q4_K_M | Предложение NVIDIA |
Для загрузки любой модели:
ollama pull gpt-oss:20b
ollama pull qwen3:14b
Понимание отключения CPU
Когда требования модели к памяти превышают доступный объем VRAM, Ollama автоматически распределяет слои модели между GPU и системной RAM. Вывод показывает это как процентное соотношение, например, “18%/82% CPU/GPU”.
Это имеет огромные последствия для производительности. Каждая генерация токена требует передачи данных между памятью CPU и GPU — узкое место, которое усугубляется с каждым слоем, отключенным на CPU.
Из наших результатов очевидна закономерность:
- 100% GPU модели: 61-140 токенов/сек
- 70-82% GPU модели: 19-51 токенов/сек
- 22% GPU (в основном CPU): 12.6 токенов/сек
Это объясняет, почему модель с 20B параметрами может превзойти модель с 120B параметрами в 11 раз на практике. Если вы планируете обслуживать несколько одновременных запросов, понимание как Ollama обрабатывает параллельные запросы становится существенным для планирования мощности.
Подробные результаты бенчмарка
Модели, работающие 100% на GPU
GPT-OSS 20B — Чемпион по скорости
ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
gpt-oss:20b 14 GB 100% GPU 19000
eval count: 2856 token(s)
eval duration: 20.410517947s
eval rate: 139.93 tokens/s
Со скоростью 139.93 токенов/сек, GPT-OSS 20B — явный победитель для приложений, критичных к скорости. Он использует только 14ГБ VRAM, оставляя запас для больших окон контекста или других нагрузок GPU.
Qwen3 14B — Отличный баланс
ollama run qwen3:14b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
qwen3:14b 12 GB 100% GPU 19000
eval count: 3094 token(s)
eval duration: 50.020594575s
eval rate: 61.85 tokens/s
Qwen3 14B предлагает лучшее выполнение инструкций по моему опыту, с комфортным объемом памяти 12ГБ. Со скоростью 61.85 токенов/сек он достаточно отзывчив для интерактивного использования.
Для разработчиков, интегрирующих Qwen3 в приложения, см. Структурированный вывод LLM с Ollama и Qwen3 для извлечения структурированных JSON-ответов.
Ministral 3 14B — Быстрый и компактный
ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
ministral-3:14b 13 GB 100% GPU 19000
eval count: 1481 token(s)
eval duration: 21.11734277s
eval rate: 70.13 tokens/s
Меньшая модель Mistral обеспечивает 70.13 токенов/сек, полностью помещаясь в VRAM. Отличный выбор, когда вам нужна скорость семейства Mistral.
Модели, требующие отключения CPU
Qwen3-VL 30B — Лучшая производительность с частичным отключением
ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
qwen3-vl:30b-a3b-instruct 22 GB 30%/70% CPU/GPU 19000
eval count: 1450 token(s)
eval duration: 28.439319709s
eval rate: 50.99 tokens/s
Несмотря на 30% слоев на CPU, Qwen3-VL поддерживает 50.99 токенов/сек — быстрее, чем некоторые модели на 100% GPU. Возможность зрения добавляет универсальность для мультимодальных задач.
Mistral Small 3.2 24B — Компромисс между качеством и скоростью
ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
mistral-small3.2:24b 19 GB 18%/82% CPU/GPU 19000
eval count: 831 token(s)
eval duration: 44.899859038s
eval rate: 18.51 tokens/s
Mistral Small 3.2 предлагает лучшее качество языка, но платит высокой ценой за скорость. Со скоростью 18.51 токенов/сек он ощутимо медленнее для интерактивного чата. Стоит того для задач, где качество важнее задержки.
GLM 4.7 Flash — Модель MoE “мышления”
ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
glm-4.7-flash 21 GB 27%/73% CPU/GPU 19000
eval count: 2446 token(s)
eval duration: 1m12.239164004s
eval rate: 33.86 tokens/s
GLM 4.7 Flash — это модель Mixture of Experts 30B-A3B — 30B параметров всего, но только 3B активных на токен. Как “мыслящая” модель, она генерирует внутренние рассуждения перед ответами. Скорость 33.86 токенов/сек включает как токены мышления, так и вывода. Несмотря на отключение CPU, архитектура MoE сохраняет ее достаточно быстрой.
GPT-OSS 120B — Тяжелый игрок
ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
gpt-oss:120b 66 GB 78%/22% CPU/GPU 19000
eval count: 5008 token(s)
eval duration: 6m36.168233066s
eval rate: 12.64 tokens/s
Запуск модели на 120B на 16ГБ VRAM технически возможен, но болезненен. С 78% на CPU, скорость 12.64 токенов/сек делает интерактивное использование раздражающим. Лучше подходит для пакетной обработки, где задержка не имеет значения.
Практические рекомендации
Для интерактивного чата
Используйте модели, которые полностью помещаются в VRAM:
- GPT-OSS 20B — Максимальная скорость (139.93 т/с)
- Ministral 3 14B — Хорошая скорость с качеством Mistral (70.13 т/с)
- Qwen3 14B — Лучшее выполнение инструкций (61.85 т/с)
Для лучшего опыта чата рассмотрите Открытые чат-интерфейсы для локального Ollama.
Для пакетной обработки
Когда скорость менее критична:
- Mistral Small 3.2 24B — Превосходное качество языка
- Qwen3-VL 30B — Возможности зрения и текста
Для разработки и программирования
Если вы создаете приложения с Ollama:
Альтернативные варианты хостинга
Если вас беспокоят ограничения Ollama (см. Ограничения Ollama), изучите другие варианты в Руководстве по локальному хостингу LLM или сравните Docker Model Runner vs Ollama.
Заключение
С 16 ГБ VRAM вы можете запускать мощные LLMs на впечатляющих скоростях — если выберете правильно. Основные выводы:
-
Оставайтесь в пределах VRAM для интерактивного использования. Модель на 20 млрд параметров со скоростью 140 токенов/сек превосходит модель на 120 млрд параметров со скоростью 12 токенов/сек для большинства практических целей.
-
GPT-OSS 20B побеждает по чистой скорости, но Qwen3 14B предлагает лучший баланс скорости и возможностей для задач, требующих выполнения инструкций.
-
Разгрузка на CPU работает, но ожидайте замедления в 3-10 раз. Приемлемо для пакетной обработки, раздражающе для чата.
-
Размер контекста имеет значение. Используемый здесь контекст на 19К увеличивает потребление VRAM значительно. Уменьшите контекст для лучшего использования GPU.
Для поиска с использованием ИИ, сочетающего локальные LLMs с веб-результатами, см. развертывание Perplexica с Ollama.
Полезные ссылки
Внутренние ресурсы
- Шпаргалка Ollama: Самые полезные команды Ollama
- Как Ollama обрабатывает параллельные запросы
- Как Ollama использует производительность и эффективные ядра Intel CPU
- Как переместить модели Ollama на другой диск или папку
- Структурированный вывод LLM на Ollama, Qwen3 & Python или Go
- Развертывание Perplexica - с Ollama
- Открытые чат-интерфейсы для LLM на локальных инстансах Ollama
- Первые признаки деградации Ollama
- Docker Model Runner vs Ollama: Что выбрать?
- Локальное хостинг LLM: Полное руководство 2026 года - Ollama, vLLM, LocalAI, Jan, LM Studio & другие
- Интеграция Ollama с Python: Примеры REST API и Python клиента
- SDK для Ollama на Go - сравнение с примерами