Qual LLM é o mais rápido em uma GPU com 16 GB de VRAM com Ollama?

O GPT-OSS 20B alcançou a maior velocidade de 139,93 tokens por segundo, enquanto cabia integralmente na VRAM de 16 GB. Ele executa 100% na GPU, sem desembaralhamento para a CPU, tornando-o ideal para aplicações críticas em termos de velocidade.

O que acontece quando um LLM excede 16 GB de VRAM?

Ollama automaticamente desaloca camadas do modelo para a memória RAM e CPU do sistema. Isso reduz significativamente o desempenho — por exemplo, o Mistral Small 3.2 24B cai para 18,51 tokens por segundo quando 18% das camadas executam na CPU.

Como o tamanho do contexto afeta o uso de VRAM no Ollama?

Janelas de contexto maiores exigem mais VRAM para o cache KV. Usando um contexto de 19K, um modelo que cabe na VRAM com um contexto de 4K pode precisar de offloading para a CPU. Reduza o tamanho do contexto se quiser maximizar o uso da GPU.

O Qwen3 14B é adequado para uma GPU de 16 GB?

Sim. O Qwen3 14B utiliza apenas 12 GB de VRAM e executa 100% no GPU a 61,85 tokens por segundo. Oferece excelente seguimento de instruções e se encaixa confortavelmente em 16 GB, com espaço para contextos maiores.

Devo usar modelos maiores com desempenho da CPU ou modelos menores totalmente na GPU?

Para casos de uso interativos, modelos menores que executam 100% na GPU geralmente são melhores. A penalidade de velocidade devido ao desempenho na CPU é significativa — o GPT-OSS 120B com 12,64 tokens por segundo parece lento em comparação ao GPT-OSS 20B com 139,93 tokens por segundo.

Em onde posso encontrar mais benchmarks de desempenho de LLM e guias de otimização?

Nosso hub de desempenho do LLM abrange throughput vs latência, limites de VRAM, solicitações paralelas, alocação de memória e benchmarks em diferentes runtimes e hardware.

Como o uso de VRAM está relacionado à velocidade de token no Ollama?

Modelos que cabem totalmente na VRAM evitam o desempenho da CPU e executam muito mais rápido. O guia de desempenho de LLM explica os limites da VRAM e como eles afetam a velocidade de inferência.

Comparando o desempenho de LLMs no Ollama em uma GPU com 16 GB de VRAM

Teste de velocidade de LLM na RTX 4080 com 16 GB de VRAM

Conteúdo da página

Executar grandes modelos de linguagem localmente oferece privacidade, capacidade offline e zero custos de API. Este benchmark revela exatamente o que se pode esperar de 14 modelos populares LLMs no Ollama no RTX 4080.

Com uma GPU de 16 GB de VRAM, enfrentei constantemente um dilema: modelos maiores com potencialmente melhor qualidade, ou modelos menores com inferência mais rápida. Para mais informações sobre o desempenho dos LLMs — throughput versus latência, limites de VRAM, solicitações paralelas e benchmarks em diferentes runtimes — veja Desempenho de LLM: Benchmarks, gargalos e otimização.

Desempenho de LLM no Ollama - reclassificação de besouros

TL;DR

Aqui está a tabela de comparação atualizada do desempenho dos LLMs no RTX 4080 de 16 GB com o Ollama 0.17.7, (2026-03-09) adicionado os modelos Qwen 3.5 9b, 9bq8, 27b e 35b:

Modelo	RAM+VRAM Usada	CPU/GPU Split	Tokens/sec
gpt-oss:20b	14 GB	100% GPU	139.93
qwen3.5:9b	9.3 GB	100% GPU	90.89
ministral-3:14b	13 GB	100% GPU	70.13
qwen3:14b	12 GB	100% GPU	61.85
qwen3.5:9b-q8_0	13 GB	100% GPU	61.22
qwen3-coder:30b	20 GB	25%/75% CPU/GPU	57.17
qwen3-vl:30b-a3b	22 GB	30%/70% CPU/GPU	50.99
glm-4.7-flash	21 GB	27%/73% CPU/GPU	33.86
nemotron-3-nano:30b	25 GB	38%/62% CPU/GPU	32.77
qwen3.5:35b	27 GB	43%/57% CPU/GPU	20.66
devstral-small-2:24b	19 GB	18%/82% CPU/GPU	18.67
mistral-small3.2:24b	19 GB	18%/82% CPU/GPU	18.51
gpt-oss:120b	66 GB	78%/22% CPU/GPU	12.64
qwen3.5:27b	24 GB	43%/57% CPU/GPU	6.48

Insight principal: Modelos que cabem totalmente na VRAM são dramaticamente mais rápidos. O GPT-OSS 20B atinge 139.93 tokens/sec, enquanto o GPT-OSS 120B com desempenho pesado no CPU se move a 12.64 tokens/sec — uma diferença de velocidade de 11x.

Configuração do Hardware de Teste

O benchmark foi conduzido no seguinte sistema:

GPU: NVIDIA RTX 4080 com 16 GB de VRAM
CPU: Intel Core i7-14700 (8 núcleos P + 12 núcleos E)
RAM: 64 GB DDR5-6000

Isso representa uma configuração comum de alto desempenho para inferência local de LLM. A VRAM de 16 GB é a restrição crítica — ela determina quais modelos executam totalmente na GPU versus aqueles que exigem desempenho no CPU.

Entender como o Ollama usa os núcleos do Intel CPU torna-se importante quando os modelos excedem os limites de VRAM, pois o desempenho do CPU impacta diretamente a velocidade da inferência das camadas desempenhadas.

Propósito deste Benchmark

O objetivo principal foi medir a velocidade de inferência em condições realistas. Já sabia da experiência que o Mistral Small 3.2 24B se destaca na qualidade da linguagem, enquanto o Qwen3 14B oferece superioridade no cumprimento de instruções para meus casos de uso específicos.

Este benchmark responde à pergunta prática: Quão rápido cada modelo pode gerar texto e qual é a penalidade de velocidade por exceder os limites de VRAM?

Os parâmetros do teste foram:

Tamanho do contexto: 19.000 tokens. Este é o valor médio nas minhas solicitações de geração.
Prompt: “compare o clima e o tempo entre as cidades capitais da Austrália”
Métrica: taxa de avaliação (tokens por segundo durante a geração)

Instalação e Versão do Ollama

Todos os testes usaram a versão 0.15.2 do Ollama, a mais recente no momento do teste. Posteriormente, reexecutado na versão 0.17.7 do Ollama — para adicionar os modelos Qwen3.5. Para uma referência completa dos comandos do Ollama usados neste benchmark, veja a folha de dicas do Ollama.

Para uma rápida recuperação — instale o Ollama no Linux:

curl -fsSL https://ollama.com/install.sh | sh

Verifique a instalação:

ollama --version

Se você precisar armazenar modelos em um disco diferente devido a restrições de espaço, veja como mover modelos do Ollama para um disco diferente.

Modelos Testados

Os seguintes modelos foram benchmarkados, em ordem alfabética:

Modelo	Parâmetros	Quantização	Notas
devstral-small-2:24b	24B	Q4_K_M	Focado em código
glm-4.7-flash	30B	Q4_K_M	Modelo de pensamento
gpt-oss:20b	20B	Q4_K_M	Mais rápido geral
gpt-oss:120b	120B	Q4_K_M	Maior testado
ministral-3:14b	14B	Q4_K_M	Modelo eficiente da Mistral
mistral-small3.2:24b	24B	Q4_K_M	Qualidade linguística forte
nemotron-3-nano:30b	30B	Q4_K_M	Oferta da NVIDIA
qwen3:14b	14B	Q4_K_M	Melhor cumprimento de instruções
qwen3.5:9b	9B	Q4_K_M	Rápido, totalmente GPU
qwen3.5:9b-q8_0	9B	Q8_0	Maior qualidade, totalmente GPU
qwen3.5:27b	27B	Q4_K_M	Qualidade excelente, lento no Ollama
qwen3-vl:30b-a3b	30B	Q4_K_M	Capaz de visão
qwen3-coder:30b	30B	Q4_K_M	Focado em código
qwen3.5:35b	35B	Q4_K_M	Boas capacidades de codificação

Para baixar qualquer modelo:

ollama pull gpt-oss:20b
ollama pull qwen3:14b

Entendendo a Desempenho do CPU

Quando as exigências de memória de um modelo excedem a VRAM disponível, o Ollama distribui automaticamente as camadas do modelo entre GPU e memória do sistema RAM. O resultado mostra isso como uma divisão percentual, como “18%/82% CPU/GPU”.

Isso tem implicações de desempenho massivas. Cada geração de token requer transferência de dados entre a memória do CPU e da GPU — um gargalo que se compõe com cada camada desempenhada no CPU.

O padrão é claro a partir dos nossos resultados:

Modelos 100% na GPU: 61-140 tokens/sec
Modelos 70-82% na GPU: 19-51 tokens/sec
22% na GPU (maiormente CPU): 12.6 tokens/sec

Isso explica por que um modelo de 20B parâmetros pode superar um modelo de 120B em 11x na prática. Se você planeja servir múltiplas solicitações simultâneas, entender como o Ollama lida com solicitações paralelas torna-se essencial para o planejamento de capacidade.

Resultados do Benchmark Detalhados

Modelos Executando 100% na GPU

GPT-OSS 20B — O Campeão da Velocidade

ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000

NAME           SIZE     PROCESSOR    CONTEXT
gpt-oss:20b    14 GB    100% GPU     19000

eval count:           2856 token(s)
eval duration:        20.410517947s
eval rate:            139.93 tokens/s

A 139.93 tokens/sec, o GPT-OSS 20B é claramente o vencedor para aplicações críticas de velocidade. Ele usa apenas 14 GB de VRAM, deixando espaço para janelas de contexto maiores ou outros trabalhos na GPU.

Qwen3 14B — Equilíbrio Excelente

ollama run qwen3:14b --verbose
/set parameter num_ctx 19000

NAME         SIZE     PROCESSOR    CONTEXT
qwen3:14b    12 GB    100% GPU     19000

eval count:           3094 token(s)
eval duration:        50.020594575s
eval rate:            61.85 tokens/s

O Qwen3 14B oferece o melhor cumprimento de instruções em minha experiência, com uma pegada de memória confortável de 12 GB. A 61.85 tokens/sec, é suficientemente responsivo para uso interativo.

Para desenvolvedores integrando o Qwen3 em aplicações, veja Saída Estruturada de LLM com Ollama e Qwen3 para extrair respostas estruturadas em JSON.

Ministral 3 14B — Rápido e Compacto

ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000

NAME               SIZE     PROCESSOR    CONTEXT
ministral-3:14b    13 GB    100% GPU     19000

eval count:           1481 token(s)
eval duration:        21.11734277s
eval rate:            70.13 tokens/s

O modelo menor da Mistral entrega 70.13 tokens/sec enquanto se encaixa totalmente na VRAM. Uma escolha sólida quando você precisa da qualidade da família Mistral com a máxima velocidade.

qwen3.5:9b - rápido e novo

ollama run  qwen3.5:9b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME          ID              SIZE      PROCESSOR    CONTEXT
qwen3.5:9b    6488c96fa5fa    9.3 GB    100% GPU     19000

eval count:           3802 token(s)
eval duration:        41.830174597s
eval rate:            90.89 tokens/s

qwen3.5:9b-q8_0 - quantificação q8

Essa quantificação reduz o desempenho do qwen3.5:9b em 30% em comparação ao q4.

ollama run  qwen3.5:9b-q8_0 --verbose
/set parameter num_ctx 19000

compare weather and climate between capital cities of australia
NAME               ID              SIZE     PROCESSOR    CONTEXT
qwen3.5:9b-q8_0    441ec31e4d2a    13 GB    100% GPU     19000

eval count:           3526 token(s)
eval duration:        57.595540159s
eval rate:            61.22 tokens/s

Modelos que Requerem Desempenho do CPU

qwen3-coder:30b - mais rápido do conjunto de LLM 30b por ser apenas texto

ollama run qwen3-coder:30b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME               ID              SIZE     PROCESSOR          CONTEXT
qwen3-coder:30b    06c1097efce0    20 GB    25%/75% CPU/GPU    19000
22%/605%

eval count:           559 token(s)
eval duration:        9.77768875s
eval rate:            57.17 tokens/s

Qwen3-VL 30B — Melhor Desempenho Parcialmente Desempenhado

ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000

NAME                         SIZE     PROCESSOR          CONTEXT
qwen3-vl:30b-a3b-instruct    22 GB    30%/70% CPU/GPU    19000

eval count:           1450 token(s)
eval duration:        28.439319709s
eval rate:            50.99 tokens/s

Apesar de 30% das camadas no CPU, o Qwen3-VL mantém 50.99 tokens/sec — mais rápido que alguns modelos 100% na GPU. A capacidade de visão adiciona versatilidade para tarefas multimodais.

Mistral Small 3.2 24B — Compromisso entre Qualidade e Velocidade

ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000

NAME                    SIZE     PROCESSOR          CONTEXT
mistral-small3.2:24b    19 GB    18%/82% CPU/GPU    19000

eval count:           831 token(s)
eval duration:        44.899859038s
eval rate:            18.51 tokens/s

O Mistral Small 3.2 oferece superioridade na qualidade da linguagem, mas paga um preço alto em velocidade. A 18.51 tokens/sec, ele se sente notavelmente mais lento para chat interativo. Vale a pena para tarefas onde a qualidade importa mais que a latência.

GLM 4.7 Flash — Modelo de Pensamento MoE

ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000

NAME                 SIZE     PROCESSOR          CONTEXT
glm-4.7-flash        21 GB    27%/73% CPU/GPU    19000

eval count:           2446 token(s)
eval duration:        1m12.239164004s
eval rate:            33.86 tokens/s

O GLM 4.7 Flash é um modelo Mixture of Experts de 30B-A3B — 30B parâmetros totais com apenas 3B ativos por token. Como um modelo de “pensamento”, ele gera raciocínio interno antes das respostas. A 33.86 tokens/sec inclui tanto os tokens de pensamento quanto os de saída. Apesar do desempenho no CPU, a arquitetura MoE mantém a velocidade razoavelmente alta.

qwen3.5:35b - novo modelo com desempenho decente em auto-hospedagem

ollama run qwen3.5:35b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME           ID              SIZE     PROCESSOR          CONTEXT
qwen3.5:35b    4af949f8bdf0    27 GB    43%/57% CPU/GPU    19000

eval count:           3418 token(s)
eval duration:        2m45.458926548s
eval rate:            20.66 tokens/s

GPT-OSS 120B — O Pesado

ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000

NAME            SIZE     PROCESSOR          CONTEXT
gpt-oss:120b    66 GB    78%/22% CPU/GPU    19000

eval count:           5008 token(s)
eval duration:        6m36.168233066s
eval rate:            12.64 tokens/s

Rodar um modelo de 120B em 16 GB de VRAM é tecnicamente possível, mas doloroso. Com 78% no CPU, os 12.64 tokens/sec tornam o uso interativo frustrante. Melhor adaptado para processamento em lote onde a latência não importa.

qwen3.5:27b - inteligente, mas lento no Ollama

ollama run qwen3.5:27b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME           ID              SIZE     PROCESSOR          CONTEXT
qwen3.5:27b    193ec05b1e80    24 GB    43%/57% CPU/GPU    19000

eval count:           3370 token(s)
eval duration:        8m40.087510281s
eval rate:            6.48 tokens/s

Testei o qwen3.5:27b e tive uma opinião extremamente boa sobre o desempenho desse modelo com o OpenCode. É muito capaz, bem informado, ferramenta de chamada realmente boa, embora seja lento no meu computador no Ollama. Tentei outras plataformas de auto-hospedagem de LLM, e obtive velocidades muito maiores. Acredito que é hora de deixar o Ollama para trás. Escreverei um pouco sobre isso mais tarde.

Recomendações Práticas

Para Chat Interativo

Use modelos que cabem 100% na VRAM:

GPT-OSS 20B — Velocidade máxima (139.93 t/s)
Ministral 3 14B — Boa velocidade com qualidade Mistral (70.13 t/s)
Qwen3 14B — Melhor cumprimento de instruções (61.85 t/s)

Para uma experiência de chat melhor, considere UIs de Chat de Código Aberto para Ollama Local.

Para Processamento em Lote

Novamente, em meu equipamento - 14 GB de VRAM.

Quando a velocidade é menos crítica:

Mistral Small 3.2 24B — Qualidade linguística superior
Qwen3-VL 30B — Capacidade de visão + texto

Quando a velocidade não é crítica em absoluto:

Qwen3.5:35b - Boas capacidades de codificação
Qwen3.5:27b - Muito bom, mas lento no Ollama. Tive bastante sucesso em hospedar esse modelo no llama.cpp.

Para Desenvolvimento e Codificação

Se você está construindo aplicações com o Ollama:

Opções Alternativas de Hospedagem

Se as limitações do Ollama lhe preocupam (veja preocupações com a enshittificação do Ollama), explore outras opções no Guia de Hospedagem Local de LLM ou compare Runner de Modelo Docker vs Ollama.

Conclusão

Com 16 GB de VRAM, você pode executar LLMs capazes a velocidades impressionantes — se escolher com sabedoria. As principais descobertas:

Mantenha-se dentro dos limites de VRAM para uso interativo. Um modelo de 20B a 140 tokens/sec supera um modelo de 120B a 12 tokens/sec para a maioria dos propósitos práticos.
GPT-OSS 20B vence em pureza de velocidade, mas Qwen3 14B oferece o melhor equilíbrio entre velocidade e capacidade para tarefas de cumprimento de instruções.
O desempenho do CPU funciona, mas espere reduções de 3 a 10 vezes. Aceitável para processamento em lote, frustrante para chat.
O tamanho do contexto importa. O contexto de 19K usado aqui aumenta significativamente o uso de VRAM. Reduza o contexto para melhor utilização da GPU.

Para busca com inteligência artificial combinando LLMs locais com resultados da web, veja auto-hospedagem do Perplexica com Ollama.

Para explorar mais benchmarks, trade-offs entre VRAM e throughput e ajuste de desempenho em Ollama e outros runtimes, consulte nossa Desempenho de LLM: Benchmarks, gargalos e otimização.