Mejores LLMs para Ollama en GPU con 16 GB de VRAM
Prueba de velocidad de LLM en RTX 4080 con 16 GB de VRAM
Ejecutar modelos de lenguaje grandes localmente te brinda privacidad, capacidad para trabajar sin conexión y cero costos de API. Este benchmark revela exactamente lo que se puede esperar de 9 populares LLMs en Ollama en una RTX 4080.
Con una GPU de 16 GB de VRAM, enfrenté un constante equilibrio: modelos más grandes con potencialmente mejor calidad, o modelos más pequeños con inferencia más rápida.

TL;DR
Aquí está la tabla de comparación del rendimiento de LLM en RTX 4080 16 GB con Ollama 0.15.2:
| Modelo | RAM+VRAM Usado | CPU/GPU Split | Tokens/segundo |
|---|---|---|---|
| gpt-oss:20b | 14 GB | 100% GPU | 139.93 |
| ministral-3:14b | 13 GB | 100% GPU | 70.13 |
| qwen3:14b | 12 GB | 100% GPU | 61.85 |
| qwen3-vl:30b-a3b | 22 GB | 30%/70% | 50.99 |
| glm-4.7-flash | 21 GB | 27%/73% | 33.86 |
| nemotron-3-nano:30b | 25 GB | 38%/62% | 32.77 |
| devstral-small-2:24b | 19 GB | 18%/82% | 18.67 |
| mistral-small3.2:24b | 19 GB | 18%/82% | 18.51 |
| gpt-oss:120b | 66 GB | 78%/22% | 12.64 |
Insight clave: Los modelos que se ajustan completamente en VRAM son significativamente más rápidos. GPT-OSS 20B alcanza 139.93 tokens/segundo, mientras que GPT-OSS 120B con desalojo pesado de CPU se mueve lentamente a 12.64 tokens/segundo—una diferencia de velocidad de 11 veces.
Configuración del Hardware de Prueba
El benchmark se realizó en el siguiente sistema:
- GPU: NVIDIA RTX 4080 con 16 GB de VRAM
- CPU: Intel Core i7-14700 (8 núcleos P + 12 núcleos E)
- RAM: 64 GB DDR5-6000
Esto representa una configuración común de alto rendimiento para la inferencia local de LLM. La VRAM de 16 GB es la restricción crítica—determina qué modelos se ejecutan completamente en GPU versus los que requieren desalojo de CPU.
Entender cómo Ollama usa los núcleos de CPU de Intel se vuelve importante cuando los modelos exceden los límites de VRAM, ya que el rendimiento de la CPU impacta directamente la velocidad de la inferencia de las capas desalojadas.
Propósito de este Benchmark
El objetivo principal fue medir la velocidad de inferencia bajo condiciones realistas. Ya sabía por experiencia que Mistral Small 3.2 24B destaca en calidad de lenguaje, mientras que Qwen3 14B ofrece un seguimiento de instrucciones superior para mis casos de uso específicos.
Este benchmark responde a la pregunta práctica: ¿Cuán rápido puede generar texto cada modelo y cuál es el costo de velocidad por exceder los límites de VRAM?
Los parámetros de prueba fueron:
- Tamaño de contexto: 19,000 tokens
- Prompt: “comparar clima y tiempo entre ciudades capitales de Australia”
- Métrica: tasa de evaluación (tokens por segundo durante la generación)
Instalación y Versión de Ollama
Todas las pruebas usaron Ollama versión 0.15.2, la última versión disponible en el momento de la prueba. Para una referencia completa de los comandos de Ollama utilizados en este benchmark, vea la Hoja de trucos de Ollama.
Para instalar Ollama en Linux:
curl -fsSL https://ollama.com/install.sh | sh
Verificar instalación:
ollama --version
Si necesitas almacenar modelos en un disco diferente debido a limitaciones de espacio, consulta cómo mover modelos de Ollama a un disco diferente.
Modelos Probados
Los siguientes modelos fueron benchmarked:
| Modelo | Parámetros | Cuantización | Notas |
|---|---|---|---|
| gpt-oss:20b | 20B | Q4_K_M | Más rápido overall |
| gpt-oss:120b | 120B | Q4_K_M | Más grande probado |
| qwen3:14b | 14B | Q4_K_M | Mejor seguimiento de instrucciones |
| qwen3-vl:30b-a3b | 30B | Q4_K_M | Capaz de visión |
| ministral-3:14b | 14B | Q4_K_M | Modelo eficiente de Mistral |
| mistral-small3.2:24b | 24B | Q4_K_M | Calidad de lenguaje fuerte |
| devstral-small-2:24b | 24B | Q4_K_M | Enfocado en código |
| glm-4.7-flash | 30B | Q4_K_M | Modelo de pensamiento |
| nemotron-3-nano:30b | 30B | Q4_K_M | Oferta de NVIDIA |
Para descargar cualquier modelo:
ollama pull gpt-oss:20b
ollama pull qwen3:14b
Entendiendo el desalojo de CPU
Cuando los requisitos de memoria de un modelo exceden la VRAM disponible, Ollama distribuye automáticamente las capas del modelo entre la GPU y la memoria de la RAM del sistema. La salida muestra esto como una división porcentual como “18%/82% CPU/GPU”.
Esto tiene implicaciones de rendimiento masivas. Cada generación de token requiere transferencia de datos entre la memoria de la CPU y la GPU—un cuello de botella que se compone con cada capa desalojada a la CPU.
El patrón es claro a partir de nuestros resultados:
- Modelos del 100% en GPU: 61-140 tokens/segundo
- Modelos del 70-82% en GPU: 19-51 tokens/segundo
- 22% en GPU (mayormente CPU): 12.6 tokens/segundo
Esto explica por qué un modelo de 20B de parámetros puede superar a un modelo de 120B en un factor de 11 en la práctica. Si planeas servir múltiples solicitudes concurrentes, entender cómo Ollama maneja solicitudes paralelas se vuelve esencial para la planificación de capacidad.
Resultados del Benchmark Detallados
Modelos que corren al 100% en GPU
GPT-OSS 20B — El Campeón de Velocidad
ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
gpt-oss:20b 14 GB 100% GPU 19000
eval count: 2856 token(s)
eval duration: 20.410517947s
eval rate: 139.93 tokens/s
A 139.93 tokens/segundo, GPT-OSS 20B es claramente el ganador para aplicaciones críticas de velocidad. Usa solo 14 GB de VRAM, dejando espacio para ventanas de contexto más grandes u otras cargas de trabajo de GPU.
Qwen3 14B — Excelente Equilibrio
ollama run qwen3:14b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
qwen3:14b 12 GB 100% GPU 19000
eval count: 3094 token(s)
eval duration: 50.020594575s
eval rate: 61.85 tokens/s
Qwen3 14B ofrece el mejor seguimiento de instrucciones en mi experiencia, con un cómodo tamaño de memoria de 12 GB. A 61.85 tokens/segundo, es lo suficientemente rápido para uso interactivo.
Para desarrolladores integrando Qwen3 en aplicaciones, vea Salida Estructurada de LLM con Ollama y Qwen3 para extraer respuestas JSON estructuradas.
Ministral 3 14B — Rápido y Compacto
ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
ministral-3:14b 13 GB 100% GPU 19000
eval count: 1481 token(s)
eval duration: 21.11734277s
eval rate: 70.13 tokens/s
El modelo más pequeño de Mistral entrega 70.13 tokens/segundo mientras se ajusta completamente en VRAM. Una excelente opción cuando necesitas calidad de familia Mistral a máxima velocidad.
Modelos que requieren desalojo de CPU
Qwen3-VL 30B — Mejor Rendimiento Parcialmente Desalojado
ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
qwen3-vl:30b-a3b-instruct 22 GB 30%/70% CPU/GPU 19000
eval count: 1450 token(s)
eval duration: 28.439319709s
eval rate: 50.99 tokens/s
A pesar de que el 30% de las capas están en CPU, Qwen3-VL mantiene 50.99 tokens/segundo—más rápido que algunos modelos del 100% en GPU. La capacidad de visión añade versatilidad para tareas multimodales.
Mistral Small 3.2 24B — Equilibrio entre Calidad y Velocidad
ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
mistral-small3.2:24b 19 GB 18%/82% CPU/GPU 19000
eval count: 831 token(s)
eval duration: 44.899859038s
eval rate: 18.51 tokens/s
Mistral Small 3.2 ofrece una calidad de lenguaje superior pero paga un costo de velocidad considerable. A 18.51 tokens/segundo, se siente claramente más lento para chats interactivos. Vale la pena para tareas donde la calidad importa más que la latencia.
GLM 4.7 Flash — Modelo de Pensamiento MoE
ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
glm-4.7-flash 21 GB 27%/73% CPU/GPU 19000
eval count: 2446 token(s)
eval duration: 1m12.239164004s
eval rate: 33.86 tokens/s
GLM 4.7 Flash es un modelo de Especialistas Mixtos (MoE) de 30B-A3B—30B de parámetros totales con solo 3B activos por token. Como un modelo de “pensamiento”, genera razonamiento interno antes de las respuestas. Los 33.86 tokens/segundo incluyen tanto tokens de pensamiento como de salida. A pesar del desalojo de CPU, la arquitectura MoE mantiene una velocidad razonable.
GPT-OSS 120B — El Poderoso
ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
gpt-oss:120b 66 GB 78%/22% CPU/GPU 19000
eval count: 5008 token(s)
eval duration: 6m36.168233066s
eval rate: 12.64 tokens/s
Ejecutar un modelo de 120B en 16 GB de VRAM es técnicamente posible pero doloroso. Con el 78% en CPU, los 12.64 tokens/segundo hacen que el uso interactivo sea frustrante. Mejor adaptado para procesamiento por lotes donde la latencia no importa.
Recomendaciones Prácticas
Para Chat Interactivo
Use modelos que se ajusten del 100% en VRAM:
- GPT-OSS 20B — Velocidad máxima (139.93 t/s)
- Ministral 3 14B — Buena velocidad con calidad de Mistral (70.13 t/s)
- Qwen3 14B — Mejor seguimiento de instrucciones (61.85 t/s)
Para una mejor experiencia de chat, considere Interfaz de Chat de código abierto para Ollama local.
Para Procesamiento por Lotes
Cuando la velocidad es menos crítica:
- Mistral Small 3.2 24B — Calidad de lenguaje superior
- Qwen3-VL 30B — Capacidad de visión + texto
Para Desarrollo y Codificación
Si estás construyendo aplicaciones con Ollama:
Opciones Alternativas de Alojamiento
Si las limitaciones de Ollama te preocupan (ver Preocupaciones de Enshittification de Ollama), explora otras opciones en la Guía de Alojamiento Local de LLM o compara Runner de Modelos de Docker vs Ollama.
Conclusión
Con 16 GB de VRAM, puedes ejecutar LLMs capaces a velocidades impresionantes—si elijes con sabiduría. Los hallazgos clave:
-
Mantén dentro de los límites de VRAM para uso interactivo. Un modelo de 20B a 140 tokens/segundo supera a un modelo de 120B a 12 tokens/segundo para la mayoría de los propósitos prácticos.
-
GPT-OSS 20B gana en velocidad pura, pero Qwen3 14B ofrece el mejor equilibrio de velocidad y capacidad para tareas de seguimiento de instrucciones.
-
El desalojo de CPU funciona pero espera ralentizaciones de 3 a 10 veces. Aceptable para procesamiento por lotes, frustrante para chat.
-
El tamaño del contexto importa. El contexto de 19K usado aquí aumenta significativamente el uso de VRAM. Reduce el contexto para una mejor utilización de la GPU.
Para búsqueda impulsada por IA combinando LLMs locales con resultados web, vea autoinstalación de Perplexica con Ollama.
Enlaces Útiles
Recursos Internos
- Hoja de trucos de Ollama: Comandos más útiles de Ollama
- Cómo Ollama maneja solicitudes paralelas
- Cómo Ollama usa núcleos de CPU de rendimiento y eficiencia de Intel
- Cómo mover modelos de Ollama a un disco o carpeta diferente
- Salida estructurada de LLM en Ollama, Qwen3 y Python o Go
- Autoinstalación de Perplexica - con Ollama
- Interfaz de chat de código abierto para LLMs en instancias locales de Ollama
- Primeras señales de Enshittification de Ollama
- Runner de modelos de Docker vs Ollama: ¿Cuál elegir?
- Alojamiento local de LLM: Guía completa de 2026 - Ollama, vLLM, LocalAI, Jan, LM Studio y más
- Integrar Ollama con Python: Ejemplos de API REST y cliente de Python
- SDKs de Go para Ollama - comparación con ejemplos