Bästa LLM:erna för Ollama på GPU med 16GB VRAM
LLM-hastighetstest på RTX 4080 med 16 GB VRAM
Körning av stora språkmodeller lokalt ger dig integritet, möjlighet att använda dem offline och noll kostnader för API:er. Detta benchmark visar exakt vad man kan förvänta sig från 9 populära LLMs på Ollama på en RTX 4080.
Med en 16GB VRAM GPU mötte jag en konstant vägval: större modeller med potentiellt bättre kvalitet eller mindre modeller med snabbare inferens.

TL;DR
Här är jämförelsetabellen över LLM-prestanda på RTX 4080 16GB med Ollama 0.15.2:
| Modell | RAM+VRAM Använd | CPU/GPU Split | Tokens/sec |
|---|---|---|---|
| gpt-oss:20b | 14 GB | 100% GPU | 139.93 |
| ministral-3:14b | 13 GB | 100% GPU | 70.13 |
| qwen3:14b | 12 GB | 100% GPU | 61.85 |
| qwen3-vl:30b-a3b | 22 GB | 30%/70% | 50.99 |
| glm-4.7-flash | 21 GB | 27%/73% | 33.86 |
| nemotron-3-nano:30b | 25 GB | 38%/62% | 32.77 |
| devstral-small-2:24b | 19 GB | 18%/82% | 18.67 |
| mistral-small3.2:24b | 19 GB | 18%/82% | 18.51 |
| gpt-oss:120b | 66 GB | 78%/22% | 12.64 |
Nyckelinsikt: Modeller som passar helt i VRAM är dramatiskt snabbare. GPT-OSS 20B uppnår 139.93 tokens/sec, medan GPT-OSS 120B med tung CPU-avlastning kryper vid 12.64 tokens/sec – en 11-faldig hastighetsförsämring.
Testutrustning
Benchmarken utfördes på följande system:
- GPU: NVIDIA RTX 4080 med 16GB VRAM
- CPU: Intel Core i7-14700 (8 P-kerne + 12 E-kerne)
- RAM: 64GB DDR5-6000
Detta representerar en vanlig högpresterande konsumentkonfiguration för lokal LLM-inferens. Den 16GB VRAM är den kritiska begränsningen – den avgör vilka modeller som körs helt på GPU eller kräver CPU-avlastning.
Förstå hur Ollama använder Intel CPU-kerne blir viktigt när modeller överskrider VRAM-gränsen, eftersom CPU-prestanda direkt påverkar hastigheten för avlastade lager.
Syftet med denna benchmark
Huvudmålet var att mäta inferenshastighet under realistiska förhållanden. Jag visste redan från erfarenhet att Mistral Small 3.2 24B är utmärkt för språkkvalitet medan Qwen3 14B erbjuder bättre instruktionssäljande för mina specifika användningsfall.
Denna benchmark besvarar den praktiska frågan: Hur snabbt kan varje modell generera text, och vilken hastighetsförsämring sker vid överskridande av VRAM-gränser?
Testparametrarna var:
- Kontextstorlek: 19 000 tokens
- Prompt: “jämför väder och klimat mellan huvudstäderna i Australien”
- Mått: eval-hastighet (tokens per sekund under generering)
Ollamainstallation och version
Alla tester använde Ollama version 0.15.2, den senaste versionen vid testtiden. För en fullständig referens av Ollama-kommandon som används i denna benchmark, se Ollama cheatsheet.
För att installera Ollama på Linux:
curl -fsSL https://ollama.com/install.sh | sh
Verifiera installationen:
ollama --version
Om du behöver lagra modeller på en annan disk på grund av utrymme, se hur man flyttar Ollama-modeller till en annan disk.
Modeller som testats
Följande modeller testades:
| Modell | Parametrar | Kvantisering | Anteckningar |
|---|---|---|---|
| gpt-oss:20b | 20B | Q4_K_M | Snabbast overall |
| gpt-oss:120b | 120B | Q4_K_M | Största testade |
| qwen3:14b | 14B | Q4_K_M | Bästa instruktionssäljande |
| qwen3-vl:30b-a3b | 30B | Q4_K_M | Visionkomplicerad |
| ministral-3:14b | 14B | Q4_K_M | Mistral’s effektiva modell |
| mistral-small3.2:24b | 24B | Q4_K_M | Stark språkkvalitet |
| devstral-small-2:24b | 24B | Q4_K_M | Kodfokuserad |
| glm-4.7-flash | 30B | Q4_K_M | Tänkande modell |
| nemotron-3-nano:30b | 30B | Q4_K_M | NVIDIA’s erbjudande |
För att ladda ner någon modell:
ollama pull gpt-oss:20b
ollama pull qwen3:14b
Förståelse av CPU-avlastning
När en modells minneskrav överskrider tillgänglig VRAM, distribuerar Ollama automatiskt modellens lager mellan GPU och systemminne. Utdata visar detta som en procentuell delning som “18%/82% CPU/GPU”.
Detta har stora prestandaefekter. Varje tokengenerering kräver dataöverföring mellan CPU och GPU-minne – en fläsk som försämras med varje lager som avlastas till CPU.
Mönstret är tydligt från våra resultat:
- 100% GPU-modeller: 61-140 tokens/sec
- 70-82% GPU-modeller: 19-51 tokens/sec
- 22% GPU (främst CPU): 12,6 tokens/sec
Detta förklarar varför en 20B-parametermodell kan överträffa en 120B-modell med 11 gånger i praktiken. Om du planerar att serva flera samtidiga begäranden, blir förståelsen av hur Ollama hanterar parallella begäranden avgörande för kapacitetsplanering.
Detaljerade benchmarkresultat
Modeller som kör 100% på GPU
GPT-OSS 20B – Hastighetsvinnaren
ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
gpt-oss:20b 14 GB 100% GPU 19000
eval count: 2856 token(s)
eval duration: 20.410517947s
eval rate: 139.93 tokens/s
På 139.93 tokens/sec är GPT-OSS 20B tydligt vinnare för hastighetskritiska tillämpningar. Den använder bara 14 GB VRAM, vilket lämnar utrymme för större kontextfönster eller andra GPU-burden.
Qwen3 14B – Bra balans
ollama run qwen3:14b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
qwen3:14b 12 GB 100% GPU 19000
eval count: 3094 token(s)
eval duration: 50.020594575s
eval rate: 61.85 tokens/s
Qwen3 14B erbjuder den bästa instruktionssäljande i min erfarenhet, med ett bekvämt 12 GB minnesfotavtryck. På 61.85 tokens/sec är den tillräckligt snabb för interaktiv användning.
För utvecklare som integrerar Qwen3 i tillämpningar, se LLM Strukturerad utdata med Ollama och Qwen3 för att extrahera strukturerad JSON-utdata.
Ministral 3 14B – Snabb och kompakt
ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
ministral-3:14b 13 GB 100% GPU 19000
eval count: 1481 token(s)
eval duration: 21.11734277s
eval rate: 70.13 tokens/s
Mistral’s mindre modell levererar 70.13 tokens/sec medan den passar helt i VRAM. En fast och bra val när du behöver Mistral-familjens kvalitet vid maximal hastighet.
Modeller som kräver CPU-avlastning
Qwen3-VL 30B – Bästa delvis avlastade prestanda
ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
qwen3-vl:30b-a3b-instruct 22 GB 30%/70% CPU/GPU 19000
eval count: 1450 token(s)
eval duration: 28.439319709s
eval rate: 50.99 tokens/s
Trots att 30% av lager på CPU, upprätthåller Qwen3-VL 50.99 tokens/sec – snabbare än vissa 100% GPU-modeller. Visionförmågan lägger till flexibilitet för multimodala uppgifter.
Mistral Small 3.2 24B – Kvalitet mot hastighet
ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
mistral-small3.2:24b 19 GB 18%/82% CPU/GPU 19000
eval count: 831 token(s)
eval duration: 44.899859038s
eval rate: 18.51 tokens/s
Mistral Small 3.2 erbjuder överlägsen språkkvalitet men betalar en hög hastighetspris. Vid 18.51 tokens/sec känns det tydligt långsammare för interaktiv chatten. Värt det för uppgifter där kvalitet är viktigare än latens.
GLM 4.7 Flash – MoE tänkande modell
ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
glm-4.7-flash 21 GB 27%/73% CPU/GPU 19000
eval count: 2446 token(s)
eval duration: 1m12.239164004s
eval rate: 33.86 tokens/s
GLM 4.7 Flash är en 30B-A3B Mixture of Experts-modell – 30B totala parametrar med bara 3B aktiva per token. Som en “tänkande” modell genererar den interna resonemang före svar. Den 33.86 tokens/sec inkluderar både tänkande och utdata-tokens. Även med CPU-avlastning håller MoE-arkitekturen den tillräckligt snabb.
GPT-OSS 120B – Den tunga kampen
ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
gpt-oss:120b 66 GB 78%/22% CPU/GPU 19000
eval count: 5008 token(s)
eval duration: 6m36.168233066s
eval rate: 12.64 tokens/s
Att köra en 120B-modell på 16GB VRAM är tekniskt möjligt men smärtsamt. Med 78% på CPU, den 12.64 tokens/sec gör interaktiv användning frustrerande. Bättre lämpad för batchbearbetning där latens inte spelar roll.
Praktiska rekommendationer
För interaktiv chatten
Använd modeller som passar 100% i VRAM:
- GPT-OSS 20B – Maximal hastighet (139.93 t/s)
- Ministral 3 14B – Bra hastighet med Mistral-kvalitet (70.13 t/s)
- Qwen3 14B – Bästa instruktionssäljande (61.85 t/s)
För en bättre chattupplevelse, överväg Öppen källkod chatten UI för lokal Ollama.
För batchbearbetning
När hastighet är mindre kritisk:
- Mistral Small 3.2 24B – Överlägsen språkkvalitet
- Qwen3-VL 30B – Vision + textförmåga
För utveckling och kodning
Om du bygger tillämpningar med Ollama:
Alternativa värdalternativ
Om Ollamas begränsningar orsakar oro (se Ollama enshittification bekymmer), utforska andra alternativ i Lokal LLM-värdguide eller jämför Docker Modellkörare mot Ollama.
Slutsats
Med 16GB VRAM kan du köra kapabla LLMs vid imponerande hastigheter – om du väljer rätt. De viktigaste slutsatserna:
-
Behåll VRAM-gränserna för interaktiv användning. En 20B-modell vid 140 tokens/sec slår en 120B-modell vid 12 tokens/sec för de flesta praktiska syften.
-
GPT-OSS 20B vinner på ren hastighet, men Qwen3 14B erbjuder bästa balansen av hastighet och förmåga för instruktionssäljande uppgifter.
-
CPU-avlastning fungerar men förvänta dig 3-10 gånger försämring. Acceptabel för batchbearbetning, frustrerande för chatten.
-
Kontextstorlek spelar roll. Den 19K kontext som används här ökar VRAM-användningen betydligt. Minska kontexten för bättre GPU-användning.
För AI-drivna sökningar som kombinerar lokala LLMs med webbresultat, se självvärdd Perplexica med Ollama.
Några användbara länkar
Interna resurser
- Ollama cheatsheet: De mest användbara Ollama-kommandona
- Hur Ollama hanterar parallella begäranden
- Hur Ollama använder Intel CPU-prestanda och effektiva kerne
- Hur man flyttar Ollama-modeller till en annan disk eller mapp
- LLM Strukturerad utdata på Ollama, Qwen3 & Python eller Go
- Självvärdd Perplexica - med Ollama
- Öppen källkod chatten UI för LLMs på lokala Ollama-instanser
- Första tecknen på Ollama enshittification
- Docker Modellkörare vs Ollama: Vilken ska man välja?
- Lokal LLM-värd: Komplett 2026-guide - Ollama, vLLM, LocalAI, Jan, LM Studio & Mer
- Integrera Ollama med Python: REST API och Pythonklientexempel
- Go SDKs för Ollama - jämförelse med exempel