Vilken LLM är snabbast på en 16GB VRAM GPU med Ollama?

GPT-OSS 20B uppnådde den högsta hastigheten på 139,93 token/sec samtidigt som den passade helt inom 16GB VRAM. Den körs 100% på GPU utan CPU-avlastning, vilket gör den till ett idealiskt val för tillämpningar där hastighet är avgörande.

Vad händer när en LLM överskrider 16 GB VRAM?

Ollama flyttar automatiskt modellskikt till systemets RAM och CPU. Detta minskar prestanda väldigt mycket – till exempel sjunker Mistral Small 3.2 24B till 18,51 token/sec när 18 % av skikten kör på CPU.

Hur påverkar kontextstorlek VRAM-användningen i Ollama?

Större kontextfönster kräver mer VRAM för KV-cache. Genom att använda en kontext på 19K kan en modell som passar i VRAM med en kontext på 4K kräva CPU-avlastning. Minska kontextstorleken om du vill maximera GPU-användningen.

Fungerar Qwen3 14B bra med en 16GB GPU?

Ja. Qwen3 14B använder endast 12GB VRAM och kör 100% på GPU vid 61,85 token/sec. Den erbjuder utmärkt följande av instruktioner och passar enkelt in i 16GB med utrymme för större kontextstorlekar.

Skall jag använda större modeller med CPU-avlastning eller mindre modeller helt på GPU?

För interaktiva användningsscenarier är mindre modeller som kör 100% på GPU vanligtvis bättre. Den hastighetsnedsättning som uppstår vid avlastning till CPU är väsentlig – GPT-OSS 120B vid 12,64 token/sec känns trög jämfört med GPT-OSS 20B vid 139,93 token/sec.

Var kan jag hitta fler LLM-prestandamått och optimeringsguider?

Vår LLM-prestandahub täcker genomflöde mot latens, VRAM-gränser, parallella begäranden, minnesallokering och jämförelser av prestanda över olika körningar och hårdvara.

Hur påverkar VRAM-användning tokenhastigheten i Ollama?

Modeller som passar helt in i VRAM undviker CPU-avlastning och kör mycket snabbare. Guide om LLM-prestanda förklarar VRAM-gränser och hur de påverkar inferenshastighet.

Jämförelse av LLMs prestanda på Ollama på GPU med 16GB VRAM

LLM-hastighetstest på RTX 4080 med 16 GB VRAM

Sidinnehåll

Att köra stora språkmodeller lokalt ger dig integritet, möjlighet att använda dem offline och noll kostnader för API:er. Detta benchmark visar exakt vad man kan förvänta sig från 14 populära LLMs på Ollama på en RTX 4080.

Med en 16GB VRAM GPU mötte jag en konstant vägval: större modeller med potentiellt bättre kvalitet, eller mindre modeller med snabbare inferens. För mer om LLM-prestanda—genomflöde mot latens, VRAM-gränser, parallella förfrågningar och benchmarkar över olika körningar—se LLM-prestanda: Benchmarkar, fläskpunkter & optimering.

LLM-prestanda på Ollama - omrankning av krypmyror

TL;DR

Här är en uppdaterad jämförelsetabell över LLM-prestanda på RTX 4080 16GB med Ollama 0.17.7, (2026-03-09) tillagd Qwen 3.5 9b, 9bq8, 27b och 35b modeller:

Modell	RAM+VRAM använt	CPU/GPU-delning	Token/s
gpt-oss:20b	14 GB	100% GPU	139.93
qwen3.5:9b	9.3 GB	100% GPU	90.89
ministral-3:14b	13 GB	100% GPU	70.13
qwen3:14b	12 GB	100% GPU	61.85
qwen3.5:9b-q8_0	13 GB	100% GPU	61.22
qwen3-coder:30b	20 GB	25%/75% CPU/GPU	57.17
qwen3-vl:30b-a3b	22 GB	30%/70% CPU/GPU	50.99
glm-4.7-flash	21 GB	27%/73% CPU/GPU	33.86
nemotron-3-nano:30b	25 GB	38%/62% CPU/GPU	32.77
qwen3.5:35b	27 GB	43%/57% CPU/GPU	20.66
devstral-small-2:24b	19 GB	18%/82% CPU/GPU	18.67
mistral-small3.2:24b	19 GB	18%/82% CPU/GPU	18.51
gpt-oss:120b	66 GB	78%/22% CPU/GPU	12.64
qwen3.5:27b	24 GB	43%/57% CPU/GPU	6.48

Nyckelinsikt: Modeller som passar helt i VRAM är dramatiskt snabbare. GPT-OSS 20B uppnår 139.93 token/s, medan GPT-OSS 120B med tung CPU-avlastning kryper vid 12.64 token/s – en 11 gånger snabbare skillnad.

Testhårdvara

Benchmarken utfördes på följande system:

GPU: NVIDIA RTX 4080 med 16GB VRAM
CPU: Intel Core i7-14700 (8 P-kärnor + 12 E-kärnor)
RAM: 64GB DDR5-6000

Detta representerar en vanlig högpresterande konsumentkonfiguration för lokal LLM-inferens. Den 16GB VRAM är den kritiska begränsningen – den bestämmer vilka modeller som körs helt på GPU eller som kräver CPU-avlastning.

Förstå hur Ollama använder Intel CPU-kärnor blir viktigt när modeller överskrider VRAM-gränsen, eftersom CPU-prestandan direkt påverkar hastigheten för avlastade lager.

Syftet med denna benchmark

Huvudmålet var att mäta inferenshastighet under realistiska förhållanden. Jag visste redan från erfarenhet att Mistral Small 3.2 24B är utmärkt i språkkvalitet medan Qwen3 14B erbjuder överlägsen instruktionssäljning för mina specifika användningsfall.

Denna benchmark svarar på den praktiska frågan: Hur snabbt kan varje modell generera text, och vilken hastighetsminskning finns det för att överskrida VRAM-gränser?

Testparametrarna var:

Kontextstorlek: 19 000 token. Detta är ett genomsnittligt värde i mina genereringsförfrågningar.
Prompt: “jämför väder och klimat mellan huvudstäderna i Australien”
Mått: utvärderingshastighet (token per sekund under generering)

Ollama-installation och version

Alla tester använde Ollama version 0.15.2, den senaste versionen vid testtiden. Senare genomfördes test på Ollama v 0.17.7 – för att lägga till Qwen3.5-modeller. För en komplett referens av Ollama-kommandon som användes i denna benchmark, se Ollama cheat sheet.

För snabb återupprättning – installera Ollama på Linux:

curl -fsSL https://ollama.com/install.sh | sh

Verifiera installationen:

ollama --version

Om du behöver lagra modeller på en annan hårddisk på grund av utrymme, se hur man flyttar Ollama-modeller till en annan hårddisk.

Modeller som testades

Följande modeller testades, i alfabetisk ordning:

Modell	Parametrar	Kvantifiering	Anteckningar
devstral-small-2:24b	24B	Q4_K_M	Kodfokuserad
glm-4.7-flash	30B	Q4_K_M	Tänkande modell
gpt-oss:20b	20B	Q4_K_M	Snabbast totalt
gpt-oss:120b	120B	Q4_K_M	Största testade
ministral-3:14b	14B	Q4_K_M	Mistral’s effektiva modell
mistral-small3.2:24b	24B	Q4_K_M	Stark språkkvalitet
nemotron-3-nano:30b	30B	Q4_K_M	NVIDIA’s erbjudande
qwen3:14b	14B	Q4_K_M	Bästa instruktionssäljning
qwen3.5:9b	9B	Q4_K_M	Snabb, fullt på GPU
qwen3.5:9b-q8_0	9B	Q8_0	Högre kvalitet, fullt på GPU
qwen3.5:27b	27B	Q4_K_M	Utmärkt kvalitet, långsam på Ollama
qwen3-vl:30b-a3b	30B	Q4_K_M	Visionkraftig
qwen3-coder:30b	30B	Q4_K_M	Kodfokuserad
qwen3.5:35b	35B	Q4_K_M	Bra kodningsförmåga

För att ladda ner någon modell:

ollama pull gpt-oss:20b
ollama pull qwen3:14b

Förstå CPU-avlastning

När en modells minneskrav överskrider tillgänglig VRAM, distribuerar Ollama automatiskt modellens lager mellan GPU och systemminne. Utdata visar detta som en procentuell delning som “18%/82% CPU/GPU”.

Detta har stora prestandaefekter. Varje tokengenerering kräver dataöverföring mellan CPU och GPU-minne – en flaskehals som förstärks med varje lager som avlastas till CPU.

Mönstret är tydligt från våra resultat:

100% GPU-modeller: 61-140 token/s
70-82% GPU-modeller: 19-51 token/s
22% GPU (främst CPU): 12,6 token/s

Detta förklarar varför en 20B-parametrarmodell kan överträffa en 120B-modell med 11 gånger i praktiken. Om du planerar att servera flera samtidiga förfrågningar, blir förståelsen av hur Ollama hanterar parallella förfrågningar avgörande för kapacitetsplanering.

Detaljerade benchmarkresultat

Modeller som körs 100% på GPU

GPT-OSS 20B – Härren i hastighet

ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000

NAME           SIZE     PROCESSOR    CONTEXT
gpt-oss:20b    14 GB    100% GPU     19000

eval count:           2856 token(s)
eval duration:        20.410517947s
eval rate:            139.93 tokens/s

Med 139.93 token/s är GPT-OSS 20B tydligt vinnare för hastighetskritiska tillämpningar. Den använder endast 14 GB VRAM, vilket lämnar utrymme för större kontextfönster eller andra GPU-belastningar.

Qwen3 14B – Utmärkt balans

ollama run qwen3:14b --verbose
/set parameter num_ctx 19000

NAME         SIZE     PROCESSOR    CONTEXT
qwen3:14b    12 GB    100% GPU     19000

eval count:           3094 token(s)
eval duration:        50.020594575s
eval rate:            61.85 tokens/s

Qwen3 14B erbjuder bästa instruktionssäljning enligt min erfarenhet, med en bekväm 12 GB minnesfotavtryck. Vid 61.85 token/s är den tillräckligt snabb för interaktiv användning.

För utvecklare som integrerar Qwen3 i tillämpningar, se LLM-strukturerad utdata med Ollama och Qwen3 för att extrahera strukturerad JSON-utdata.

Ministral 3 14B – Snabb och kompakt

ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000

NAME               SIZE     PROCESSOR    CONTEXT
ministral-3:14b    13 GB    100% GPU     19000

eval count:           1481 token(s)
eval duration:        21.11734277s
eval rate:            70.13 tokens/s

Mistral:s mindre modell levererar 70.13 token/s medan den passar helt i VRAM. En solid val när du behöver Mistral-familjens kvalitet vid maximal hastighet.

qwen3.5:9b - snabb och ny

ollama run  qwen3.5:9b --verbose
/set parameter num_ctx 19000
jämför väder och klimat mellan huvudstäderna i Australien

NAME          ID              SIZE      PROCESSOR    CONTEXT
qwen3.5:9b    6488c96fa5fa    9.3 GB    100% GPU     19000

eval count:           3802 token(s)
eval duration:        41.830174597s
eval rate:            90.89 tokens/s

qwen3.5:9b-q8_0 - q8 kvantifiering

Denna kvantifiering minskar qwen3.5:9b-prestanda med 30% jämfört med q4.

ollama run  qwen3.5:9b-q8_0 --verbose
/set parameter num_ctx 19000

jämför väder och klimat mellan huvudstäderna i Australien
NAME               ID              SIZE     PROCESSOR    CONTEXT
qwen3.5:9b-q8_0    441ec31e4d2a    13 GB    100% GPU     19000

eval count:           3526 token(s)
eval duration:        57.595540159s
eval rate:            61.22 tokens/s

Modeller som kräver CPU-avlastning

qwen3-coder:30b - snabbaste från 30b LLM-uppsättningen eftersom den är textendast

ollama run qwen3-coder:30b --verbose
/set parameter num_ctx 19000
jämför väder och klimat mellan huvudstäderna i Australien

NAME               ID              SIZE     PROCESSOR          CONTEXT
qwen3-coder:30b    06c1097efce0    20 GB    25%/75% CPU/GPU    19000
22%/605%

eval count:           559 token(s)
eval duration:        9.77768875s
eval rate:            57.17 tokens/s

Qwen3-VL 30B – Bästa delvis avlastade prestanda

ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000

NAME                         SIZE     PROCESSOR          CONTEXT
qwen3-vl:30b-a3b-instruct    22 GB    30%/70% CPU/GPU    19000

eval count:           1450 token(s)
eval duration:        28.439319709s
eval rate:            50.99 tokens/s

Trots att 30% av lager är på CPU, behåller Qwen3-VL 50.99 token/s – snabbare än vissa 100% GPU-modeller. Visionförmågan ger en större flexibilitet för multimodala uppgifter.

Mistral Small 3.2 24B – Kvalitet mot hastighet

ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000

NAME                    SIZE     PROCESSOR          CONTEXT
mistral-small3.2:24b    19 GB    18%/82% CPU/GPU    19000

eval count:           831 token(s)
eval duration:        44.899859038s
eval rate:            18.51 tokens/s

Mistral Small 3.2 erbjuder överlägsen språkkvalitet men betalar en hög hastighetspenning. Vid 18.51 token/s känns den uppenbart långsamare för interaktiv chatten. Värt det för uppgifter där kvalitet är viktigare än latens.

GLM 4.7 Flash – MoE tänkande modell

ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000

NAME                 SIZE     PROCESSOR          CONTEXT
glm-4.7-flash        21 GB    27%/73% CPU/GPU    19000

eval count:           2446 token(s)
eval duration:        1m12.239164004s
eval rate:            33.86 tokens/s

GLM 4.7 Flash är en 30B-A3B Mixture of Experts-modell – 30B totala parametrar med endast 3B aktiva per token. Som en “tänkande” modell genererar den interna resonemang före svar. Den 33.86 token/s inkluderar både tänkande och utdata-token. Även med CPU-avlastning håller MoE-arkitekturen den tillräckligt snabb.

qwen3.5:35b - ny modell med decent självvärddad prestanda

ollama run qwen3.5:35b --verbose
/set parameter num_ctx 19000
jämför väder och klimat mellan huvudstäderna i Australien

NAME           ID              SIZE     PROCESSOR          CONTEXT
qwen3.5:35b    4af949f8bdf0    27 GB    43%/57% CPU/GPU    19000

eval count:           3418 token(s)
eval duration:        2m45.458926548s
eval rate:            20.66 tokens/s

GPT-OSS 120B – Den tunga krigaren

ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000

NAME            SIZE     PROCESSOR          CONTEXT
gpt-oss:120b    66 GB    78%/22% CPU/GPU    19000

eval count:           5008 token(s)
eval duration:        6m36.168233066s
eval rate:            12.64 tokens/s

Att köra en 120B-modell på 16GB VRAM är tekniskt möjligt men smärtsamt. Med 78% på CPU gör den 12.64 token/s till en frustrerande upplevelse för interaktiv användning. Bättre anpassad för batchbearbetning där latens inte spelar någon roll.

qwen3.5:27b - smart men långsam på Ollama

ollama run qwen3.5:27b --verbose
/set parameter num_ctx 19000
jämför väder och klimat mellan huvudstäderna i Australien

NAME           ID              SIZE     PROCESSOR          CONTEXT
qwen3.5:27b    193ec05b1e80    24 GB    43%/57% CPU/GPU    19000

eval count:           3370 token(s)
eval duration:        8m40.087510281s
eval rate:            6.48 tokens/s

Jag har testat qwen3.5:27b och fått extremt goda åsikter på denna modells prestanda med OpenCode. Den är mycket förmögen, kunskapsrik, verkligen bra verktygssamtal, trots att den är långsam på min dator på Ollama. Jag har testat andra LLM-självvärddade plattformar, och fått mycket högre hastigheter. Jag tror det är dags att sluta använda Ollama. Skall skriva lite om det senare.

Praktiska rekommendationer

För interaktiv chatten

Använd modeller som passar 100% i VRAM:

GPT-OSS 20B – Maximal hastighet (139.93 t/s)
Ministral 3 14B – Bra hastighet med Mistral-kvalitet (70.13 t/s)
Qwen3 14B – Bästa balansen av hastighet och förmåga för instruktionssäljning (61.85 t/s)

För en bättre chattupplevelse, överväg Öppen källkod chattgränssnitt för lokal Ollama.

För batchbearbetning

Detta är igen, på min utrustning - 14GB VRAM.

När hastighet är mindre kritisk:

Mistral Small 3.2 24B – Överlägsen språkkvalitet
Qwen3-VL 30B – Vision + textförmåga

När hastighet inte alls är kritisk:

Qwen3.5:35b - Bra kodningsförmåga
Qwen3.5:27b - Extremt bra, men långsam på Ollama. Jag har haft mycket framgång med att värd denna modell på llama.cpp.

För utveckling och kodning

Om du bygger tillämpningar med Ollama:

Alternativa värdalternativ

Om Ollamas begränsningar orsakar bekymmer (se Ollama enshittification-förhållanden), undersök andra alternativ i Värdgide för lokala LLM eller jämför Docker-modellkörare mot Ollama.

Slutsats

Med 16GB VRAM kan du köra förmögna LLM:er vid imponerande hastigheter – om du väljer rätt. De viktigaste hittills:

Stanna inom VRAM-gränserna för interaktiv användning. En 20B-modell vid 140 token/s besegrar en 120B-modell vid 12 token/s för de flesta praktiska ändamål.
GPT-OSS 20B vinner i ren hastighet, men Qwen3 14B erbjuder bästa balansen av hastighet och förmåga för instruktionssäljning.
CPU-avlastning fungerar men förvänta dig 3-10 gånger försämring. Acceptabel för batchbearbetning, frustrerande för chatt.
Kontextstorlek spelar roll. Den 19K kontext som används här ökar VRAM-användningen mycket. Minska kontexten för bättre GPU-utnyttjande.

För AI-baserad sökning som kombinerar lokala LLM:er med webbresultat, se självvärddad Perplexica med Ollama.

För att utforska fler benchmarkar, VRAM- och genomflödesutbyten och prestandatuning över Ollama och andra körningar, se vår LLM-prestanda: Benchmarkar, fläskpunkter & optimering hubb.