Vilken LLM är snabbast på en GPU med 16 GB VRAM med Ollama?

GPT-OSS 20B uppnådde den högsta hastigheten på 139,93 tokens/sek och fick plats helt i 16 GB VRAM. Den körs till 100 % på GPU:n utan CPU-offloading, vilket gör den idealisk för tillämpningar med höga hastighetskrav.

Vad händer när en LLM överstiger 16 GB VRAM?

Ollama avlastar automatiskt modellager till systemminne och CPU. Detta minskar prestandan avsevärt – till exempel faller Mistral Small 3.2 24B till 18,51 token/sek när 18 % av lagren körs på CPU:n.

Hur påverkar kontextstörleken VRAM-användningen i Ollama?

Större kontextfönster kräver mer VRAM för KV-cachen. Vid användning av 19K kontext kan en modell som ryms i VRAM med 4K kontext kräva CPU-offloading. Minska kontextstorleken om du vill maximera GPU-utnyttjandet.

Är Qwen3 14B bra för en GPU med 16 GB?

Ja. Qwen3 14B använder endast 12 GB VRAM och körs 100 % på GPU med 61,85 token/sek. Den erbjuder utmärkt förmåga att följa instruktioner och passar bekvämt i 16 GB med utrymme för större kontextstorlekar.

Skulle jag använda större modeller med CPU-offloading eller mindre modeller helt på GPU?

För interaktiva användningsområden är mindre modeller som kör 100 % på GPU vanligtvis bättre. Hastighetsförlusten vid CPU-offloading är avsevärd – GPT-OSS 120B vid 12,64 token/sekund känns trög i jämförelse med GPT-OSS 20B vid 139,93 token/sekund.

Var kan jag hitta fler prestandajämförelser och optimeringsguider för LLM?

Vår LLM Performance-hub behandlar genomströmning mot latens, VRAM-begränsningar, parallella begäran, minnesallokering och prestandamätningar över olika körningar och hårdvara.

Hur påverkas tokenhastigheten av VRAM-användningen i Ollama?

Modeller som får plats helt i VRAM undviker CPU-offloading och kör mycket snabbare. Guiden för LLM-prestanda beskriver VRAM-gränserna och hur de påverkar inference-hastigheten.

Jämförelse av LLM:ers prestanda på Ollama med en GPU med 16 GB VRAM

Hastighetstest för LLM på RTX 4080 med 16 GB VRAM

Sidinnehåll

Att köra stora språkmodeller (LLM) lokalt ger dig integritet, offline-funktionalitet och inga API-kostnader. Denna benchmark visar exakt vad man kan förvänta sig från 14 populära LLM-modeller i Ollama på en RTX 4080.

Med en GPU med 16 GB VRAM stod jag inför ett ständigt avvägning: större modeller med potentiellt bättre kvalitet, eller mindre modeller med snabbare inferens. För mer information om LLM-prestanda—genomströmning vs. latens, VRAM-begränsningar, parallella förfrågningar och benchmarks över olika runtime-miljöer—se LLM-prestanda: Benchmarks, flaskhalsar & optimering.

Denna artikel fokuserar på Ollama. För samma GPU-klass på 16 GB mätt med llama.cpp vid 19K, 32K och 64K kontext (VRAM, GPU-belastning, tokens per sekund över dense- och MoE-checkpoints), se 16 GB VRAM LLM-benchmarks med llama.cpp (hastighet och kontext).

När genomströmning och VRAM-fördelning ser acceptabla ut kräver agentliknande arbetsbelastningar fortfarande rimliga temperatur- och straffförinställningar för Qwen- och Gemma-stilar; se inferensparametrar för agenter för Qwen och Gemma.

LLM-prestanda i Ollama - omrangordning av kackerlackor

TL;DR

Här är en uppdaterad jämförelsetabell över LLM-prestanda på RTX 4080 16 GB med Ollama 0.17.7, (2026-03-09) tillagt Qwen 3.5 9b, 9bq8, 27b och 35b-modeller:

Modell	Använt RAM+VRAM	CPU/GPU-fördelning	Tokens/sek
gpt-oss:20b	14 GB	100% GPU	139.93
qwen3.5:9b	9.3 GB	100% GPU	90.89
ministral-3:14b	13 GB	100% GPU	70.13
qwen3:14b	12 GB	100% GPU	61.85
qwen3.5:9b-q8_0	13 GB	100% GPU	61.22
qwen3-coder:30b	20 GB	25%/75% CPU/GPU	57.17
qwen3-vl:30b-a3b	22 GB	30%/70% CPU/GPU	50.99
glm-4.7-flash	21 GB	27%/73% CPU/GPU	33.86
nemotron-3-nano:30b	25 GB	38%/62% CPU/GPU	32.77
qwen3.5:35b	27 GB	43%/57% CPU/GPU	20.66
devstral-small-2:24b	19 GB	18%/82% CPU/GPU	18.67
mistral-small3.2:24b	19 GB	18%/82% CPU/GPU	18.51
gpt-oss:120b	66 GB	78%/22% CPU/GPU	12.64
qwen3.5:27b	24 GB	43%/57% CPU/GPU	6.48

Nyckelinsikt: Modeller som får plats helt i VRAM är dramatiskt snabbare. GPT-OSS 20B uppnår 139,93 tokens/sek, medan GPT-OSS 120B med tung CPU-offloading kryper på 12,64 tokens/sek—en hastighetskillnad på 11 gånger.

Testhårdvaruuppsättning

Benchmarks genomfördes på följande system:

GPU: NVIDIA RTX 4080 med 16 GB VRAM
CPU: Intel Core i7-14700 (8 P-kärnor + 12 E-kärnor)
RAM: 64 GB DDR5-6000

Detta representerar en vanlig high-end konsumentkonfiguration för lokal LLM-inferens. 16 GB VRAM är den kritiska begränsningen—den avgör vilka modeller som körs helt på GPU jämfört med de som kräver CPU-offloading.

Att förstå hur Ollama använder Intel CPU-kärnor blir viktigt när modeller överskrider VRAM-kapaciteten, eftersom CPU-prestanda direkt påverkar inferenshastigheten för offloadade lager.

Syftet med denna benchmark

Det primära målet var att mäta inferenshastighet under realistiska förhållanden. Jag visade redan från erfarenhet att Mistral Small 3.2 24B utmärker sig för språkkvalitet medan Qwen3 14B erbjuder överlägsen instruktionföljsamhet för mina specifika användningsfall.

Denna benchmark besvarar den praktiska frågan: Hur snabbt kan varje modell generera text, och vilken hastighetsstraff finns det för att överskrida VRAM-gränser?

Testparametrarna var:

Kontextstorlek: 19 000 tokens. Detta är medelvärde i mina Generate-förfrågningar.
Prompt: “compare weather and climate between capital cities of australia” (jämför väder och klimat mellan Australiens huvudstäder)
Mätvärde: eval rate (tokens per sekund under generation)

Ollama-installation och version

Alla test använde Ollama version 0.15.2, den senaste versionen vid testtidpunkten. Senare kördes om på Ollama v 0.17.7 - för att lägga till Qwen3.5-modeller. För en komplett referens över Ollama-kommandon använda i denna benchmark, se Ollama-cheat sheet.

För en snabb sammanfattning - installera Ollama på Linux:

curl -fsSL https://ollama.com/install.sh | sh

Verifiera installationen:

ollama --version

Om du behöver lagra modeller på en annan enhet på grund av utrymmesbegränsningar, kolla hur man flyttar Ollama-modeller till en annan enhet.

Modeller som testats

Följande modeller benchmarkades, i alfabetisk ordning:

Modell	Parametrar	Kvantisering	Noter
devstral-small-2:24b	24B	Q4_K_M	Kodspråk
glm-4.7-flash	30B	Q4_K_M	Tankemodell
gpt-oss:20b	20B	Q4_K_M	Snabbast totalt
gpt-oss:120b	120B	Q4_K_M	Störst testad
ministral-3:14b	14B	Q4_K_M	Mistrals effektiva modell
mistral-small3.2:24b	24B	Q4_K_M	Stark språkkvalitet
nemotron-3-nano:30b	30B	Q4_K_M	NVIDIAs erbjudande
qwen3:14b	14B	Q4_K_M	Bäst instruktionföljsamhet
qwen3.5:9b	9B	Q4_K_M	Snabb, helt GPU
qwen3.5:9b-q8_0	9B	Q8_0	Högre kvalitet, helt GPU
qwen3.5:27b	27B	Q4_K_M	Utmärkt kvalitet, långsam i Ollama
qwen3-vl:30b-a3b	30B	Q4_K_M	Vision-capable
qwen3-coder:30b	30B	Q4_K_M	Kodspråk
qwen3.5:35b	35B	Q4_K_M	Goda kodningsmöjligheter

För att ladda ner valfri modell:

ollama pull gpt-oss:20b
ollama pull qwen3:14b

Förstå CPU-offloading

När en modells minnesbehov överskrider tillgänglig VRAM distribuerar Ollama automatiskt modellager mellan GPU och systemminne. Utdata visar detta som en procentuell fördelning som “18%/82% CPU/GPU”.

Detta har massiva prestandakonsekvenser. Varje token-generation kräver dataöverföring mellan CPU- och GPU-minne—en flaskhals som förvärras med varje lager som offloadas till CPU.

Mönstret är tydligt från våra resultat:

100% GPU-modeller: 61-140 tokens/sek
70-82% GPU-modeller: 19-51 tokens/sek
22% GPU (huvudsakligen CPU): 12,6 tokens/sek

Detta förklarar varför en 20B-parametermodell kan överträffa en 120B-modell med 11 gånger i praktiken. Om du planerar att servera flera samtidiga förfrågningar blir det viktigt att förstå hur Ollama hanterar parallella förfrågningar för kapacitetsplanering.

Detaljerade benchmarkresultat

Modeller som körs 100% på GPU

GPT-OSS 20B — Hastighetsmästaren

ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000

NAME           SIZE     PROCESSOR    CONTEXT
gpt-oss:20b    14 GB    100% GPU     19000

eval count:           2856 token(s)
eval duration:        20.410517947s
eval rate:            139.93 tokens/s

Med 139,93 tokens/sek är GPT-OSS 20B den klara vinnaren för hastighetskritiska applikationer. Den använder endast 14 GB VRAM, vilket lämnar utrymme för större kontextfönster eller andra GPU-arbetsbelastningar.

Qwen3 14B — Utmärkt balans

ollama run qwen3:14b --verbose
/set parameter num_ctx 19000

NAME         SIZE     PROCESSOR    CONTEXT
qwen3:14b    12 GB    100% GPU     19000

eval count:           3094 token(s)
eval duration:        50.020594575s
eval rate:            61.85 tokens/s

Qwen3 14B erbjuder den bästa instruktionföljsamheten enligt min erfarenhet, med en bekväm minnesfot på 12 GB. Vid 61,85 tokens/sek är den tillräckligt responsiv för interaktiv användning.

För utvecklare som integrerar Qwen3 i applikationer, se Strukturerad utdata från LLM med Ollama och Qwen3 för att extrahera strukturerade JSON-svar.

Ministral 3 14B — Snabb och kompakt

ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000

NAME               SIZE     PROCESSOR    CONTEXT
ministral-3:14b    13 GB    100% GPU     19000

eval count:           1481 token(s)
eval duration:        21.11734277s
eval rate:            70.13 tokens/s

Mistrals mindre modell levererar 70,13 tokens/sek medan den får plats helt i VRAM. Ett solid val när du behöver Mistral-familjens kvalitet med maximal hastighet.

qwen3.5:9b - snabb och ny

ollama run  qwen3.5:9b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME          ID              SIZE      PROCESSOR    CONTEXT
qwen3.5:9b    6488c96fa5fa    9.3 GB    100% GPU     19000

eval count:           3802 token(s)
eval duration:        41.830174597s
eval rate:            90.89 tokens/s

qwen3.5:9b-q8_0 - q8-quant

Denna quant sänker prestandan för qwen3.5:9b med 30% jämfört med q4.

ollama run  qwen3.5:9b-q8_0 --verbose
/set parameter num_ctx 19000

compare weather and climate between capital cities of australia
NAME               ID              SIZE     PROCESSOR    CONTEXT
qwen3.5:9b-q8_0    441ec31e4d2a    13 GB    100% GPU     19000

eval count:           3526 token(s)
eval duration:        57.595540159s
eval rate:            61.22 tokens/s

Modeller som kräver CPU-offloading

qwen3-coder:30b - snabbast bland 30B LLM-set eftersom den är text-only

ollama run qwen3-coder:30b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME               ID              SIZE     PROCESSOR          CONTEXT
qwen3-coder:30b    06c1097efce0    20 GB    25%/75% CPU/GPU    19000
22%/605%

eval count:           559 token(s)
eval duration:        9.77768875s
eval rate:            57.17 tokens/s

Qwen3-VL 30B — Bäst prestanda vid delvis offloading

ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000

NAME                         SIZE     PROCESSOR          CONTEXT
qwen3-vl:30b-a3b-instruct    22 GB    30%/70% CPU/GPU    19000

eval count:           1450 token(s)
eval duration:        28.439319709s
eval rate:            50.99 tokens/s

Trots att 30% av lagren ligger på CPU, upprätthåller Qwen3-VL 50,99 tokens/sek—snabbare än vissa 100% GPU-modeller. Vision-funktionaliteten lägger till mångsidighet för multimodala uppgifter.

Mistral Small 3.2 24B — Avvägning mellan kvalitet och hastighet

ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000

NAME                    SIZE     PROCESSOR          CONTEXT
mistral-small3.2:24b    19 GB    18%/82% CPU/GPU    19000

eval count:           831 token(s)
eval duration:        44.899859038s
eval rate:            18.51 tokens/s

Mistral Small 3.2 erbjuder överlägsen språkkvalitet men betalar en brant hastighetsstraff. Vid 18,51 tokens/sek känns den märkbart långsammare för interaktiv chatt. Värt det för uppgifter där kvalitet väger tyngre än latens.

GLM 4.7 Flash — MoE-tankemodell

ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000

NAME                 SIZE     PROCESSOR          CONTEXT
glm-4.7-flash        21 GB    27%/73% CPU/GPU    19000

eval count:           2446 token(s)
eval duration:        1m12.239164004s
eval rate:            33.86 tokens/s

GLM 4.7 Flash är en 30B-A3B Mixture of Experts-modell—30B totala parametrar med endast 3B aktiva per token. Som en “tankemodell” genererar den intern resonemang innan svar. De 33,86 tokens/sek inkluderar både tänkande- och utdatatokens. Trots CPU-offloading håller MoE-arkitekturen den rimligt snabb.

qwen3.5:35b - Ny modell med anständig self-hosted-prestanda

ollama run qwen3.5:35b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME           ID              SIZE     PROCESSOR          CONTEXT
qwen3.5:35b    4af949f8bdf0    27 GB    43%/57% CPU/GPU    19000

eval count:           3418 token(s)
eval duration:        2m45.458926548s
eval rate:            20.66 tokens/s

GPT-OSS 120B — Den tunga aktören

ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000

NAME            SIZE     PROCESSOR          CONTEXT
gpt-oss:120b    66 GB    78%/22% CPU/GPU    19000

eval count:           5008 token(s)
eval duration:        6m36.168233066s
eval rate:            12.64 tokens/s

Att köra en 120B-modell på 16 GB VRAM är tekniskt möjligt men smärtsamt. Med 78% på CPU gör 12,64 tokens/sek interaktiv användning frustrerande. Bättre lämpad för batchbearbetning där latens inte spelar roll.

qwen3.5:27b - Smart men långsam i Ollama

ollama run qwen3.5:27b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME           ID              SIZE     PROCESSOR          CONTEXT
qwen3.5:27b    193ec05b1e80    24 GB    43%/57% CPU/GPU    19000

eval count:           3370 token(s)
eval duration:        8m40.087510281s
eval rate:            6.48 tokens/s

Jag har testat qwen3.5:27b och fått extremt goda intryck av denna modells prestanda med OpenCode. Den är mycket kapabel, kunnig, verkligen bra på tool calling, även om den är långsam på min maskin i Ollama. Jag har provat andra plattformar för self-hosting av LLM och fått mycket högre hastigheter. Jag tror att det är dags att släppa Ollama. Skriv mer om det lite senare.

Praktiska rekommendationer

För interaktiv chatt

Använd modeller som får plats 100% i VRAM:

GPT-OSS 20B — Maximal hastighet (139,93 t/s)
Ministral 3 14B — God hastighet med Mistral-kvalitet (70,13 t/s)
Qwen3 14B — Bäst instruktionföljsamhet (61,85 t/s)

För en bättre chatupplevelse, överväg Open-Source Chat UI för lokal Ollama.

För batchbearbetning

Detta gäller för min utrustning - 14 GB VRAM.

När hastighet är mindre kritisk:

Mistral Small 3.2 24B — Överlägsen språkkvalitet
Qwen3-VL 30B — Vision + text-funktionalitet

När hastighet inte är kritisk alls:

Qwen3.5:35b - Goda kodningsmöjligheter
Qwen3.5:27b - Extremt bra, men långsam i Ollama. Jag har haft ganska stor framgång med att hosta denna modell på llama.cpp dock.

För utveckling och kodning

Om du bygger applikationer med Ollama:

Python-integrationsexempel
[Go SDK-jämförelse]({< ref “/llm-hosting/ollama/using-ollama-in-go/” >}} “Go SDK för Ollama - jämförelse med exempel”)

Alternativa hostningsoptioner

Om Ollamas begränsningar oroar dig (se Ollama-enshittification-oro), utforska andra alternativ i Guiden för lokal LLM-hostning eller jämför Docker Model Runner vs Ollama.

Slutsats

Med 16 GB VRAM kan du köra kapabla LLM-modeller i imponerande hastigheter—om du väljer klokt. De viktigaste fynden:

Stanna inom VRAM-gränserna för interaktiv användning. En 20B-modell vid 140 tokens/sek slår en 120B-modell vid 12 tokens/sek för de flesta praktiska ändamål.
GPT-OSS 20B vinner på ren hastighet, men Qwen3 14B erbjuder den bästa balansen av hastighet och kapacitet för instruktionföljsamhetsuppgifter.
CPU-offloading fungerar men förvänta 3-10 gånger sänkning. Acceptabelt för batchbearbetning, frustrerande för chatt.
Kontextstorlek spelar roll. 19K-kontexten som används här ökar VRAM-användningen avsevärt. Minska kontexten för bättre GPU-utnyttjande.

För AI-driven sökning som kombinerar lokala LLM med webbsökresultat, se self-hosting Perplexica med Ollama.

För att utforska fler benchmarks, VRAM- och genomströmningavvägningar, och prestandafining över Ollama och andra runtime-miljöer, kolla vår LLM-prestanda: Benchmarks, flaskhalsar & optimering hub.

Jämförelse av LLM:ers prestanda på Ollama med en GPU med 16 GB VRAM

TL;DR

Testhårdvaruuppsättning

Syftet med denna benchmark

Ollama-installation och version

Modeller som testats

Förstå CPU-offloading

Detaljerade benchmarkresultat

Modeller som körs 100% på GPU

GPT-OSS 20B — Hastighetsmästaren

Qwen3 14B — Utmärkt balans

Ministral 3 14B — Snabb och kompakt

qwen3.5:9b - snabb och ny

qwen3.5:9b-q8_0 - q8-quant

Modeller som kräver CPU-offloading

qwen3-coder:30b - snabbast bland 30B LLM-set eftersom den är text-only

Qwen3-VL 30B — Bäst prestanda vid delvis offloading

Mistral Small 3.2 24B — Avvägning mellan kvalitet och hastighet

GLM 4.7 Flash — MoE-tankemodell

qwen3.5:35b - Ny modell med anständig self-hosted-prestanda

GPT-OSS 120B — Den tunga aktören

qwen3.5:27b - Smart men långsam i Ollama

Praktiska rekommendationer

För interaktiv chatt

För batchbearbetning

För utveckling och kodning

Alternativa hostningsoptioner

Slutsats

Användbara länkar

Interna resurser

Externa referenser

TL;DR

Testhårdvaruuppsättning

Syftet med denna benchmark

Ollama-installation och version

Modeller som testats

Förstå CPU-offloading

Detaljerade benchmarkresultat

Modeller som körs 100% på GPU

GPT-OSS 20B — Hastighetsmästaren

Qwen3 14B — Utmärkt balans

Ministral 3 14B — Snabb och kompakt

qwen3.5:9b - snabb och ny

qwen3.5:9b-q8_0 - q8-quant

Modeller som kräver CPU-offloading

qwen3-coder:30b - snabbast bland 30B LLM-set eftersom den är text-only

Qwen3-VL 30B — Bäst prestanda vid delvis offloading

Mistral Small 3.2 24B — Avvägning mellan kvalitet och hastighet

GLM 4.7 Flash — MoE-tankemodell

qwen3.5:35b - Ny modell med anständig self-hosted-prestanda

GPT-OSS 120B — Den tunga aktören

qwen3.5:27b - Smart men långsam i Ollama

Praktiska rekommendationer

För interaktiv chatt

För batchbearbetning

För utveckling och kodning

Alternativa hostningsoptioner

Slutsats

Användbara länkar

Interna resurser

Externa referenser

Prenumerera