Bästa LLM:erna för Ollama på GPU med 16GB VRAM

LLM-hastighetstest på RTX 4080 med 16 GB VRAM

Sidinnehåll

Körning av stora språkmodeller lokalt ger dig integritet, möjlighet att använda dem offline och noll kostnader för API:er. Detta benchmark visar exakt vad man kan förvänta sig från 9 populära LLMs på Ollama på en RTX 4080.

Med en 16GB VRAM GPU mötte jag en konstant vägval: större modeller med potentiellt bättre kvalitet eller mindre modeller med snabbare inferens.

7 llamas - Jämförelse av LLMs på Ollama

TL;DR

Här är jämförelsetabellen över LLM-prestanda på RTX 4080 16GB med Ollama 0.15.2:

Modell RAM+VRAM Använd CPU/GPU Split Tokens/sec
gpt-oss:20b 14 GB 100% GPU 139.93
ministral-3:14b 13 GB 100% GPU 70.13
qwen3:14b 12 GB 100% GPU 61.85
qwen3-vl:30b-a3b 22 GB 30%/70% 50.99
glm-4.7-flash 21 GB 27%/73% 33.86
nemotron-3-nano:30b 25 GB 38%/62% 32.77
devstral-small-2:24b 19 GB 18%/82% 18.67
mistral-small3.2:24b 19 GB 18%/82% 18.51
gpt-oss:120b 66 GB 78%/22% 12.64

Nyckelinsikt: Modeller som passar helt i VRAM är dramatiskt snabbare. GPT-OSS 20B uppnår 139.93 tokens/sec, medan GPT-OSS 120B med tung CPU-avlastning kryper vid 12.64 tokens/sec – en 11-faldig hastighetsförsämring.

Testutrustning

Benchmarken utfördes på följande system:

  • GPU: NVIDIA RTX 4080 med 16GB VRAM
  • CPU: Intel Core i7-14700 (8 P-kerne + 12 E-kerne)
  • RAM: 64GB DDR5-6000

Detta representerar en vanlig högpresterande konsumentkonfiguration för lokal LLM-inferens. Den 16GB VRAM är den kritiska begränsningen – den avgör vilka modeller som körs helt på GPU eller kräver CPU-avlastning.

Förstå hur Ollama använder Intel CPU-kerne blir viktigt när modeller överskrider VRAM-gränsen, eftersom CPU-prestanda direkt påverkar hastigheten för avlastade lager.

Syftet med denna benchmark

Huvudmålet var att mäta inferenshastighet under realistiska förhållanden. Jag visste redan från erfarenhet att Mistral Small 3.2 24B är utmärkt för språkkvalitet medan Qwen3 14B erbjuder bättre instruktionssäljande för mina specifika användningsfall.

Denna benchmark besvarar den praktiska frågan: Hur snabbt kan varje modell generera text, och vilken hastighetsförsämring sker vid överskridande av VRAM-gränser?

Testparametrarna var:

  • Kontextstorlek: 19 000 tokens
  • Prompt: “jämför väder och klimat mellan huvudstäderna i Australien”
  • Mått: eval-hastighet (tokens per sekund under generering)

Ollamainstallation och version

Alla tester använde Ollama version 0.15.2, den senaste versionen vid testtiden. För en fullständig referens av Ollama-kommandon som används i denna benchmark, se Ollama cheatsheet.

För att installera Ollama på Linux:

curl -fsSL https://ollama.com/install.sh | sh

Verifiera installationen:

ollama --version

Om du behöver lagra modeller på en annan disk på grund av utrymme, se hur man flyttar Ollama-modeller till en annan disk.

Modeller som testats

Följande modeller testades:

Modell Parametrar Kvantisering Anteckningar
gpt-oss:20b 20B Q4_K_M Snabbast overall
gpt-oss:120b 120B Q4_K_M Största testade
qwen3:14b 14B Q4_K_M Bästa instruktionssäljande
qwen3-vl:30b-a3b 30B Q4_K_M Visionkomplicerad
ministral-3:14b 14B Q4_K_M Mistral’s effektiva modell
mistral-small3.2:24b 24B Q4_K_M Stark språkkvalitet
devstral-small-2:24b 24B Q4_K_M Kodfokuserad
glm-4.7-flash 30B Q4_K_M Tänkande modell
nemotron-3-nano:30b 30B Q4_K_M NVIDIA’s erbjudande

För att ladda ner någon modell:

ollama pull gpt-oss:20b
ollama pull qwen3:14b

Förståelse av CPU-avlastning

När en modells minneskrav överskrider tillgänglig VRAM, distribuerar Ollama automatiskt modellens lager mellan GPU och systemminne. Utdata visar detta som en procentuell delning som “18%/82% CPU/GPU”.

Detta har stora prestandaefekter. Varje tokengenerering kräver dataöverföring mellan CPU och GPU-minne – en fläsk som försämras med varje lager som avlastas till CPU.

Mönstret är tydligt från våra resultat:

  • 100% GPU-modeller: 61-140 tokens/sec
  • 70-82% GPU-modeller: 19-51 tokens/sec
  • 22% GPU (främst CPU): 12,6 tokens/sec

Detta förklarar varför en 20B-parametermodell kan överträffa en 120B-modell med 11 gånger i praktiken. Om du planerar att serva flera samtidiga begäranden, blir förståelsen av hur Ollama hanterar parallella begäranden avgörande för kapacitetsplanering.

Detaljerade benchmarkresultat

Modeller som kör 100% på GPU

GPT-OSS 20B – Hastighetsvinnaren

ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000

NAME           SIZE     PROCESSOR    CONTEXT
gpt-oss:20b    14 GB    100% GPU     19000

eval count:           2856 token(s)
eval duration:        20.410517947s
eval rate:            139.93 tokens/s

På 139.93 tokens/sec är GPT-OSS 20B tydligt vinnare för hastighetskritiska tillämpningar. Den använder bara 14 GB VRAM, vilket lämnar utrymme för större kontextfönster eller andra GPU-burden.

Qwen3 14B – Bra balans

ollama run qwen3:14b --verbose
/set parameter num_ctx 19000

NAME         SIZE     PROCESSOR    CONTEXT
qwen3:14b    12 GB    100% GPU     19000

eval count:           3094 token(s)
eval duration:        50.020594575s
eval rate:            61.85 tokens/s

Qwen3 14B erbjuder den bästa instruktionssäljande i min erfarenhet, med ett bekvämt 12 GB minnesfotavtryck. På 61.85 tokens/sec är den tillräckligt snabb för interaktiv användning.

För utvecklare som integrerar Qwen3 i tillämpningar, se LLM Strukturerad utdata med Ollama och Qwen3 för att extrahera strukturerad JSON-utdata.

Ministral 3 14B – Snabb och kompakt

ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000

NAME               SIZE     PROCESSOR    CONTEXT
ministral-3:14b    13 GB    100% GPU     19000

eval count:           1481 token(s)
eval duration:        21.11734277s
eval rate:            70.13 tokens/s

Mistral’s mindre modell levererar 70.13 tokens/sec medan den passar helt i VRAM. En fast och bra val när du behöver Mistral-familjens kvalitet vid maximal hastighet.

Modeller som kräver CPU-avlastning

Qwen3-VL 30B – Bästa delvis avlastade prestanda

ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000

NAME                         SIZE     PROCESSOR          CONTEXT
qwen3-vl:30b-a3b-instruct    22 GB    30%/70% CPU/GPU    19000

eval count:           1450 token(s)
eval duration:        28.439319709s
eval rate:            50.99 tokens/s

Trots att 30% av lager på CPU, upprätthåller Qwen3-VL 50.99 tokens/sec – snabbare än vissa 100% GPU-modeller. Visionförmågan lägger till flexibilitet för multimodala uppgifter.

Mistral Small 3.2 24B – Kvalitet mot hastighet

ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000

NAME                    SIZE     PROCESSOR          CONTEXT
mistral-small3.2:24b    19 GB    18%/82% CPU/GPU    19000

eval count:           831 token(s)
eval duration:        44.899859038s
eval rate:            18.51 tokens/s

Mistral Small 3.2 erbjuder överlägsen språkkvalitet men betalar en hög hastighetspris. Vid 18.51 tokens/sec känns det tydligt långsammare för interaktiv chatten. Värt det för uppgifter där kvalitet är viktigare än latens.

GLM 4.7 Flash – MoE tänkande modell

ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000

NAME                 SIZE     PROCESSOR          CONTEXT
glm-4.7-flash        21 GB    27%/73% CPU/GPU    19000

eval count:           2446 token(s)
eval duration:        1m12.239164004s
eval rate:            33.86 tokens/s

GLM 4.7 Flash är en 30B-A3B Mixture of Experts-modell – 30B totala parametrar med bara 3B aktiva per token. Som en “tänkande” modell genererar den interna resonemang före svar. Den 33.86 tokens/sec inkluderar både tänkande och utdata-tokens. Även med CPU-avlastning håller MoE-arkitekturen den tillräckligt snabb.

GPT-OSS 120B – Den tunga kampen

ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000

NAME            SIZE     PROCESSOR          CONTEXT
gpt-oss:120b    66 GB    78%/22% CPU/GPU    19000

eval count:           5008 token(s)
eval duration:        6m36.168233066s
eval rate:            12.64 tokens/s

Att köra en 120B-modell på 16GB VRAM är tekniskt möjligt men smärtsamt. Med 78% på CPU, den 12.64 tokens/sec gör interaktiv användning frustrerande. Bättre lämpad för batchbearbetning där latens inte spelar roll.

Praktiska rekommendationer

För interaktiv chatten

Använd modeller som passar 100% i VRAM:

  1. GPT-OSS 20B – Maximal hastighet (139.93 t/s)
  2. Ministral 3 14B – Bra hastighet med Mistral-kvalitet (70.13 t/s)
  3. Qwen3 14B – Bästa instruktionssäljande (61.85 t/s)

För en bättre chattupplevelse, överväg Öppen källkod chatten UI för lokal Ollama.

För batchbearbetning

När hastighet är mindre kritisk:

  • Mistral Small 3.2 24B – Överlägsen språkkvalitet
  • Qwen3-VL 30B – Vision + textförmåga

För utveckling och kodning

Om du bygger tillämpningar med Ollama:

Alternativa värdalternativ

Om Ollamas begränsningar orsakar oro (se Ollama enshittification bekymmer), utforska andra alternativ i Lokal LLM-värdguide eller jämför Docker Modellkörare mot Ollama.

Slutsats

Med 16GB VRAM kan du köra kapabla LLMs vid imponerande hastigheter – om du väljer rätt. De viktigaste slutsatserna:

  1. Behåll VRAM-gränserna för interaktiv användning. En 20B-modell vid 140 tokens/sec slår en 120B-modell vid 12 tokens/sec för de flesta praktiska syften.

  2. GPT-OSS 20B vinner på ren hastighet, men Qwen3 14B erbjuder bästa balansen av hastighet och förmåga för instruktionssäljande uppgifter.

  3. CPU-avlastning fungerar men förvänta dig 3-10 gånger försämring. Acceptabel för batchbearbetning, frustrerande för chatten.

  4. Kontextstorlek spelar roll. Den 19K kontext som används här ökar VRAM-användningen betydligt. Minska kontexten för bättre GPU-användning.

För AI-drivna sökningar som kombinerar lokala LLMs med webbresultat, se självvärdd Perplexica med Ollama.

Några användbara länkar

Interna resurser

Externa referenser