Welk LLM is het snelst op een GPU met 16GB VRAM met Ollama?

GPT-OSS 20B bereikte de hoogste snelheid van 139,93 tokens/sec terwijl het volledig past in 16GB VRAM. Het draait 100% op GPU zonder CPU-offloading, waardoor het ideaal is voor toepassingen waarbij snelheid van cruciaal belang is.

Wat gebeurt er als een LLM meer dan 16 GB VRAM vereist?

Ollama verlaagt automatisch modellagen naar het systeemgeheugen en de CPU. Dit heeft een aanzienlijk negatief effect op de prestaties—bijvoorbeeld daalt Mistral Small 3.2 24B tot 18,51 tokens/sec wanneer 18% van de lagen op de CPU draaien.

Hoe beïnvloedt de contextgrootte de VRAM-gebruik in Ollama?

Grote contextvensters vereisen meer VRAM voor de KV-cache. Bij het gebruiken van een contextgrootte van 19K kan een model dat met een contextgrootte van 4K in de VRAM past, CPU-offloading nodig hebben. Verminder de contextgrootte als je de GPU-uitvoeringscapaciteit wilt maximaliseren.

Is Qwen3 14B geschikt voor een GPU met 16GB?

Ja. Qwen3 14B gebruikt slechts 12GB VRAM en draait 100% op de GPU met een snelheid van 61,85 tokens per seconde. Het biedt uitstekende instructievolgzaamheid en past comfortabel in 16GB, met ruimte voor grotere contextgroottes.

Zou ik betere modellen met CPU-offloading moeten gebruiken of kleinere modellen volledig op de GPU?

Voor interactieve toepassingen zijn kleinere modellen die volledig op de GPU lopen meestal beter. De snelheidsverlies door het uitladen op de CPU is aanzienlijk—GPT-OSS 120B met 12,64 tokens per seconde voelt traag in vergelijking met GPT-OSS 20B met 139,93 tokens per seconde.

Waar kan ik meer LLM-prestatiebenchmarks en optimalisatiegidsen vinden?

Ons LLM Performance hub behandelt doorvoer versus latentie, VRAM-limieten, parallelle aanvragen, geheugentoewijzing en benchmarks over runtime-omgevingen en hardware.

Hoe is het gebruik van VRAM gerelateerd aan de token snelheid in Ollama?

Modellen die volledig in de VRAM passen, vermijden CPU-offloading en lopen veel sneller. De gids voor LLM-prestaties legt VRAM-beperkingen uit en hoe deze de afleidingsnelheid beïnvloeden.

Vergelijking van LLM-prestaties op Ollama op een GPU met 16GB VRAM

LLM-snelheidstest op RTX 4080 met 16 GB VRAM

Inhoud

Het lokaal uitvoeren van grote taalmodellen biedt privacy, offline mogelijkheden en nul API-kosten. Deze benchmark laat precies zien wat men kan verwachten van 14 populaire LLMs op Ollama op een RTX 4080.

Met een GPU van 16 GB VRAM stond ik voor een constante keuze: grotere modellen met potentieel betere kwaliteit, of kleinere modellen met snellere inferentie. Voor meer informatie over LLM-prestaties—doorstroming versus latentie, VRAM-limieten, parallelle aanvragen en benchmarks over verschillende runtime-omgevingen—zie LLM Prestaties: Benchmarks, Bottlenecks & Optimalisatie.

LLM-prestaties op Ollama - herordening van krekels

TL;DR

Hieronder volgt een bijgewerkte vergelijkings tabel van LLM-prestaties op RTX 4080 16 GB met Ollama 0.17.7, (2026-03-09) toegevoegd Qwen 3.5 9b, 9bq8, 27b en 35b modellen:

Model	RAM+VRAM Gebruikt	CPU/GPU Verdeling	Tokens/sec
gpt-oss:20b	14 GB	100% GPU	139.93
qwen3.5:9b	9.3 GB	100% GPU	90.89
ministral-3:14b	13 GB	100% GPU	70.13
qwen3:14b	12 GB	100% GPU	61.85
qwen3.5:9b-q8_0	13 GB	100% GPU	61.22
qwen3-coder:30b	20 GB	25%/75% CPU/GPU	57.17
qwen3-vl:30b-a3b	22 GB	30%/70% CPU/GPU	50.99
glm-4.7-flash	21 GB	27%/73% CPU/GPU	33.86
nemotron-3-nano:30b	25 GB	38%/62% CPU/GPU	32.77
qwen3.5:35b	27 GB	43%/57% CPU/GPU	20.66
devstral-small-2:24b	19 GB	18%/82% CPU/GPU	18.67
mistral-small3.2:24b	19 GB	18%/82% CPU/GPU	18.51
gpt-oss:120b	66 GB	78%/22% CPU/GPU	12.64
qwen3.5:27b	24 GB	43%/57% CPU/GPU	6.48

Belangrijk inzicht: Modellen die volledig in VRAM passen zijn dramatisch sneller. GPT-OSS 20B bereikt 139.93 tokens/sec, terwijl GPT-OSS 120B met zware CPU-offloading slechts 12.64 tokens/sec bereikt—een 11x snelheidsschakeling.

Test Hardware Setup

De benchmark is uitgevoerd op het volgende systeem:

GPU: NVIDIA RTX 4080 met 16 GB VRAM
CPU: Intel Core i7-14700 (8 P-cores + 12 E-cores)
RAM: 64 GB DDR5-6000

Dit vertegenwoordigt een typische high-end consumentenconfiguratie voor lokale LLM-inferentie. De 16 GB VRAM is de kritieke beperking—het bepaalt welke modellen volledig op de GPU kunnen draaien of CPU-offloading vereisen.

Het begrijpen van hoe Ollama Intel CPU-cores gebruikt wordt belangrijk wanneer modellen de VRAM-limiet overschrijden, aangezien CPU-prestaties direct de snelheid van offgeladen lagen beïnvloeden.

Doel van deze Benchmark

Het primair doel was het meten van de inferentiesnelheid onder realistische omstandigheden. Ik wist al van ervaring dat Mistral Small 3.2 24B uitstekend is in taalkwaliteit, terwijl Qwen3 14B superieure instructievolgfuncties biedt voor mijn specifieke toepassingen.

Deze benchmark beantwoordt de praktische vraag: Hoe snel kan elk model tekst genereren, en wat is de snelheidsprijs voor het overschrijden van VRAM-limieten?

De testparameters waren:

Contextgrootte: 19.000 tokens. Dit is het gemiddelde aantal tokens in mijn generatieaanvragen.
Prompt: “vergelijk weer en klimaat tussen hoofdsteden van Australië”
Metriek: eval rate (tokens per seconde tijdens generatie)

Ollama Installatie en Versie

Alle tests gebruikten Ollama versie 0.15.2, de nieuwste release op het moment van de test. Later heruitgevoerd op Ollama v 0.17.7 - om Qwen3.5 modellen toe te voegen. Voor een volledige verwijzing van Ollama-commands gebruikt in deze benchmark, zie de Ollama cheatsheet.

Voor een snelle terugkeer - installeer Ollama op Linux:

curl -fsSL https://ollama.com/install.sh | sh

Controleer de installatie:

ollama --version

Als je modellen op een andere schijf moet opslaan vanwege ruimtebeperkingen, bekijk dan hoe je Ollama modellen naar een andere schijf verplaatst.

Geteste Modellen

De volgende modellen zijn getest, in alfabetische volgorde:

Model	Parameters	Quantization	Notes
devstral-small-2:24b	24B	Q4_K_M	Code-gericht
glm-4.7-flash	30B	Q4_K_M	Denkmodel
gpt-oss:20b	20B	Q4_K_M	Snelst overal
gpt-oss:120b	120B	Q4_K_M	Grootste getest
ministral-3:14b	14B	Q4_K_M	Efficiënt model van Mistral
mistral-small3.2:24b	24B	Q4_K_M	Sterke taalkwaliteit
nemotron-3-nano:30b	30B	Q4_K_M	NVIDIA’s aanbod
qwen3:14b	14B	Q4_K_M	Beste instructievolgfunctie
qwen3.5:9b	9B	Q4_K_M	Snel, volledig op GPU
qwen3.5:9b-q8_0	9B	Q8_0	Hogere kwaliteit, volledig op GPU
qwen3.5:27b	27B	Q4_K_M	Uitstekende kwaliteit, traag op Ollama
qwen3-vl:30b-a3b	30B	Q4_K_M	Visiecapabel
qwen3-coder:30b	30B	Q4_K_M	Code-gericht
qwen3.5:35b	35B	Q4_K_M	Goede codecapaciteiten

Om een model te downloaden:

ollama pull gpt-oss:20b
ollama pull qwen3:14b

Begrijpen van CPU-offloading

Wanneer de geheugengebruik van een model de beschikbare VRAM overschrijdt, verdeelt Ollama automatisch modellagen tussen GPU en systeemgeheugen. Het resultaat toont dit als een percentageverdeling zoals “18%/82% CPU/GPU”.

Dit heeft enorme prestatiegevolgen. Elke tokengeneratie vereist gegevensoverdracht tussen CPU- en GPU-geheugen—een bottleneck die zich verergert met elke laag die naar CPU wordt verplaatst.

Het patroon is duidelijk uit onze resultaten:

100% GPU modellen: 61-140 tokens/sec
70-82% GPU modellen: 19-51 tokens/sec
22% GPU (vooral CPU): 12.6 tokens/sec

Dit verklaart waarom een 20B parametermodel in de praktijk 11x sneller kan zijn dan een 120B model. Als je van plan bent meerdere gelijktijdige aanvragen te verwerken, wordt het begrijpen van hoe Ollama parallelle aanvragen verwerkt essentieel voor capaciteitsplanning.

Gedetailleerde Benchmarkresultaten

Modellen die 100% op GPU lopen

GPT-OSS 20B — De Snelste Winnaar

ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000

NAAM           GROOTTE     VERWERKER    CONTEXT
gpt-oss:20b    14 GB      100% GPU     19000

eval count:           2856 token(s)
eval duration:        20.410517947s
eval rate:            139.93 tokens/s

Met 139.93 tokens/sec is GPT-OSS 20B duidelijk de winnaar voor snelheidskritieke toepassingen. Het gebruikt slechts 14 GB VRAM, waardoor er ruimte overblijft voor grotere contextvensters of andere GPU-taakbelastingen.

Qwen3 14B — Uitstekend Evenwicht

ollama run qwen3:14b --verbose
/set parameter num_ctx 19000

NAAM         GROOTTE     VERWERKER    CONTEXT
qwen3:14b    12 GB      100% GPU     19000

eval count:           3094 token(s)
eval duration:        50.020594575s
eval rate:            61.85 tokens/s

Qwen3 14B biedt in mijn ervaring de beste instructievolgfunctie, met een comfortabele geheugengebruik van 12 GB. Op 61.85 tokens/sec is het voldoende responsief voor interactieve gebruik.

Voor ontwikkelaars die Qwen3 integreren in toepassingen, zie LLM Structured Output met Ollama en Qwen3 voor het extraheren van gestructureerde JSON-antwoorden.

Ministral 3 14B — Snel en Compact

ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000

NAAM               GROOTTE     VERWERKER    CONTEXT
ministral-3:14b    13 GB      100% GPU     19000

eval count:           1481 token(s)
eval duration:        21.11734277s
eval rate:            70.13 tokens/s

Mistral’s kleinere model levert 70.13 tokens/sec terwijl het volledig in VRAM past. Een solide keuze wanneer je Mistral-familie kwaliteit nodig hebt met maximale snelheid.

qwen3.5:9b - snel en nieuw

ollama run  qwen3.5:9b --verbose
/set parameter num_ctx 19000
vergelijk weer en klimaat tussen hoofdsteden van Australië

NAAM          ID              GROOTTE      VERWERKER    CONTEXT
qwen3.5:9b    6488c96fa5fa    9.3 GB      100% GPU     19000

eval count:           3802 token(s)
eval duration:        41.830174597s
eval rate:            90.89 tokens/s

qwen3.5:9b-q8_0 - q8 quant

Deze quant verlaagt de prestaties van qwen3.5:9b met 30% in vergelijking met q4.

ollama run  qwen3.5:9b-q8_0 --verbose
/set parameter num_ctx 19000

vergelijk weer en klimaat tussen hoofdsteden van Australië
NAAM               ID              GROOTTE     VERWERKER    CONTEXT
qwen3.5:9b-q8_0    441ec31e4d2a    13 GB      100% GPU     19000

eval count:           3526 token(s)
eval duration:        57.595540159s
eval rate:            61.22 tokens/s

Modellen die CPU-offloading vereisen

qwen3-coder:30b - snelste uit de 30b LLM-set vanwege het zijn text-only

ollama run qwen3-coder:30b --verbose
/set parameter num_ctx 19000
vergelijk weer en klimaat tussen hoofdsteden van Australië

NAAM               ID              GROOTTE     VERWERKER          CONTEXT
qwen3-coder:30b    06c1097efce0    20 GB      25%/75% CPU/GPU    19000
22%/605%

eval count:           559 token(s)
eval duration:        9.77768875s
eval rate:            57.17 tokens/s

Qwen3-VL 30B — Beste gedeeltelijke offloaded prestaties

ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000

NAAM                         GROOTTE     VERWERKER          CONTEXT
qwen3-vl:30b-a3b-instruct    22 GB      30%/70% CPU/GPU    19000

eval count:           1450 token(s)
eval duration:        28.439319709s
eval rate:            50.99 tokens/s

Hoewel 30% van de lagen op CPU zijn, behoudt Qwen3-VL 50.99 tokens/sec—snelder dan sommige 100% GPU modellen. De visiecapaciteit voegt veelzijdigheid toe voor multimodale taken.

Mistral Small 3.2 24B — Kwaliteit versus Snelheid

ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000

NAAM                    GROOTTE     VERWERKER          CONTEXT
mistral-small3.2:24b    19 GB      18%/82% CPU/GPU    19000

eval count:           831 token(s)
eval duration:        44.899859038s
eval rate:            18.51 tokens/s

Mistral Small 3.2 biedt superieure taalkwaliteit, maar betaalt een hoge prijs in snelheid. Op 18.51 tokens/sec voelt het merkbaar trager aan voor interactieve chat. Het is het waard voor taken waarbij kwaliteit belangrijker is dan latentie.

GLM 4.7 Flash — MoE Denkmodel

ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000

NAAM                 GROOTTE     VERWERKER          CONTEXT
glm-4.7-flash        21 GB      27%/73% CPU/GPU    19000

eval count:           2446 token(s)
eval duration:        1m12.239164004s
eval rate:            33.86 tokens/s

GLM 4.7 Flash is een 30B-A3B Mixture of Experts model—30B totaal parameters met slechts 3B actief per token. Als een “denk"model genereert het interne redenering voor antwoorden. De 33.86 tokens/sec bevat zowel denk- als uitvoertokens. Hoewel er CPU-offloading is, houdt de MoE architectuur het redelijk snel.

qwen3.5:35b - Nieuw model met redelijke zelfgehoste prestaties

ollama run qwen3.5:35b --verbose
/set parameter num_ctx 19000
vergelijk weer en klimaat tussen hoofdsteden van Australië

NAAM           ID              GROOTTE     VERWERKER          CONTEXT
qwen3.5:35b    4af949f8bdf0    27 GB      43%/57% CPU/GPU    19000

eval count:           3418 token(s)
eval duration:        2m45.458926548s
eval rate:            20.66 tokens/s

GPT-OSS 120B — De Poweruser

ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000

NAAM            GROOTTE     VERWERKER          CONTEXT
gpt-oss:120b    66 GB      78%/22% CPU/GPU    19000

eval count:           5008 token(s)
eval duration:        6m36.168233066s
eval rate:            12.64 tokens/s

Het uitvoeren van een 120B model op 16 GB VRAM is technisch mogelijk, maar vervelend. Met 78% op CPU, de 12.64 tokens/sec maakt interactief gebruik vervelend. Beter geschikt voor batchverwerking waarbij latentie niet belangrijk is.

qwen3.5:27b - Slim maar traag op Ollama

ollama run qwen3.5:27b --verbose
/set parameter num_ctx 19000
vergelijk weer en klimaat tussen hoofdsteden van Australië

NAAM           ID              GROOTTE     VERWERKER          CONTEXT
qwen3.5:27b    193ec05b1e80    24 GB      43%/57% CPU/GPU    19000

eval count:           3370 token(s)
eval duration:        8m40.087510281s
eval rate:            6.48 tokens/s

Ik heb qwen3.5:27b getest en heb een zeer goed oordeel over de prestaties van dit model met OpenCode. Het is erg krachtig, wetenschappelijk, echt goede tool calling, maar het is traag op mijn machine op Ollama. Ik heb andere LLM zelfgehost platforms geprobeerd, en heb veel hogere snelheden bereikt. Ik denk dat het tijd is om Ollama los te laten. Ik zal er later iets over schrijven.

Praktische Aanbevelingen

Voor Interactieve Chat

Gebruik modellen die 100% in VRAM passen:

GPT-OSS 20B — Maximale snelheid (139.93 t/s)
Ministral 3 14B — Goede snelheid met Mistral kwaliteit (70.13 t/s)
Qwen3 14B — Beste instructievolgfunctie (61.85 t/s)

Voor een betere chatervaring, overweeg Open-Source Chat UIs voor lokale Ollama.

Voor Batchverwerking

Dit is opnieuw, op mijn apparatuur - 14 GB VRAM.

Wanneer snelheid minder belangrijk is:

Mistral Small 3.2 24B — Superieure taalkwaliteit
Qwen3-VL 30B — Visie + tekstcapaciteit

Wanneer snelheid helemaal niet belangrijk is:

Qwen3.5:35b - Goede codecapaciteiten
Qwen3.5:27b - Zeer goed, maar traag op Ollama. Ik heb een hele succesvolle ervaring met het hosten van dit model op llama.cpp.

Voor Ontwikkeling en Code

Als je applicaties bouwt met Ollama:

Alternatieve Hostingopties

Als de beperkingen van Ollama je zorgen, verkennen dan andere opties in de Lokaal LLM Hosting Gids of vergelijk Docker Model Runner vs Ollama.

Conclusie

Met 16 GB VRAM kun je krachtige LLMs uitvoeren met indrukwekkende snelheden—als je slim kiest. De belangrijkste bevindingen:

Blijf binnen de VRAM-limieten voor interactief gebruik. Een 20B model op 140 tokens/sec verslaat een 120B model op 12 tokens/sec voor de meeste praktische doeleinden.
GPT-OSS 20B wint op zuivere snelheid, maar Qwen3 14B biedt het beste evenwicht tussen snelheid en capaciteit voor instructievolgtaak.
CPU-offloading werkt, maar verwacht 3-10x vertragingen. Acceptabel voor batchverwerking, vervelend voor chat.
Contextgrootte telt. De hier gebruikte 19K context verhoogt de VRAM-gebruik aanzienlijk. Verminder context voor betere GPU-gebruik.

Voor AI-gemotoriseerde zoekopdrachten die lokale LLMs combineren met webresultaten, zie self-hosting Perplexica met Ollama.

Om meer benchmarks, VRAM- en doorstromingsverhoudingen, en prestatieoptimalisatie over Ollama en andere runtime-omgevingen te verkennen, zie onze LLM Prestaties: Benchmarks, Bottlenecks & Optimalisatie hub.