Welke LLM is het snelste op een GPU met 16GB VRAM met Ollama?

GPT-OSS 20B bereikte de hoogste snelheid van 139,93 tokens/seconde, terwijl het volledig in 16 GB VRAM past. Het draait volledig op de GPU zonder CPU-offloading, wat het ideaal maakt voor toepassingen waarbij snelheid cruciaal is.

Wat gebeurt er wanneer een LLM 16 GB VRAM overschrijdt?

Ollama offlaadt model lagen automatisch naar het systeem RAM en de CPU. Dit vermindert de prestaties aanzienlijk; bijvoorbeeld, Mistral Small 3.2 24B daalt naar 18,51 tokens per seconde wanneer 18% van de lagen op de CPU wordt uitgevoerd.

Hoe beïnvloedt de contextgrootte het VRAM-gebruik in Ollama?

Grotere contextvensters vereisen meer VRAM voor de KV-cache. Bij een context van 19K kan een model dat met een context van 4K in VRAM past, CPU-offloading nodig hebben. Verminder de contextgrootte als u de GPU-utilisatie wilt maximaliseren.

Is Qwen3 14B geschikt voor een GPU met 16 GB geheugen?

Ja. Qwen3 14B gebruikt slechts 12 GB VRAM en draait volledig op de GPU met een snelheid van 61,85 tokens per seconde. Het biedt uitstekende instructievolging en past comfortabel in 16 GB, met ruimte voor grotere contextgroottes.

Moet ik grotere modellen met CPU-offloading gebruiken of kleinere modellen volledig op de GPU?

Voor interactieve gebruiksscenario’s zijn kleinere modellen die volledig op de GPU draaien over het algemeen beter. De snelheidsnachteel door CPU-offloading is aanzienlijk: GPT-OSS 120B met 12,64 tokens per seconde voelt traag aan in vergelijking met GPT-OSS 20B met 139,93 tokens per seconde.

Waar kan ik meer LLM-prestatiebenchmarks en optimalisatiehandleidingen vinden?

Ons LLM Performance-hub behandelt doorvoer versus latentie, VRAM-beperkingen, parallelle verzoeken, geheugenallocatie en benchmarks over verschillende runtime-omgevingen en hardware.

Hoe verhoudt het VRAM-gebruik zich tot de tokensnelheid in Ollama?

Modellen die volledig in VRAM passen, vermijden CPU-offloading en werken aanzienlijk sneller. De handleiding voor LLM-prestaties legt uit wat de VRAM-beperkingen zijn en hoe deze de inferentiesnelheid beïnvloeden.

Vergelijking van de prestaties van LLM’s op Ollama op een GPU met 16 GB VRAM

LLM-snelheidstest op RTX 4080 met 16 GB VRAM

Inhoud

Het lokaal draaien van grote taalmodellen geeft je privacy, offline mogelijkheden en geen API-kosten. Deze benchmark onthult precies wat je kunt verwachten van 14 populaire LLM’s op Ollama op een RTX 4080.

Met een GPU van 16 GB VRAM stond ik voor een constante afweging: grotere modellen met potentieel betere kwaliteit, of kleinere modellen met snellere inferentie. Voor meer informatie over LLM-prestaties—doorvoer versus latentie, VRAM-beperkingen, parallele verzoeken en benchmarks tussen verschillende runtime-omgevingen—zie LLM-prestaties: Benchmarks, bottlenecks & optimalisatie.

Dit artikel richt zich op Ollama. Voor dezelfde klasse van GPU’s met 16 GB, gemeten met llama.cpp bij contexten van 19K, 32K en 64K (VRAM, GPU-belasting, tokens per seconde voor dichte en MoE-checkpoints), zie 16 GB VRAM LLM-benchmarks met llama.cpp (snelheid en context).

Zodra doorvoer en VRAM-verdeling acceptabel lijken, hebben agent-achtige werklasten nog steeds verstandige temperatuur- en penalisatie-instellingen nodig voor Qwen- en Gemma-achtige stacks; zie agentische inferentieparameters voor Qwen en Gemma.

LLM-prestaties op Ollama - her-ranking van kakkerlakken

TL;DR

Hier is de bijgewerkte vergelijkingstabel van LLM-prestaties op de RTX 4080 16GB met Ollama 0.17.7, (2026-03-09) met toevoeging van Qwen 3.5 9b, 9bq8, 27b en 35b modellen:

Model	Gebruikt RAM+VRAM	CPU/GPU-verdeling	Tokens/sec
gpt-oss:20b	14 GB	100% GPU	139,93
qwen3.5:9b	9,3 GB	100% GPU	90,89
ministral-3:14b	13 GB	100% GPU	70,13
qwen3:14b	12 GB	100% GPU	61,85
qwen3.5:9b-q8_0	13 GB	100% GPU	61,22
qwen3-coder:30b	20 GB	25%/75% CPU/GPU	57,17
qwen3-vl:30b-a3b	22 GB	30%/70% CPU/GPU	50,99
glm-4.7-flash	21 GB	27%/73% CPU/GPU	33,86
nemotron-3-nano:30b	25 GB	38%/62% CPU/GPU	32,77
qwen3.5:35b	27 GB	43%/57% CPU/GPU	20,66
devstral-small-2:24b	19 GB	18%/82% CPU/GPU	18,67
mistral-small3.2:24b	19 GB	18%/82% CPU/GPU	18,51
gpt-oss:120b	66 GB	78%/22% CPU/GPU	12,64
qwen3.5:27b	24 GB	43%/57% CPU/GPU	6,48

Belangrijkste inzicht: Modellen die volledig in VRAM passen, zijn drastisch sneller. GPT-OSS 20B bereikt 139,93 tokens/sec, terwijl GPT-OSS 120B met zware CPU-offloading kruipt op 12,64 tokens/sec—een snelheidsverschil van 11x.

Testhardware-setup

De benchmark werd uitgevoerd op het volgende systeem:

GPU: NVIDIA RTX 4080 met 16 GB VRAM
CPU: Intel Core i7-14700 (8 P-cores + 12 E-cores)
RAM: 64 GB DDR5-6000

Dit vertegenwoordigt een veelvoorkomende high-end consumentenconfiguratie voor lokale LLM-inferentie. De 16 GB VRAM is de kritieke beperking—het bepaalt welke modellen volledig op de GPU draaien versus welke CPU-offloading vereisen.

Het begrijpen van hoe Ollama Intel CPU-kernen gebruikt wordt belangrijk wanneer modellen de VRAM-capaciteit overschrijden, aangezien CPU-prestaties direct de snelheid van offgeladen lageninferentie beïnvloeden.

Doel van deze benchmark

Het primaire doel was het meten van inferentiesnelheid onder realistische omstandigheden. Ik wist al uit ervaring dat Mistral Small 3.2 24B excelleert in taalkwaliteit, terwijl Qwen3 14B superieure instructievoltaking biedt voor mijn specifieke gebruiksscenario’s.

Deze benchmark beantwoordt de praktische vraag: Hoe snel kan elk model tekst genereren, en wat is de snelheidsstraf voor het overschrijden van VRAM-beperkingen?

De testparameters waren:

Contextgrootte: 19.000 tokens. Dit is de gemiddelde waarde in mijn Generate-verzoeken.
Prompt: “vergelijk weer en klimaat tussen hoofdsteden van australië”
Metriek: eval rate (tokens per seconde tijdens generatie)

Ollama-installatie en versie

Alle tests gebruikten Ollama versie 0.15.2, de nieuwste release op het moment van testen. Later opnieuw uitgevoerd op Ollama v 0.17.7 - om Qwen3.5-modellen toe te voegen. Voor een complete referentie van Ollama-commando’s die in deze benchmark zijn gebruikt, zie de Ollama-cheat sheet.

Om Ollama snel te installeren op Linux:

curl -fsSL https://ollama.com/install.sh | sh

Verifieer de installatie:

ollama --version

Als je modellen op een ander station moet opslaan vanwege ruimtebeperkingen, bekijk dan hoe je Ollama-modellen naar een ander station verplaatst.

Geteste modellen

De volgende modellen zijn gebenchmarkt, in alfabetische volgorde:

Model	Parameters	Kwantisatie	Opmerkingen
devstral-small-2:24b	24B	Q4_K_M	Code-gericht
glm-4.7-flash	30B	Q4_K_M	Denkend model
gpt-oss:20b	20B	Q4_K_M	Overal snelst
gpt-oss:120b	120B	Q4_K_M	Grootst getest
ministral-3:14b	14B	Q4_K_M	Mistral’s efficiënte model
mistral-small3.2:24b	24B	Q4_K_M	Sterke taalkwaliteit
nemotron-3-nano:30b	30B	Q4_K_M	Aanbod van NVIDIA
qwen3:14b	14B	Q4_K_M	Beste instructievoltaking
qwen3.5:9b	9B	Q4_K_M	Snel, volledig op GPU
qwen3.5:9b-q8_0	9B	Q8_0	Hogere kwaliteit, volledig op GPU
qwen3.5:27b	27B	Q4_K_M	Uitstekende kwaliteit, traag op Ollama
qwen3-vl:30b-a3b	30B	Q4_K_M	Visueel-capabel
qwen3-coder:30b	30B	Q4_K_M	Code-gericht
qwen3.5:35b	35B	Q4_K_M	Goede coderingsmogelijkheden

Om elk model te downloaden:

ollama pull gpt-oss:20b
ollama pull qwen3:14b

CPU-offloading begrijpen

Wanneer de geheugenvereisten van een model de beschikbare VRAM overschrijden, verdeelt Ollama automatisch modellagen tussen GPU en systeem-RAM. De uitvoer toont dit als een percentageverdeling zoals “18%/82% CPU/GPU”.

Dit heeft enorme prestatie-implicaties. Elke token-generatie vereist datatransfer tussen CPU- en GPU-geheugen—een bottleneck die zich vermenigvuldigt met elke laag die naar de CPU wordt offgeladen.

Het patroon is duidelijk uit onze resultaten:

100% GPU-modellen: 61-140 tokens/sec
70-82% GPU-modellen: 19-51 tokens/sec
22% GPU (voornamelijk CPU): 12,6 tokens/sec

Dit verklaart waarom een model met 20B parameters in de praktijk 11x sneller kan zijn dan een model met 120B parameters. Als je van plan bent meerdere gelijktijdige verzoeken te bedienen, wordt het begrijpen van hoe Ollama omgaat met parallele verzoeken essentieel voor capaciteitsplanning.

Gedetailleerde benchmarkresultaten

Modellen die 100% op GPU draaien

GPT-OSS 20B — De snelheidskampioen

ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000

NAAM           GROOTTE    PROCESSOR    CONTEXT
gpt-oss:20b    14 GB      100% GPU     19000

eval count:           2856 token(s)
eval duration:        20.410517947s
eval rate:            139,93 tokens/s

Met 139,93 tokens/sec is GPT-OSS 20B de duidelijke winnaar voor snelheidskritische toepassingen. Het gebruikt slechts 14 GB VRAM, wat ruimte laat voor grotere contextvensters of andere GPU-werklasten.

Qwen3 14B — Uitstekende balans

ollama run qwen3:14b --verbose
/set parameter num_ctx 19000

NAAM         GROOTTE    PROCESSOR    CONTEXT
qwen3:14b    12 GB      100% GPU     19000

eval count:           3094 token(s)
eval duration:        50.020594575s
eval rate:            61,85 tokens/s

Qwen3 14B biedt naar mijn ervaring de beste instructievoltaking, met een comfortabele geheugenfootprint van 12 GB. Met 61,85 tokens/sec is het responsief genoeg voor interactief gebruik.

Voor ontwikkelaars die Qwen3 integreren in applicaties, zie LLM Gestructureerde Output met Ollama en Qwen3 voor het extraheren van gestructureerde JSON-antwoorden.

Ministral 3 14B — Snel en compact

ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000

NAAM               GROOTTE    PROCESSOR    CONTEXT
ministral-3:14b    13 GB      100% GPU     19000

eval count:           1481 token(s)
eval duration:        21.11734277s
eval rate:            70,13 tokens/s

Het kleinere model van Mistral levert 70,13 tokens/sec terwijl het volledig in VRAM past. Een solide keuze wanneer je Mistral-familiekwaliteit nodig hebt met maximale snelheid.

qwen3.5:9b - snel en nieuw

ollama run  qwen3.5:9b --verbose
/set parameter num_ctx 19000
vergelijk weer en klimaat tussen hoofdsteden van australië

NAAM          ID              GROOTTE    PROCESSOR    CONTEXT
qwen3.5:9b    6488c96fa5fa    9,3 GB     100% GPU     19000

eval count:           3802 token(s)
eval duration:        41.830174597s
eval rate:            90,89 tokens/s

qwen3.5:9b-q8_0 - q8 kwantisatie

Deze kwantisatie drukt de prestaties van qwen3.5:9b met 30% ten opzichte van q4.

ollama run  qwen3.5:9b-q8_0 --verbose
/set parameter num_ctx 19000

vergelijk weer en klimaat tussen hoofdsteden van australië
NAAM               ID              GROOTTE    PROCESSOR    CONTEXT
qwen3.5:9b-q8_0    441ec31e4d2a    13 GB      100% GPU     19000

eval count:           3526 token(s)
eval duration:        57.595540159s
eval rate:            61,22 tokens/s

Modellen die CPU-offloading vereisen

qwen3-coder:30b - snelste uit de 30B LLM-set vanwege tekst-only

ollama run qwen3-coder:30b --verbose
/set parameter num_ctx 19000
vergelijk weer en klimaat tussen hoofdsteden van australië

NAAM               ID              GROOTTE    PROCESSOR          CONTEXT
qwen3-coder:30b    06c1097efce0    20 GB      25%/75% CPU/GPU    19000
22%/605%

eval count:           559 token(s)
eval duration:        9.77768875s
eval rate:            57,17 tokens/s

Qwen3-VL 30B — Beste gedeeltelijk offgeladen prestatie

ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000

NAAM                         GROOTTE    PROCESSOR          CONTEXT
qwen3-vl:30b-a3b-instruct    22 GB      30%/70% CPU/GPU    19000

eval count:           1450 token(s)
eval duration:        28.439319709s
eval rate:            50,99 tokens/s

Ondanks 30% van de lagen op de CPU, behoudt Qwen3-VL 50,99 tokens/sec—sneller dan sommige 100% GPU-modellen. De visuele capaciteit voegt veelzijdigheid toe voor multimodale taken.

Mistral Small 3.2 24B — Kwaliteit versus snelheid afweging

ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000

NAAM                    GROOTTE    PROCESSOR          CONTEXT
mistral-small3.2:24b    19 GB      18%/82% CPU/GPU    19000

eval count:           831 token(s)
eval duration:        44.899859038s
eval rate:            18,51 tokens/s

Mistral Small 3.2 biedt superieure taalkwaliteit maar betaalt een zware snelheidsstraf. Met 18,51 tokens/sec voelt het merkbaar trager voor interactieve chat. De moeite waard voor taken waarbij kwaliteit belangrijker is dan latentie.

GLM 4.7 Flash — MoE denkend model

ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000

NAAM                 GROOTTE    PROCESSOR          CONTEXT
glm-4.7-flash        21 GB      27%/73% CPU/GPU    19000

eval count:           2446 token(s)
eval duration:        1m12.239164004s
eval rate:            33,86 tokens/s

GLM 4.7 Flash is een 30B-A3B Mixture of Experts-model—30B totale parameters met slechts 3B actief per token. Als “denkend” model genereert het interne redeneringen voordat het antwoordt. De 33,86 tokens/sec omvat zowel denk- als output-tokens. Ondanks CPU-offloading houdt de MoE-architectuur het redelijk snel.

qwen3.5:35b - Nieuw model met aanvaardbare self-hosted prestaties

ollama run qwen3.5:35b --verbose
/set parameter num_ctx 19000
vergelijk weer en klimaat tussen hoofdsteden van australië

NAAM           ID              GROOTTE    PROCESSOR          CONTEXT
qwen3.5:35b    4af949f8bdf0    27 GB      43%/57% CPU/GPU    19000

eval count:           3418 token(s)
eval duration:        2m45.458926548s
eval rate:            20,66 tokens/s

GPT-OSS 120B — De zware aanjager

ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000

NAAM            GROOTTE    PROCESSOR          CONTEXT
gpt-oss:120b    66 GB      78%/22% CPU/GPU    19000

eval count:           5008 token(s)
eval duration:        6m36.168233066s
eval rate:            12,64 tokens/s

Het draaien van een 120B-model op 16 GB VRAM is technisch mogelijk maar pijnlijk. Met 78% op de CPU, maakt de 12,64 tokens/sec interactief gebruik frustrerend. Beter geschikt voor batchverwerking waarbij latentie niet uitmaakt.

qwen3.5:27b - Slim maar traag op Ollama

ollama run qwen3.5:27b --verbose
/set parameter num_ctx 19000
vergelijk weer en klimaat tussen hoofdsteden van australië

NAAM           ID              GROOTTE    PROCESSOR          CONTEXT
qwen3.5:27b    193ec05b1e80    24 GB      43%/57% CPU/GPU    19000

eval count:           3370 token(s)
eval duration:        8m40.087510281s
eval rate:            6,48 tokens/s

Ik heb qwen3.5:27b getest en kreeg een extreem goede mening over de prestaties van dit model met OpenCode. Het is zeer capabel, kennisrijk, echt goede tool calling, hoewel het traag is op mijn machine op Ollama. Ik heb andere LLM self-hosting platforms geprobeerd, en kreeg veel hogere snelheden. Ik geloof dat het tijd is om Ollama los te laten. Ik zal er later meer over schrijven.

Praktische aanbevelingen

Voor interactieve chat

Gebruik modellen die 100% in VRAM passen:

GPT-OSS 20B — Maximale snelheid (139,93 t/s)
Ministral 3 14B — Goede snelheid met Mistral-kwaliteit (70,13 t/s)
Qwen3 14B — Beste instructievoltaking (61,85 t/s)

Voor een betere chatervaring, overweeg Open-Source Chat UI’s voor lokale Ollama.

Voor batchverwerking

Dit is opnieuw, op mijn apparatuur - 14 GB VRAM.

Wanneer snelheid minder kritiek is:

Mistral Small 3.2 24B — Superieure taalkwaliteit
Qwen3-VL 30B — Visueel + tekst capaciteit

Wanneer snelheid helemaal niet kritiek is:

Qwen3.5:35b - Goede coderingsmogelijkheden
Qwen3.5:27b - Extreem goed, maar traag op Ollama. Ik heb echter succes gehad met het hosten van dit model op llama.cpp.

Voor ontwikkeling en codering

Als je applicaties bouwt met Ollama:

Alternatieve hostingopties

Als Ollama’s beperkingen je bezorgdheid geven (zie Ollama enshittification-bezorgdheden), verken andere opties in de Local LLM Hosting Guide of vergelijk Docker Model Runner versus Ollama.

Conclusie

Met 16 GB VRAM kun je capabele LLM’s draaien met indrukwekkende snelheden—als je verstandig kiest. De belangrijkste bevindingen:

Blijf binnen VRAM-beperkingen voor interactief gebruik. Een 20B-model met 140 tokens/sec verslaat een 120B-model met 12 tokens/sec voor de meeste praktische doeleinden.
GPT-OSS 20B wint op pure snelheid, maar Qwen3 14B biedt de beste balans van snelheid en capaciteit voor instructievoltakingstaken.
CPU-offloading werkt maar verwacht 3-10x vertragingen. Acceptabel voor batchverwerking, frustrerend voor chat.
Contextgrootte maakt uit. De 19K-context die hier is gebruikt, verhoogt VRAM-gebruik aanzienlijk. Verminder context voor betere GPU-utilisatie.

Voor AI-aangedreven zoekopdrachten die lokale LLM’s combineren met webresultaten, zie self-hosting Perplexica met Ollama.

Om meer benchmarks, VRAM- en doorvoer-afwegingen, en prestatietuning te verkennen over Ollama en andere runtime-omgevingen, bekijk onze LLM-prestaties: Benchmarks, bottlenecks & optimalisatie hub.

Vergelijking van de prestaties van LLM’s op Ollama op een GPU met 16 GB VRAM

TL;DR

Testhardware-setup

Doel van deze benchmark

Ollama-installatie en versie

Geteste modellen

CPU-offloading begrijpen

Gedetailleerde benchmarkresultaten

Modellen die 100% op GPU draaien

GPT-OSS 20B — De snelheidskampioen

Qwen3 14B — Uitstekende balans

Ministral 3 14B — Snel en compact

qwen3.5:9b - snel en nieuw

qwen3.5:9b-q8_0 - q8 kwantisatie

Modellen die CPU-offloading vereisen

qwen3-coder:30b - snelste uit de 30B LLM-set vanwege tekst-only

Qwen3-VL 30B — Beste gedeeltelijk offgeladen prestatie

Mistral Small 3.2 24B — Kwaliteit versus snelheid afweging

GLM 4.7 Flash — MoE denkend model

qwen3.5:35b - Nieuw model met aanvaardbare self-hosted prestaties

GPT-OSS 120B — De zware aanjager

qwen3.5:27b - Slim maar traag op Ollama

Praktische aanbevelingen

Voor interactieve chat

Voor batchverwerking

Voor ontwikkeling en codering

Alternatieve hostingopties

Conclusie

Nuttige links

Interne resources

Externe referenties

TL;DR

Testhardware-setup

Doel van deze benchmark

Ollama-installatie en versie

Geteste modellen

CPU-offloading begrijpen

Gedetailleerde benchmarkresultaten

Modellen die 100% op GPU draaien

GPT-OSS 20B — De snelheidskampioen

Qwen3 14B — Uitstekende balans

Ministral 3 14B — Snel en compact

qwen3.5:9b - snel en nieuw

qwen3.5:9b-q8_0 - q8 kwantisatie

Modellen die CPU-offloading vereisen

qwen3-coder:30b - snelste uit de 30B LLM-set vanwege tekst-only

Qwen3-VL 30B — Beste gedeeltelijk offgeladen prestatie

Mistral Small 3.2 24B — Kwaliteit versus snelheid afweging

GLM 4.7 Flash — MoE denkend model

qwen3.5:35b - Nieuw model met aanvaardbare self-hosted prestaties

GPT-OSS 120B — De zware aanjager

qwen3.5:27b - Slim maar traag op Ollama

Praktische aanbevelingen

Voor interactieve chat

Voor batchverwerking

Voor ontwikkeling en codering

Alternatieve hostingopties

Conclusie

Nuttige links

Interne resources

Externe referenties

Abonneren