Beste LLMs voor Ollama op een GPU met 16GB VRAM

LLM-snelheidstest op RTX 4080 met 16 GB VRAM

Inhoud

De lokale uitvoering van grote taalmodellen biedt privacy, offline mogelijkheden en nul API-kosten. Deze benchmark toont precies aan wat men kan verwachten van 9 populaire LLMs op Ollama op een RTX 4080.

Met een GPU van 16 GB VRAM stond ik voor een constante keuze: grotere modellen met potentieel betere kwaliteit, of kleinere modellen met snellere inferentie.

7 llamas - Vergelijking van LLMs op Ollama

TL;DR

Hieronder volgt de vergelijkings tabel van LLM-prestaties op RTX 4080 16 GB met Ollama 0.15.2:

Model RAM+VRAM Gebruikt CPU/GPU Split Tokens/sec
gpt-oss:20b 14 GB 100% GPU 139.93
ministral-3:14b 13 GB 100% GPU 70.13
qwen3:14b 12 GB 100% GPU 61.85
qwen3-vl:30b-a3b 22 GB 30%/70% 50.99
glm-4.7-flash 21 GB 27%/73% 33.86
nemotron-3-nano:30b 25 GB 38%/62% 32.77
devstral-small-2:24b 19 GB 18%/82% 18.67
mistral-small3.2:24b 19 GB 18%/82% 18.51
gpt-oss:120b 66 GB 78%/22% 12.64

Belangrijk inzicht: Modellen die volledig in de VRAM passen, zijn aanzienlijk sneller. GPT-OSS 20B bereikt 139.93 tokens/sec, terwijl GPT-OSS 120B met zware CPU-afhandeling slechts 12.64 tokens/sec bereikt—een snelheidsverschil van 11x.

Test Hardware Setup

De benchmark is uitgevoerd op het volgende systeem:

  • GPU: NVIDIA RTX 4080 met 16 GB VRAM
  • CPU: Intel Core i7-14700 (8 P-cores + 12 E-cores)
  • RAM: 64 GB DDR5-6000

Dit vertegenwoordigt een veelvoorkomende hoogwaardige consumentenconfiguratie voor lokale LLM-inferentie. De 16 GB VRAM is de kritieke beperking—het bepaalt welke modellen volledig op de GPU lopen of CPU-afhandeling vereisen.

Het begrip van hoe Ollama Intel CPU-kerntoepassingen gebruikt wordt belangrijk wanneer modellen de VRAM-limiet overschrijden, aangezien CPU-prestaties direct invloed hebben op de snelheid van afgehandelde lagen.

Doel van deze Benchmark

Het primair doel was het meten van inferentiesnelheid onder realistische omstandigheden. Ik wist al van ervaring dat Mistral Small 3.2 24B uitstekend is in taalkwaliteit, terwijl Qwen3 14B superieure instructievolgfunctie biedt voor mijn specifieke toepassingen.

Deze benchmark beantwoordt de praktische vraag: Hoe snel kan elk model tekst genereren, en wat is de snelheidsstraf voor het overschrijden van VRAM-limieten?

De testparameters waren:

  • Contextgrootte: 19.000 tokens
  • Prompt: “vergelijk weer en klimaat tussen hoofdsteden van Australië”
  • Metriek: eval rate (tokens per seconde tijdens generatie)

Ollama Installatie en Versie

Alle tests gebruikten Ollama versie 0.15.2, de nieuwste release op het moment van testen. Voor een volledige verwijzing van Ollama-commands gebruikt in deze benchmark, zie de Ollama cheat sheet.

Om Ollama te installeren op Linux:

curl -fsSL https://ollama.com/install.sh | sh

Installatie controleren:

ollama --version

Als je vanwege ruimtebeperkingen modellen op een ander station moet opslaan, bekijk dan hoe je Ollama modellen naar een ander station verplaatst.

Geteste Modellen

De volgende modellen zijn getest:

Model Parameters Quantization Notes
gpt-oss:20b 20B Q4_K_M Snelst
gpt-oss:120b 120B Q4_K_M Grootste getest
qwen3:14b 14B Q4_K_M Beste instructievolgfunctie
qwen3-vl:30b-a3b 30B Q4_K_M Vision-vaardig
ministral-3:14b 14B Q4_K_M Efficient model van Mistral
mistral-small3.2:24b 24B Q4_K_M Sterke taalkwaliteit
devstral-small-2:24b 24B Q4_K_M Code-gericht
glm-4.7-flash 30B Q4_K_M Denkmodel
nemotron-3-nano:30b 30B Q4_K_M NVIDIA’s aanbod

Om een model te downloaden:

ollama pull gpt-oss:20b
ollama pull qwen3:14b

Begrip van CPU-afhandeling

Wanneer de geheugengebruik van een model de beschikbare VRAM overschrijdt, verdeelt Ollama automatisch modellagen tussen GPU en systeemgeheugen. Het resultaat toont dit als een percentageverdeling zoals “18%/82% CPU/GPU”.

Dit heeft grote invloed op prestaties. Elke tokengeneratie vereist dataoverdracht tussen CPU- en GPU-geheugen—een knelpunt dat zich verergert met elke laag die naar de CPU wordt verplaatst.

Het patroon is duidelijk uit onze resultaten:

  • 100% GPU-modellen: 61-140 tokens/sec
  • 70-82% GPU-modellen: 19-51 tokens/sec
  • 22% GPU (vooral CPU): 12.6 tokens/sec

Dit verklaart waarom een 20B-parametermodel in de praktijk 11x sneller kan zijn dan een 120B-model. Als je van plan bent meerdere gelijktijdige aanvragen te verwerken, wordt het essentieel om hoe Ollama gelijktijdige aanvragen verwerkt te begrijpen voor capaciteitsplanning.

Gedetailleerde Benchmarkresultaten

Modellen die 100% op GPU lopen

GPT-OSS 20B — De Snelste

ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000

NAAM           GROOTTE     VERWERKER    CONTEXT
gpt-oss:20b    14 GB     100% GPU     19000

eval count:           2856 token(s)
eval duration:        20.410517947s
eval rate:            139.93 tokens/s

Op 139.93 tokens/sec is GPT-OSS 20B duidelijk de winnaar voor toepassingen waarin snelheid cruciaal is. Het gebruikt slechts 14 GB VRAM, wat ruimte vrijmaakt voor grotere contextvensters of andere GPU-taken.

Qwen3 14B — Uitstekende Balans

ollama run qwen3:14b --verbose
/set parameter num_ctx 19000

NAAM         GROOTTE     VERWERKER    CONTEXT
qwen3:14b    12 GB     100% GPU     19000

eval count:           3094 token(s)
eval duration:        50.020594575s
eval rate:            61.85 tokens/s

Qwen3 14B biedt in mijn ervaring de beste instructievolgfunctie, met een comfortabele geheugengebruik van 12 GB. Op 61.85 tokens/sec is het voldoende responsief voor interactieve toepassingen.

Voor ontwikkelaars die Qwen3 in toepassingen integreren, zie LLM Structured Output met Ollama en Qwen3 voor het extraheren van gestructureerde JSON-antwoorden.

Ministral 3 14B — Snel en Compact

ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000

NAAM               GROOTTE     VERWERKER    CONTEXT
ministral-3:14b    13 GB     100% GPU     19000

eval count:           1481 token(s)
eval duration:        21.11734277s
eval rate:            70.13 tokens/s

Mistral’s kleinere model levert 70.13 tokens/sec terwijl het volledig in VRAM past. Een solide keuze wanneer je Mistral-familie kwaliteit nodig hebt met maximale snelheid.

Modellen die CPU-afhandeling vereisen

Qwen3-VL 30B — Beste gedeeltelijke CPU-afhandeling prestaties

ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000

NAAM                         GROOTTE     VERWERKER          CONTEXT
qwen3-vl:30b-a3b-instruct    22 GB     30%/70% CPU/GPU    19000

eval count:           1450 token(s)
eval duration:        28.439319709s
eval rate:            50.99 tokens/s

Hoewel 30% van de lagen op CPU zijn, behoudt Qwen3-VL 50.99 tokens/sec—snelder dan enkele 100% GPU-modellen. De visuele mogelijkheden voegen verscheidenheid toe voor multimodale taken.

Mistral Small 3.2 24B — Kwaliteit vs Snelheid

ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000

NAAM                    GROOTTE     VERWERKER          CONTEXT
mistral-small3.2:24b    19 GB     18%/82% CPU/GPU    19000

eval count:           831 token(s)
eval duration:        44.899859038s
eval rate:            18.51 tokens/s

Mistral Small 3.2 biedt superieure taalkwaliteit maar betaalt een hoge snelheidsprijs. Op 18.51 tokens/sec voelt het duidelijk trager aan voor interactieve chat. Het is het waard voor taken waarbij kwaliteit belangrijker is dan latentie.

GLM 4.7 Flash — MoE Denkmodel

ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000

NAAM                 GROOTTE     VERWERKER          CONTEXT
glm-4.7-flash        21 GB     27%/73% CPU/GPU    19000

eval count:           2446 token(s)
eval duration:        1m12.239164004s
eval rate:            33.86 tokens/s

GLM 4.7 Flash is een 30B-A3B Mixture of Experts model—30B totale parameters met slechts 3B actief per token. Als een “denkmodel” genereert het interne redenering voor antwoorden. De 33.86 tokens/sec omvat zowel denken als output tokens. Hoewel er CPU-afhandeling is, houdt de MoE-architectuur het redelijk snel.

GPT-OSS 120B — De zware hitter

ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000

NAAM            GROOTTE     VERWERKER          CONTEXT
gpt-oss:120b    66 GB     78%/22% CPU/GPU    19000

eval count:           5008 token(s)
eval duration:        6m36.168233066s
eval rate:            12.64 tokens/s

Het uitvoeren van een 120B model op 16 GB VRAM is technisch mogelijk maar pijnlijk. Met 78% op CPU, de 12.64 tokens/sec maakt interactieve gebruik frustrerend. Betere geschikt voor batchverwerking waarbij latentie niet belangrijk is.

Praktische aanbevelingen

Voor interactieve chat

Gebruik modellen die volledig in VRAM passen:

  1. GPT-OSS 20B — Maximaal snel (139.93 t/s)
  2. Ministral 3 14B — Goede snelheid met Mistral kwaliteit (70.13 t/s)
  3. Qwen3 14B — Beste instructievolgfunctie (61.85 t/s)

Voor een betere chatervaring, overweeg Open-source chat UIs voor lokale Ollama.

Voor batchverwerking

Wanneer snelheid minder belangrijk is:

  • Mistral Small 3.2 24B — Superieure taalkwaliteit
  • Qwen3-VL 30B — Visie + tekstvaardigheid

Voor ontwikkeling en coding

Als je toepassingen bouwt met Ollama:

Alternatieve hostopties

Als je zorgen hebt over de beperkingen van Ollama (zie Ollama enshittification zorgen), verkennen dan andere opties in de Lokale LLM-hostgids of vergelijk Docker Model Runner vs Ollama.

Conclusie

Met 16 GB VRAM kun je capabele LLMs met indrukwekkende snelheid uitvoeren—als je slim kiest. De belangrijkste bevindingen:

  1. Blijf binnen de VRAM-limieten voor interactieve gebruik. Een 20B-model met 140 tokens/sec is beter dan een 120B-model met 12 tokens/sec voor de meeste praktische doeleinden.

  2. GPT-OSS 20B wint op zuivere snelheid, maar Qwen3 14B biedt de beste balans van snelheid en mogelijkheden voor instructievolgtaakken.

  3. CPU-afhandeling werkt, maar verwacht 3-10x vertraging. Acceptabel voor batchverwerking, frustrerend voor chat.

  4. Contextgrootte maakt uit. De 19K context gebruikt hier verhoogt de VRAM-gebruik aanzienlijk. Verminder context voor betere GPU-gebruik.

Voor AI-gebaseerde zoektoepassingen die lokale LLMs combineren met webresultaten, zie zelfhosting Perplexica met Ollama.

Interne bronnen

Externe referenties