LLM Performance

Speculatief Decoderen: 20-50% Snellere LLM-inferentie

Een model van 70B (70 miljard parameters) genereert één token per forward pass, en bij elke pass worden de gewichten opnieuw van het VRAM geladen, wordt de attention berekend over de context en wordt het gehege synchroniseerd. Tussen tokens zit de GPU inactief terwijl hij wacht tot sequentiële afhankelijkheden zijn opgelost.

Qwen 3.6 27B en 35B MTP versus standaard op een 16 GB GPU

Ik heb de prestaties van speculatief decoderen (Multi-Token Prediction, MTP) getest in Qwen 3.6 27B en 35B op een RTX 4080 met 16 GB VRAM.

Validatie van gestructureerde LLM-output in Python die stand houdt

De meeste tutorials over “gestructureerde output” van GPT-modellen (LLM’s) zijn niet serieus. Ze leren je beleefd om JSON te vragen en hopen daarna dat het model zich gedraagt. Dat is geen validatie. Dat is optimisme met accolades.

Referentie voor parameters voor agentic LLM-inferentie voor Qwen en Gemma

Deze pagina is een praktische referentie voor het afstemmen van agentische LLM-inferentie (temperatuur, top_p, top_k, penalties en hoe deze interacteren in meervoudige stappen en workflows met veel hulpmiddelen).

LLM-benchmarks met 16 GB VRAM met behulp van llama.cpp (snelheid en context)

Hier vergelijk ik de snelheid van verschillende LLM’s die op een GPU met 16 GB VRAM draaien, en kies ik de beste optie voor zelfhosting.

LLM-prestaties in 2026: Benchmarks, Bottlenecks & Optimalisatie

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Vergelijking van de prestaties van LLM’s op Ollama op een GPU met 16 GB VRAM

Het lokaal draaien van grote taalmodellen geeft je privacy, offline mogelijkheden en geen API-kosten. Deze benchmark onthult precies wat je kunt verwachten van 14 populaire LLM’s op Ollama op een RTX 4080.

BAML vs Instructor: gestructureerde LLM-outputs

Bij het werken met Large Language Models (LLM’s) in productieomgevingen is het essentieel om gestructureerde, typeveilige outputs te verkrijgen. Twee populaire frameworks - BAML en Instructor - hanteren verschillende benaderingen om dit probleem op te lossen.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestatielijst

Ik vond enkele interessante prestatietests van GPT-OSS 120b die draaien op Ollama over drie verschillende platforms: NVIDIA DGX Spark, Mac Studio, en RTX 4080. De GPT-OSS 120b model uit de Ollama bibliotheek weegt 65 GB, wat betekent dat het niet past in de 16 GB VRAM van een RTX 4080 (of de nieuwere RTX 5080).

LLM-ASIC's en gespecialiseerde inferentiechips (waarom ze belangrijk zijn)

De toekomst van AI draait niet alleen om slimmer [modellen](https://www.glukhov.org/nl/rag/embeddings/qwen3-embedding-qwen3-reranker-on-ollama/ “Qwen3 embedding en reranker modellen - state-of-the-art prestaties). Het gaat ook om silicium dat aansluit op de manier waarop deze modellen daadwerkelijk worden aangeboden. Gespecialiseerde hardware voor LLM-inferentie volgt een pad dat doet denken aan de verschuiving in Bitcoin-mining van GPUs naar doelgerichte ASICs, maar met strengere beperkingen omdat modellen en precisie-formules voortdurend evolueren.

Hieronder volgt een vergelijking tussen Qwen3:30b en GPT-OSS:20b, met de nadruk op instructievolging en prestatieparameters, specificaties en snelheid.

Ollama GPT-OSS Structured Output Problemen

Ollama’s GPT-OSS modellen hebben herhalende problemen met het verwerken van gestructureerde uitvoer, vooral wanneer ze worden gebruikt met frameworks zoals LangChain, OpenAI SDK, vllm en anderen.

Vergelijking van gestructureerde output bij populaire LLM-leveranciers: OpenAI, Gemini, Anthropic, Mistral en AWS Bedrock

Hieronder volgt een vergelijking van de ondersteuning voor gestructureerde output (betrouwbaar JSON terugkrijgen) bij populaire LLM-aanbieders, plus minimale Python-voorbeelden

Geheugenallocatie en modelplanning in de nieuwe versie van Ollama - v0.12.1

Hier vergelijk ik hoeveel VRAM de nieuwe versie van Ollama toewijst aan het model hoeveel VRAM nieuwe versie van Ollama toewijst aan het model met de vorige Ollama-versie. De nieuwe versie is erger.

LLM-prestaties en PCIe-lanes: Belangrijke overwegingen

Hoe beïnvloeden PCIe-lanes de prestaties van LLMs? Afhangend van de taak. Voor training en meervoudige GPU-inferentie - is de prestatievermindering aanzienlijk.

Test: Hoe Ollama Intel CPU-prestaties en efficiënte kernen gebruikt

Ik heb een theorie om te testen - als we alle kernen op een Intel CPU gebruiken, zou dat de snelheid van LLMs verhogen? Het irriteert me dat de nieuwe gemma3 27 bit model (gemma3:27b, 17 GB op ollama) niet in de 16 GB VRAM van mijn GPU past en gedeeltelijk op de CPU draait.