Performance

LLM-prestaties in 2026: Benchmarks, Bottlenecks & Optimalisatie

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Hugo caching strategies zijn essentieel om de prestaties van uw statische site generator te maximaliseren. Hoewel Hugo statische bestanden genereert die inherent snel zijn, kan het implementeren van een correcte caching op meerdere lagen de bouwtijd aanzienlijk verbeteren, de serverbelasting verminderen en de gebruikerservaring verbeteren.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestatielijst

Ik vond enkele interessante prestatietests van GPT-OSS 120b die draaien op Ollama over drie verschillende platforms: NVIDIA DGX Spark, Mac Studio, en RTX 4080. De GPT-OSS 120b model uit de Ollama bibliotheek weegt 65 GB, wat betekent dat het niet past in de 16 GB VRAM van een RTX 4080 (of de nieuwere RTX 5080).

Ollama GPT-OSS Structured Output Problemen

Ollama’s GPT-OSS modellen hebben herhalende problemen met het verwerken van gestructureerde uitvoer, vooral wanneer ze worden gebruikt met frameworks zoals LangChain, OpenAI SDK, vllm en anderen.

Geheugenallocatie en modelplanning in de nieuwe versie van Ollama - v0.12.1

Hier vergelijk ik hoeveel VRAM de nieuwe versie van Ollama toewijst aan het model hoeveel VRAM nieuwe versie van Ollama toewijst aan het model met de vorige Ollama-versie. De nieuwe versie is erger.

LLM-prestaties en PCIe-lanes: Belangrijke overwegingen

Hoe beïnvloeden PCIe-lanes de prestaties van LLMs? Afhangend van de taak. Voor training en meervoudige GPU-inferentie - is de prestatievermindering aanzienlijk.

Test: Hoe Ollama Intel CPU-prestaties en efficiënte kernen gebruikt

Ik heb een theorie om te testen - als we alle kernen op een Intel CPU gebruiken, zou dat de snelheid van LLMs verhogen? Het irriteert me dat de nieuwe gemma3 27 bit model (gemma3:27b, 17 GB op ollama) niet in de 16 GB VRAM van mijn GPU past en gedeeltelijk op de CPU draait.

Hoe Ollama parallelle verzoeken afhandelt

Deze handleiding legt uit hoe Ollama параллель verzoeken afhandelt (concurentie, wachtrijen en resourcebeperkingen) en hoe u dit kunt optimaliseren met de OLLAMA_NUM_PARALLEL-omgevingsvariabele (en gerelateerde instellingen).

Niet zo lang geleden is vrijgegeven. Laten we even op de hoogte komen en test hoe Mistral Small presteert vergeleken met andere LLMs.

Vergelijking van de voorspellingsnelheid van verschillende versies van LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) op CPU en GPU.

Performance

LLM-prestaties in 2026: Benchmarks, Bottlenecks & Optimalisatie

Hugo Cachingstrategieën voor prestaties

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestatielijst

Ollama GPT-OSS Structured Output Problemen

Geheugenallocatie en modelplanning in de nieuwe versie van Ollama - v0.12.1

LLM-prestaties en PCIe-lanes: Belangrijke overwegingen

Test: Hoe Ollama Intel CPU-prestaties en efficiënte kernen gebruikt

Hoe Ollama parallelle verzoeken afhandelt

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 en Phi - LLM Test

Snelheidstest voor grote taalmodellen