Performance

LLM-prestation 2026: Benchmark, flaskhalsar och optimering

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Hugo cachestrategier är avgörande för att maximera prestandan för din statiska webbplatsgenerator. Medan Hugo genererar statiska filer som är inbyggt snabba, kan implementeringen av rätt cachning på flera nivåer dramatiskt förbättra byggtider, minska serverbelastningen och förbättra användarupplevelsen.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestandajämförelse

Jag hittade några intressanta prestandatest av GPT-OSS 120b som kör på Ollama över tre olika plattformar: NVIDIA DGX Spark, Mac Studio, och RTX 4080. GPT-OSS 120b-modellen från Ollama-biblioteket väger 65 GB, vilket innebär att den inte passar in i den 16 GB VRAM som finns på en RTX 4080 (eller den nyare RTX 5080).

Ollama GPT-OSS Strukturerade utgångsproblem

Ollama’s GPT-OSS modeller har återkommande problem med att hantera strukturerad utdata, särskilt när de används med ramverk som LangChain, OpenAI SDK, vllm och andra.

Minnesallokering och modellschemaläggning i Ollama nya versionen - v0.12.1

Här jämför jag hur mycket VRAM den nya versionen av Ollama allokerar för modellen hur mycket VRAM den nya versionen av Ollama allokerar för modellen med den tidigare versionen av Ollama. Den nya versionen är sämre.

LLM-prestanda och PCIe-lan: Viktiga överväganden

Hur påverkar PCIe-laner LLM-prestanda? Beroende på uppgiften. För träning och fler-GPU-inferens – prestandaförändringen är betydande.

Test: Hur Ollama använder Intel CPU-prestanda och effektiva kärnor

Jag har en teori att testa – om man använder alla kärnor på Intel CPU skulle det öka hastigheten hos LLMs? Det är irriterande att den nya gemma3 27-bit model (gemma3:27b, 17GB på ollama) inte passar in i min GPU:s 16GB VRAM och delvis kör på CPU.

Den här guiden förklarar hur Ollama hanterar parallella begäran (konkurrens, köhantering och resursbegränsningar) och hur du kan justera det med hjälp av miljövariabeln OLLAMA_NUM_PARALLEL (och relaterade inställningar).

Inte för länge sedan släpptes. Låt oss uppdatera och
testa hur Mistral Small presterar jämfört med andra LLMs.

Jämförelse av förutsägelsehastighet hos flera versioner av LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) på CPU och GPU.

Performance

LLM-prestation 2026: Benchmark, flaskhalsar och optimering

Hugo Cachestrategier för Prestanda

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestandajämförelse

Ollama GPT-OSS Strukturerade utgångsproblem

Minnesallokering och modellschemaläggning i Ollama nya versionen - v0.12.1

LLM-prestanda och PCIe-lan: Viktiga överväganden

Test: Hur Ollama använder Intel CPU-prestanda och effektiva kärnor

Hur Ollama hanterar parallella begäran

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 och Phi - LLM-test

Hastighetstest för stora språkmodeller