LLM Performance

16 GB VRAM-benchmarks för LLM med llama.cpp (hastighet och kontext)

Här jämför jag hastigheten hos flera LLM som kör på GPU med 16 GB VRAM och väljer den bästa för egen hosting.

Jämförelse av LLMs prestanda på Ollama på GPU med 16GB VRAM

Att köra stora språkmodeller lokalt ger dig integritet, möjlighet att använda dem offline och noll kostnader för API:er. Detta benchmark visar exakt vad man kan förvänta sig från 14 populära LLMs på Ollama på en RTX 4080.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestandajämförelse

Jag hittade några intressanta prestandatest av GPT-OSS 120b som kör på Ollama över tre olika plattformar: NVIDIA DGX Spark, Mac Studio, och RTX 4080. GPT-OSS 120b-modellen från Ollama-biblioteket väger 65 GB, vilket innebär att den inte passar in i den 16 GB VRAM som finns på en RTX 4080 (eller den nyare RTX 5080).

Uppsvunget av LLM-ASIC: Varför är inferenshårdvara viktig

Framtiden för AI är inte bara om smartare modeller – den handlar om smartare kisel.

Specialiserad hårdvara för LLM-inferens driver en revolution som liknar Bitcoin-minningens övergång till ASICs.

Här är en jämförelse mellan Qwen3:30b och GPT-OSS:20b fokuserande på instruktionssäljning och prestandaparametrar, specifikationer och hastighet.

Ollama GPT-OSS Strukturerade utgångsproblem

Ollama’s GPT-OSS modeller har återkommande problem med att hantera strukturerad utdata, särskilt när de används med ramverk som LangChain, OpenAI SDK, vllm och andra.

Minnesallokering och modellschemaläggning i Ollama nya versionen - v0.12.1

Här jämför jag hur mycket VRAM den nya versionen av Ollama allokerar för modellen hur mycket VRAM den nya versionen av Ollama allokerar för modellen med den tidigare versionen av Ollama. Den nya versionen är sämre.

LLM-prestanda och PCIe-lan: Viktiga överväganden

Hur påverkar PCIe-laner LLM-prestanda? Beroende på uppgiften. För träning och fler-GPU-inferens – prestandaförändringen är betydande.

Test: Hur Ollama använder Intel CPU-prestanda och effektiva kärnor

Jag har en teori att testa – om man använder alla kärnor på Intel CPU skulle det öka hastigheten hos LLMs? Det är irriterande att den nya gemma3 27-bit model (gemma3:27b, 17GB på ollama) inte passar in i min GPU:s 16GB VRAM och delvis kör på CPU.

Jämförelse av NVidia GPU-lämplighet för AI

I mitt håll i den moderna världens kaos här är jag jämförande tekniska specifikationer av olika kort som är lämpliga för AI uppgifter (Deep Learning, Objektidentifiering och LLM). De är alla otroligt dyra dock.

Hur Ollama hanterar parallella begäranden

När Ollama-servern får två begäranden samtidigt, beror dess beteende på dess konfiguration och tillgängliga systemresurser.

Inte för länge sedan släpptes. Låt oss uppdatera och
testa hur Mistral Small presterar jämfört med andra LLMs.

Nyligen har vi sett flera nya LLM:er släppas. Spännande tider. Låt oss testa och se hur de presterar när de upptäcker logiska fall.

Jämförelse av LLM:s sammanfattningsförmåga

Testa hur modeller med olika antal parametrar och kvantisering beter sig.

Jämförelse av förutsägelsehastighet hos flera versioner av LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) på CPU och GPU.

LLM Performance

16 GB VRAM-benchmarks för LLM med llama.cpp (hastighet och kontext)

Jämförelse av LLMs prestanda på Ollama på GPU med 16GB VRAM

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestandajämförelse

Uppsvunget av LLM-ASIC: Varför är inferenshårdvara viktig

Jämförelse: Qwen3:30b vs GPT-OSS:20b

Ollama GPT-OSS Strukturerade utgångsproblem

Minnesallokering och modellschemaläggning i Ollama nya versionen - v0.12.1

LLM-prestanda och PCIe-lan: Viktiga överväganden

Test: Hur Ollama använder Intel CPU-prestanda och effektiva kärnor

Jämförelse av NVidia GPU-lämplighet för AI

Hur Ollama hanterar parallella begäranden

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 och Phi - LLM-test

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Jämförelse av LLM:s sammanfattningsförmåga

Hastighetstest för stora språkmodeller