16 GB VRAM-benchmarks för LLM med llama.cpp (hastighet och kontext)
Tokenhastighet för llama.cpp på 16 GB VRAM (tabeller).
Här jämför jag hastigheten hos flera LLM som kör på GPU med 16 GB VRAM och väljer den bästa för egen hosting.
Tokenhastighet för llama.cpp på 16 GB VRAM (tabeller).
Här jämför jag hastigheten hos flera LLM som kör på GPU med 16 GB VRAM och väljer den bästa för egen hosting.
LLM-hastighetstest på RTX 4080 med 16 GB VRAM
Att köra stora språkmodeller lokalt ger dig integritet, möjlighet att använda dem offline och noll kostnader för API:er. Detta benchmark visar exakt vad man kan förvänta sig från 14 populära LLMs på Ollama på en RTX 4080.
GPT-OSS 120b-benchmärkningar på tre AI-plattformar
Jag hittade några intressanta prestandatest av GPT-OSS 120b som kör på Ollama över tre olika plattformar: NVIDIA DGX Spark, Mac Studio, och RTX 4080. GPT-OSS 120b-modellen från Ollama-biblioteket väger 65 GB, vilket innebär att den inte passar in i den 16 GB VRAM som finns på en RTX 4080 (eller den nyare RTX 5080).
Specialiserade chips gör AI-inferens snabbare och billigare
Framtiden för AI är inte bara om smartare modeller – den handlar om smartare kisel.
Specialiserad hårdvara för LLM-inferens driver en revolution som liknar Bitcoin-minningens övergång till ASICs.
Jämföra hastighet, parametrar och prestanda hos dessa två modeller
Här är en jämförelse mellan Qwen3:30b och GPT-OSS:20b fokuserande på instruktionssäljning och prestandaparametrar, specifikationer och hastighet.
Ingenstans särskilt fin.
Ollama’s GPT-OSS modeller har återkommande problem med att hantera strukturerad utdata, särskilt när de används med ramverk som LangChain, OpenAI SDK, vllm och andra.
Min egen test av ollama-modellplanering
Här jämför jag hur mycket VRAM den nya versionen av Ollama allokerar för modellen hur mycket VRAM den nya versionen av Ollama allokerar för modellen med den tidigare versionen av Ollama. Den nya versionen är sämre.
Tänker du på att installera en andra GPU för LLM:er?
Hur påverkar PCIe-laner LLM-prestanda? Beroende på uppgiften. För träning och fler-GPU-inferens – prestandaförändringen är betydande.
Ollama på Intel CPU: Effektivitet vs prestandaenheter
Jag har en teori att testa – om man använder alla kärnor på Intel CPU skulle det öka hastigheten hos LLMs? Det är irriterande att den nya gemma3 27-bit model (gemma3:27b, 17GB på ollama) inte passar in i min GPU:s 16GB VRAM och delvis kör på CPU.
AI kräver mycket kraft...
I mitt håll i den moderna världens kaos här är jag jämförande tekniska specifikationer av olika kort som är lämpliga för AI uppgifter (Deep Learning, Objektidentifiering och LLM). De är alla otroligt dyra dock.
Konfigurera ollama för parallell exekvering av begäranden.
När Ollama-servern får två begäranden samtidigt, beror dess beteende på dess konfiguration och tillgängliga systemresurser.
Nästa omgång av LLM-testerna
Inte för länge sedan släpptes. Låt oss uppdatera och
testa hur Mistral Small presterar jämfört med andra LLMs.
Testa upptäckt av logiska fall
Nyligen har vi sett flera nya LLM:er släppas. Spännande tider. Låt oss testa och se hur de presterar när de upptäcker logiska fall.
8 llama3 (Meta+) och 5 phi3 (Microsoft) LLM-versioner
Testa hur modeller med olika antal parametrar och kvantisering beter sig.
Låt oss testa LLM:s hastighet på GPU jämfört med CPU
Jämförelse av förutsägelsehastighet hos flera versioner av LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) på CPU och GPU.