Är den nya versionen av Ollama bättre än den tidigare?

Ny version av Ollama förbrukar mer minne än tidigare.

Minneallokering och modellschemaläggning i Ollamas nya version - v0.12.1

Min egen test av modellplanering i Ollama

Sidinnehåll

Här jämför jag hur mycket VRAM den nya versionen av Ollama tilldelar modellen (https://www.glukhov.org/sv/post/2025/09/memory-allocation-in-ollama-new-version/ “Ollama VRAM-allokering”) jämfört med tidigare version. Den nya versionen är sämre.

Som det står på officiell webbplats har den nya Ollama-utgåvan Ny modellplanering med:

Maximering av GPU-utnyttjande:
Ollamas nya minneshantering tilldelar mer minne till GPU:n,
ökande token-generering och bearbetningshastigheter

och några exempel ges, till exempel:

Lång kontext

    GPU: 1x NVIDIA GeForce RTX 4090
    Modell: gemma3:12b
    Kontextlängd: 128k

Gammal                                   Ny
52.02 tokens/s token-genereringshastighet 85.54 tokens/s token-genereringshastighet
19.9GiB av VRAM                       21.4GiB av VRAM
48⁄49 lager laddade på GPU            49⁄49 lager laddade på GPU

Här testar jag hur det fungerar på min dator. Mina resultat skiljer sig mycket från de officiella testerna, de är helt motsatta. Jag har en något annorlunda hårdvarukonfiguration och testade olika modeller, men resultaten är inte bättre alls, och ofta sämre. Detta är i linje med inlägget om Första tecknen på Ollama Enshittification.

ollama llamas Detta bild är från blogginlägget på Ollamas webbplats.

TL;DR

Jag har testat hur den nya versionen av Ollama planerar LLMs som inte passar in i min 16GB VRAM.

mistral-small3.2:24b
qwen3:30b-a3b
gemma3:27b
qwen3:32b

Jag körde ollama run <modellnamn>, sedan en enkel fråga som vem är du?, och i ett separat terminalfönster kontrollerade jag svaret från ollama ps och nvidia-smi. Allt ganska enkelt.

Endast qwen3:30b-a3b visade samma CPU/GPU-fördelning, de tre andra modellerna pressades mer mot CPU:n i den nya versionen. I mina tester, till min besvikelse, är den nya versionen av Ollama sämre, och dessa resultat strider mot inlägget på Ollama-bloggen.

Detaljerad jämförande data

Modell	Gammal ver: Allokerad VRAM	Gammal ver: CPU/GPU	Ny ver: Allokerad VRAM	Ny ver: CPU/GPU
mistral-small3.2:24b	14489MiB	41%/59%	14249MiB	44%/56%
qwen3:30b-a3b	15065MiB	21%/79%	14867MiB	21%/79%
gemma3:27b	13771MiB	28%/72%	14817MiB	29%/71%
qwen3:32b	14676MiB	30%/70%	15139MiB	32%/68%

Besviken.

TL;DR

Detaljerad jämförande data

Användbara länkar