Minneallokering och modellschemaläggning i Ollamas nya version - v0.12.1
Min egen test av modellplanering i Ollama
Här jämför jag hur mycket VRAM den nya versionen av Ollama tilldelar modellen (https://www.glukhov.org/sv/post/2025/09/memory-allocation-in-ollama-new-version/ “Ollama VRAM-allokering”) jämfört med tidigare version. Den nya versionen är sämre.
Som det står på officiell webbplats har den nya Ollama-utgåvan Ny modellplanering med:
Maximering av GPU-utnyttjande:
Ollamas nya minneshantering tilldelar mer minne till GPU:n,
ökande token-generering och bearbetningshastigheter
och några exempel ges, till exempel:
Lång kontext
GPU: 1x NVIDIA GeForce RTX 4090
Modell: gemma3:12b
Kontextlängd: 128k
Gammal Ny
52.02 tokens/s token-genereringshastighet 85.54 tokens/s token-genereringshastighet
19.9GiB av VRAM 21.4GiB av VRAM
48⁄49 lager laddade på GPU 49⁄49 lager laddade på GPU
Här testar jag hur det fungerar på min dator. Mina resultat skiljer sig mycket från de officiella testerna, de är helt motsatta. Jag har en något annorlunda hårdvarukonfiguration och testade olika modeller, men resultaten är inte bättre alls, och ofta sämre. Detta är i linje med inlägget om Första tecknen på Ollama Enshittification.
Detta bild är från blogginlägget på Ollamas webbplats.
TL;DR
Jag har testat hur den nya versionen av Ollama planerar LLMs som inte passar in i min 16GB VRAM.
- mistral-small3.2:24b
- qwen3:30b-a3b
- gemma3:27b
- qwen3:32b
Jag körde ollama run <modellnamn>, sedan en enkel fråga som vem är du?, och i ett separat terminalfönster kontrollerade jag svaret från ollama ps och nvidia-smi. Allt ganska enkelt.
Endast qwen3:30b-a3b visade samma CPU/GPU-fördelning, de tre andra modellerna pressades mer mot CPU:n i den nya versionen. I mina tester, till min besvikelse, är den nya versionen av Ollama sämre, och dessa resultat strider mot inlägget på Ollama-bloggen.
Detaljerad jämförande data
| Modell | Gammal ver: Allokerad VRAM | Gammal ver: CPU/GPU | Ny ver: Allokerad VRAM | Ny ver: CPU/GPU |
|---|---|---|---|---|
| mistral-small3.2:24b | 14489MiB | 41%/59% | 14249MiB | 44%/56% |
| qwen3:30b-a3b | 15065MiB | 21%/79% | 14867MiB | 21%/79% |
| gemma3:27b | 13771MiB | 28%/72% | 14817MiB | 29%/71% |
| qwen3:32b | 14676MiB | 30%/70% | 15139MiB | 32%/68% |
Besviken.