Minneallokering och modellschemaläggning i Ollamas nya version - v0.12.1

Min egen test av modellplanering i Ollama

Sidinnehåll

Här jämför jag hur mycket VRAM den nya versionen av Ollama tilldelar modellen (https://www.glukhov.org/sv/post/2025/09/memory-allocation-in-ollama-new-version/ “Ollama VRAM-allokering”) jämfört med tidigare version. Den nya versionen är sämre.

Som det står på officiell webbplats har den nya Ollama-utgåvan Ny modellplanering med:

Maximering av GPU-utnyttjande:
Ollamas nya minneshantering tilldelar mer minne till GPU:n,
ökande token-generering och bearbetningshastigheter

och några exempel ges, till exempel:

Lång kontext

    GPU: 1x NVIDIA GeForce RTX 4090
    Modell: gemma3:12b
    Kontextlängd: 128k

Gammal                                   Ny
52.02 tokens/s token-genereringshastighet 85.54 tokens/s token-genereringshastighet
19.9GiB av VRAM                       21.4GiB av VRAM
48⁄49 lager laddade på GPU            49⁄49 lager laddade på GPU

Här testar jag hur det fungerar på min dator. Mina resultat skiljer sig mycket från de officiella testerna, de är helt motsatta. Jag har en något annorlunda hårdvarukonfiguration och testade olika modeller, men resultaten är inte bättre alls, och ofta sämre. Detta är i linje med inlägget om Första tecknen på Ollama Enshittification.

ollama llamas Detta bild är från blogginlägget på Ollamas webbplats.

TL;DR

Jag har testat hur den nya versionen av Ollama planerar LLMs som inte passar in i min 16GB VRAM.

  • mistral-small3.2:24b
  • qwen3:30b-a3b
  • gemma3:27b
  • qwen3:32b

Jag körde ollama run <modellnamn>, sedan en enkel fråga som vem är du?, och i ett separat terminalfönster kontrollerade jag svaret från ollama ps och nvidia-smi. Allt ganska enkelt.

Endast qwen3:30b-a3b visade samma CPU/GPU-fördelning, de tre andra modellerna pressades mer mot CPU:n i den nya versionen. I mina tester, till min besvikelse, är den nya versionen av Ollama sämre, och dessa resultat strider mot inlägget på Ollama-bloggen.

Detaljerad jämförande data

Modell Gammal ver: Allokerad VRAM Gammal ver: CPU/GPU Ny ver: Allokerad VRAM Ny ver: CPU/GPU
mistral-small3.2:24b 14489MiB 41%/59% 14249MiB 44%/56%
qwen3:30b-a3b 15065MiB 21%/79% 14867MiB 21%/79%
gemma3:27b 13771MiB 28%/72% 14817MiB 29%/71%
qwen3:32b 14676MiB 30%/70% 15139MiB 32%/68%

Besviken.

Användbara länkar