Minnesallokering och modellschemaläggning i Ollama nya versionen - v0.12.1

Min egen test av ollama-modellplanering

Sidinnehåll

Här jämför jag hur mycket VRAM den nya versionen av Ollama allokerar för modellen hur mycket VRAM den nya versionen av Ollama allokerar för modellen med den tidigare versionen av Ollama. Den nya versionen är sämre.

För mer information om genomströmningsförmåga, latens, VRAM och benchmarkar över olika körningar och hårdvara, se LLM-prestanda: Benchmarkar, halsvirkningar & optimering.

Som det står på officiella hemsidan har den nya Ollama-utgåvan Nytt modellplaneringsalternativ med

Maximera GPU-användning:
Ollama:s nya minhåndtering allokerar mer minne till GPU:n,
vilket ökar token-generering och bearbetningshastigheter

och några exempel ges, till exempel:

Lång kontext

    GPU: 1x NVIDIA GeForce RTX 4090
    Modell: gemma3:12b
    Kontextlängd: 128k

Gammalt                                   Nytt
52,02 tokens/s tokengenereringshastighet 85,54 tokens/s tokengenereringshastighet
19,9 GiB VRAM                            21,4 GiB VRAM
48⁄49 lager laddade på GPU              49⁄49 lager laddade på GPU

Här testar jag hur det fungerar på min dator. Mina resultat är mycket olika från de officiella testerna, de är helt motsatta. Jag har en något annan hårdvarukonfiguration och testade olika modeller, men resultaten är inte bättre alls, och ofta sämre. Detta speglar inlägget om Första tecknen på Ollama Enshittification.

ollama llamas Detta bild är från blogginlägget på Ollama:s hemsida.

TL;DR

Jag har testat hur den nya versionen av Ollama planerar LLM:er som inte passar in i min 16 GB VRAM.

  • mistral-small3.2:24b
  • qwen3:30b-a3b
  • gemma3:27b
  • qwen3:32b

Jag körde ollama run <modelname>, sedan någon enkel fråga som vem är du?, och i en separat terminal kollade jag svaret från ollama ps och nvidia-smi. Allt ganska enkelt.

Endast qwen3:30b-a3b visade samma CPU/GPU-fördelning, tre andra modeller pushades mer till CPU i den nya versionen. I mina tester, till mina besvär, är den nya versionen av Ollama sämre, och dessa resultat motsäger inlägget på Ollama:s blogg.

Detaljerad jämförelse

Modell Gammal version: VRAM allokerad Gammal version: CPU/GPU Ny version: VRAM allokerad Ny version: CPU/GPU
mistral-small3.2:24b 14489MiB 41%/59% 14249MiB 44%/56%
qwen3:30b-a3b 15065MiB 21%/79% 14867MiB 21%/79%
gemma3:27b 13771MiB 28%/72% 14817MiB 29%/71%
qwen3:32b 14676MiB 30%/70% 15139MiB 32%/68%

Besvär.

För fler benchmarkar, minnesjusteringar och prestandavejledning, se vår LLM-prestanda: Benchmarkar, halsvirkningar & optimering hub.

Några användbara länkar