Minnesallokering och modellschemaläggning i Ollama nya versionen - v0.12.1
Min egen test av ollama-modellplanering
Här jämför jag hur mycket VRAM den nya versionen av Ollama allokerar för modellen hur mycket VRAM den nya versionen av Ollama allokerar för modellen med den tidigare versionen av Ollama. Den nya versionen är sämre.
För mer information om genomströmningsförmåga, latens, VRAM och benchmarkar över olika körningar och hårdvara, se LLM-prestanda: Benchmarkar, halsvirkningar & optimering.
Som det står på officiella hemsidan har den nya Ollama-utgåvan Nytt modellplaneringsalternativ med
Maximera GPU-användning:
Ollama:s nya minhåndtering allokerar mer minne till GPU:n,
vilket ökar token-generering och bearbetningshastigheter
och några exempel ges, till exempel:
Lång kontext
GPU: 1x NVIDIA GeForce RTX 4090
Modell: gemma3:12b
Kontextlängd: 128k
Gammalt Nytt
52,02 tokens/s tokengenereringshastighet 85,54 tokens/s tokengenereringshastighet
19,9 GiB VRAM 21,4 GiB VRAM
48⁄49 lager laddade på GPU 49⁄49 lager laddade på GPU
Här testar jag hur det fungerar på min dator. Mina resultat är mycket olika från de officiella testerna, de är helt motsatta. Jag har en något annan hårdvarukonfiguration och testade olika modeller, men resultaten är inte bättre alls, och ofta sämre. Detta speglar inlägget om Första tecknen på Ollama Enshittification.
Detta bild är från blogginlägget på Ollama:s hemsida.
TL;DR
Jag har testat hur den nya versionen av Ollama planerar LLM:er som inte passar in i min 16 GB VRAM.
- mistral-small3.2:24b
- qwen3:30b-a3b
- gemma3:27b
- qwen3:32b
Jag körde ollama run <modelname>, sedan någon enkel fråga som vem är du?, och i en separat terminal kollade jag svaret från ollama ps och nvidia-smi. Allt ganska enkelt.
Endast qwen3:30b-a3b visade samma CPU/GPU-fördelning, tre andra modeller pushades mer till CPU i den nya versionen. I mina tester, till mina besvär, är den nya versionen av Ollama sämre, och dessa resultat motsäger inlägget på Ollama:s blogg.
Detaljerad jämförelse
| Modell | Gammal version: VRAM allokerad | Gammal version: CPU/GPU | Ny version: VRAM allokerad | Ny version: CPU/GPU |
|---|---|---|---|---|
| mistral-small3.2:24b | 14489MiB | 41%/59% | 14249MiB | 44%/56% |
| qwen3:30b-a3b | 15065MiB | 21%/79% | 14867MiB | 21%/79% |
| gemma3:27b | 13771MiB | 28%/72% | 14817MiB | 29%/71% |
| qwen3:32b | 14676MiB | 30%/70% | 15139MiB | 32%/68% |
Besvär.
För fler benchmarkar, minnesjusteringar och prestandavejledning, se vår LLM-prestanda: Benchmarkar, halsvirkningar & optimering hub.