Is de nieuwe versie van Ollama beter dan de vorige?

Nieuwe versie van Ollama gebruikt meer geheugen dan de vorige.

Geheugentoewijzing model planning in Ollama nieuwe versie - v0.12.1

Mijn eigen test van ollama model scheduling ```

Inhoud

Hier vergelijk ik hoeveel VRAM de nieuwe versie van Ollama toewijst aan het model hier met de vorige Ollama-versie. De nieuwe versie is erger.

Zoals op de officiële website staat, heeft de nieuwe Ollama-release Nieuwe model-schedulering met

Maximaliseren van GPU-gebruik:
Ollama’s nieuwe geheugenbeheer toewijst meer geheugen aan de GPU,
wat de tokengeneratie- en verwerkingsnelheid verhoogt

en er worden enkele voorbeelden gegeven, bijvoorbeeld:

Lange context

    GPU: 1x NVIDIA GeForce RTX 4090
    Model: gemma3:12b
    Contextlengte: 128k

Oud                                   Nieuw
52,02 tokens/s tokengeneratiesnelheid 85,54 tokens/s tokengeneratiesnelheid
19,9GiB VRAM                          21,4GiB VRAM
48⁄49 lagen geladen op GPU            49⁄49 lagen geladen op GPU

Hier test ik hoe het werkt op mijn PC. Mijn resultaten zijn zeer verschillend van de officiële tests, ze zijn volledig tegengesteld. Ik heb een lichtelijk verschillende hardwareconfiguratie en heb andere modellen getest, maar de resultaten zijn geen enkele keer beter, en vaak zelfs erger. Dit herhaalt het bericht over De eerste tekenen van Ollama Enshittification.

ollama llamas Deze afbeelding komt uit het blogbericht op de Ollama-website.

TL;DR

Ik heb getest hoe de nieuwe versie van Ollama modellen scheduleert die niet in mijn 16GB VRAM passen.

mistral-small3.2:24b
qwen3:30b-a3b
gemma3:27b
qwen3:32b

Ik voerde ollama run <modelnaam> uit, en stelde toen een eenvoudige vraag zoals wie ben jij?, en controleerde in een aparte terminal de uitvoer van ollama ps en nvidia-smi. Alles vrij eenvoudig.

Alleen qwen3:30b-a3b toonde dezelfde CPU/GPU-verdeling, de andere drie modellen werden in de nieuwe versie meer naar de CPU geduwd. In mijn tests, tot mijn teleurstelling, is de nieuwe versie van Ollama erger, en deze resultaten zijn in tegenspraak met het bericht op de Ollama-blog.

Gedetailleerde vergelijking

Model	Oude versie: VRAM toegewezen	Oude versie: CPU/GPU	Nieuwe versie: VRAM toegewezen	Nieuwe versie: CPU/GPU
mistral-small3.2:24b	14489MiB	41%/59%	14249MiB	44%/56%
qwen3:30b-a3b	15065MiB	21%/79%	14867MiB	21%/79%
gemma3:27b	13771MiB	28%/72%	14817MiB	29%/71%
qwen3:32b	14676MiB	30%/70%	15139MiB	32%/68%

Teleurstellend.

TL;DR

Gedetailleerde vergelijking

Nuttige links