Czy nowa wersja Ollama jest lepsza niż poprzednia?

Nowa wersja Ollama zużywa więcej pamięci niż poprzednia.

Model planowania przydzielania pamięci w nowej wersji Ollama - v0.12.1

Moje własne przetestowanie harmonogramowania modelu ollama ```

Page content

Oto porównanie jak dużo VRAM nowa wersja Ollama przydziela modelowi
z poprzednią wersją Ollama. Nowa wersja jest gorsza.

Jak stwierdzono na oficjalnej stronie internetowej nowy wydanie Ollama ma Nowe planowanie modeli z

Maksymalizacja wykorzystania GPU:
Nowa zarządzanie pamięcią Ollama przydziela więcej pamięci GPU,
zwiększając prędkość generowania i przetwarzania tokenów

i podano kilka przykładów, np.:

Długi kontekst

    GPU: 1x NVIDIA GeForce RTX 4090
    Model: gemma3:12b
    Długość kontekstu: 128k

Stara                                   Nowa
52.02 tokenów/s szybkość generowania tokenów 85.54 tokenów/s szybkość generowania tokenów
19.9GiB pamięci VRAM                       21.4GiB pamięci VRAM
48⁄49 warstw załadowanych na GPU            49⁄49 warstw załadowanych na GPU

Tu testuję, jak to działa na moim komputerze. Moje wyniki są zupełnie inne niż w oficjalnych testach, są nawet dokładnie przeciwne. Mam lekko inną konfigurację sprzętu i przetestowałem inne modele, ale wyniki wcale nie są lepsze, a często gorsze. To echo posta o Pierwsze znaki Ollama Enshittification.

ollama llamas To zdjęcie pochodzi z wpisu na blogu Ollama.

TL;DR

Przetestowałem, jak nowa wersja Ollama planuje modele LLM, które nie mieszczą się w mojej 16 GB VRAM.

mistral-small3.2:24b
qwen3:30b-a3b
gemma3:27b
qwen3:32b

Uruchamiałem ollama run <modelname>, a następnie prosty pytanie, takie jak who are you?, a w osobnym terminalu sprawdzałem odpowiedź ollama ps i nvidia-smi. Wszystko dość proste.

Tylko qwen3:30b-a3b pokazał ten sam rozkład CPU/GPU, trzy inne modele były bardziej wykorzystywane przez CPU w nowej wersji. W moich testach, do mojego rozczarowania, nowa wersja Ollama jest gorsza, a te wyniki są sprzeczne z wpisem na blogu Ollama.

Szczegółowe dane porównania

Model	Stara wersja: przydzielona VRAM	Stara wersja: CPU/GPU	Nowa wersja: przydzielona VRAM	Nowa wersja: CPU/GPU
mistral-small3.2:24b	14489MiB	41%/59%	14249MiB	44%/56%
qwen3:30b-a3b	15065MiB	21%/79%	14867MiB	21%/79%
gemma3:27b	13771MiB	28%/72%	14817MiB	29%/71%
qwen3:32b	14676MiB	30%/70%	15139MiB	32%/68%

Zdenerwowany.

TL;DR

Szczegółowe dane porównania

Przydatne linki