Model planowania przydzielania pamięci w nowej wersji Ollama - v0.12.1

Moje własne przetestowanie harmonogramowania modelu ollama ```

Page content

Oto porównanie jak dużo VRAM nowa wersja Ollama przydziela modelowi
z poprzednią wersją Ollama. Nowa wersja jest gorsza.

Jak stwierdzono na oficjalnej stronie internetowej nowy wydanie Ollama ma Nowe planowanie modeli z

Maksymalizacja wykorzystania GPU:
Nowa zarządzanie pamięcią Ollama przydziela więcej pamięci GPU,
zwiększając prędkość generowania i przetwarzania tokenów

i podano kilka przykładów, np.:

Długi kontekst

    GPU: 1x NVIDIA GeForce RTX 4090
    Model: gemma3:12b
    Długość kontekstu: 128k

Stara                                   Nowa
52.02 tokenów/s szybkość generowania tokenów 85.54 tokenów/s szybkość generowania tokenów
19.9GiB pamięci VRAM                       21.4GiB pamięci VRAM
48⁄49 warstw załadowanych na GPU            49⁄49 warstw załadowanych na GPU

Tu testuję, jak to działa na moim komputerze. Moje wyniki są zupełnie inne niż w oficjalnych testach, są nawet dokładnie przeciwne. Mam lekko inną konfigurację sprzętu i przetestowałem inne modele, ale wyniki wcale nie są lepsze, a często gorsze. To echo posta o Pierwsze znaki Ollama Enshittification.

ollama llamas To zdjęcie pochodzi z wpisu na blogu Ollama.

TL;DR

Przetestowałem, jak nowa wersja Ollama planuje modele LLM, które nie mieszczą się w mojej 16 GB VRAM.

  • mistral-small3.2:24b
  • qwen3:30b-a3b
  • gemma3:27b
  • qwen3:32b

Uruchamiałem ollama run <modelname>, a następnie prosty pytanie, takie jak who are you?, a w osobnym terminalu sprawdzałem odpowiedź ollama ps i nvidia-smi. Wszystko dość proste.

Tylko qwen3:30b-a3b pokazał ten sam rozkład CPU/GPU, trzy inne modele były bardziej wykorzystywane przez CPU w nowej wersji. W moich testach, do mojego rozczarowania, nowa wersja Ollama jest gorsza, a te wyniki są sprzeczne z wpisem na blogu Ollama.

Szczegółowe dane porównania

Model Stara wersja: przydzielona VRAM Stara wersja: CPU/GPU Nowa wersja: przydzielona VRAM Nowa wersja: CPU/GPU
mistral-small3.2:24b 14489MiB 41%/59% 14249MiB 44%/56%
qwen3:30b-a3b 15065MiB 21%/79% 14867MiB 21%/79%
gemma3:27b 13771MiB 28%/72% 14817MiB 29%/71%
qwen3:32b 14676MiB 30%/70% 15139MiB 32%/68%

Zdenerwowany.

Przydatne linki