Model planowania przydzielania pamięci w nowej wersji Ollama - v0.12.1
Moje własne przetestowanie harmonogramowania modelu ollama ```
Oto porównanie jak dużo VRAM nowa wersja Ollama przydziela modelowi
z poprzednią wersją Ollama. Nowa wersja jest gorsza.
Jak stwierdzono na oficjalnej stronie internetowej nowy wydanie Ollama ma Nowe planowanie modeli
z
Maksymalizacja wykorzystania GPU:
Nowa zarządzanie pamięcią Ollama przydziela więcej pamięci GPU,
zwiększając prędkość generowania i przetwarzania tokenów
i podano kilka przykładów, np.:
Długi kontekst
GPU: 1x NVIDIA GeForce RTX 4090
Model: gemma3:12b
Długość kontekstu: 128k
Stara Nowa
52.02 tokenów/s szybkość generowania tokenów 85.54 tokenów/s szybkość generowania tokenów
19.9GiB pamięci VRAM 21.4GiB pamięci VRAM
48⁄49 warstw załadowanych na GPU 49⁄49 warstw załadowanych na GPU
Tu testuję, jak to działa na moim komputerze. Moje wyniki są zupełnie inne niż w oficjalnych testach, są nawet dokładnie przeciwne. Mam lekko inną konfigurację sprzętu i przetestowałem inne modele, ale wyniki wcale nie są lepsze, a często gorsze. To echo posta o Pierwsze znaki Ollama Enshittification.
To zdjęcie pochodzi z wpisu na blogu Ollama.
TL;DR
Przetestowałem, jak nowa wersja Ollama planuje modele LLM, które nie mieszczą się w mojej 16 GB VRAM.
- mistral-small3.2:24b
- qwen3:30b-a3b
- gemma3:27b
- qwen3:32b
Uruchamiałem ollama run <modelname>
, a następnie prosty pytanie, takie jak who are you?
, a w osobnym terminalu sprawdzałem odpowiedź ollama ps
i nvidia-smi
. Wszystko dość proste.
Tylko qwen3:30b-a3b pokazał ten sam rozkład CPU/GPU, trzy inne modele były bardziej wykorzystywane przez CPU w nowej wersji. W moich testach, do mojego rozczarowania, nowa wersja Ollama jest gorsza, a te wyniki są sprzeczne z wpisem na blogu Ollama.
Szczegółowe dane porównania
Model | Stara wersja: przydzielona VRAM | Stara wersja: CPU/GPU | Nowa wersja: przydzielona VRAM | Nowa wersja: CPU/GPU |
---|---|---|---|---|
mistral-small3.2:24b | 14489MiB | 41%/59% | 14249MiB | 44%/56% |
qwen3:30b-a3b | 15065MiB | 21%/79% | 14867MiB | 21%/79% |
gemma3:27b | 13771MiB | 28%/72% | 14817MiB | 29%/71% |
qwen3:32b | 14676MiB | 30%/70% | 15139MiB | 32%/68% |
Zdenerwowany.