Penjadwalan model alokasi memori dalam versi baru Ollama - v0.12.1
Uji coba saya sendiri tentang jadwal model ollama ```
Di sini saya membandingkan berapa banyak VRAM versi baru Ollama yang dialokasikan untuk model dengan versi sebelumnya Ollama. Versi baru justru lebih buruk.
Seperti yang disebutkan di situs web resmi rilis baru Ollama memiliki Pengaturan Model Baru
dengan
Memaksimalkan penggunaan GPU:
Manajemen memori baru Ollama mengalokasikan lebih banyak memori ke GPU,
meningkatkan kecepatan pembuatan dan pemrosesan token
dan beberapa contoh diberikan, misalnya:
Konteks panjang
GPU: 1x NVIDIA GeForce RTX 4090
Model: gemma3:12b
Panjang konteks: 128k
Lama Baru
52.02 token/s kecepatan pembuatan token 85.54 token/s kecepatan pembuatan token
19.9GiB VRAM 21.4GiB VRAM
48⁄49 lapisan dimuat ke GPU 49⁄49 lapisan dimuat ke GPU
Di sini saya menguji bagaimana cara kerjanya di PC saya. Hasil saya sangat berbeda dengan uji coba resmi, bahkan justru kebalikannya. Saya memiliki konfigurasi perangkat keras yang sedikit berbeda dan menguji model yang berbeda, tetapi hasilnya tidak lebih baik sama sekali, dan seringkali lebih buruk. Ini mengingatkan postingan tentang Tanda-Tanda Awal Ollama Enshittification.
Gambar ini berasal dari posting blog di situs web Ollama.
TL;DR
Saya telah menguji bagaimana versi baru Ollama mengatur LLM yang tidak masuk ke dalam VRAM 16GB saya.
- mistral-small3.2:24b
- qwen3:30b-a3b
- gemma3:27b
- qwen3:32b
Saya menjalankan ollama run <modelname>
, lalu beberapa pertanyaan sederhana seperti siapa kamu?
, dan di terminal terpisah memeriksa respons dari ollama ps
dan nvidia-smi
. Semuanya cukup sederhana.
Hanya qwen3:30b-a3b yang menunjukkan penyebaran CPU/GPU yang sama, tiga model lain lebih banyak dipindahkan ke CPU di versi baru. Dalam uji saya, dengan kekecewaan saya, versi baru Ollama justru lebih buruk, dan hasil ini bertentangan dengan posting di blog Ollama.
Data perbandingan detail
Model | VRAM dialokasikan versi lama | CPU/GPU versi lama | VRAM dialokasikan versi baru | CPU/GPU versi baru |
---|---|---|---|---|
mistral-small3.2:24b | 14489MiB | 41%/59% | 14249MiB | 44%/56% |
qwen3:30b-a3b | 15065MiB | 21%/79% | 14867MiB | 21%/79% |
gemma3:27b | 13771MiB | 28%/72% | 14817MiB | 29%/71% |
qwen3:32b | 14676MiB | 30%/70% | 15139MiB | 32%/68% |
Kecewa.