Apakah versi baru Ollama lebih baik daripada versi sebelumnya?

Versi baru Ollama mengonsumsi lebih banyak memori dibandingkan versi sebelumnya.

Penjadwalan model alokasi memori dalam versi baru Ollama - v0.12.1

Uji coba saya sendiri tentang jadwal model ollama ```

Konten Halaman

Di sini saya membandingkan berapa banyak VRAM versi baru Ollama yang dialokasikan untuk model dengan versi sebelumnya Ollama. Versi baru justru lebih buruk.

Seperti yang disebutkan di situs web resmi rilis baru Ollama memiliki Pengaturan Model Baru dengan

Memaksimalkan penggunaan GPU:
Manajemen memori baru Ollama mengalokasikan lebih banyak memori ke GPU,
meningkatkan kecepatan pembuatan dan pemrosesan token

dan beberapa contoh diberikan, misalnya:

Konteks panjang

    GPU: 1x NVIDIA GeForce RTX 4090
    Model: gemma3:12b
    Panjang konteks: 128k

Lama                                   Baru
52.02 token/s kecepatan pembuatan token 85.54 token/s kecepatan pembuatan token
19.9GiB VRAM                          21.4GiB VRAM
48⁄49 lapisan dimuat ke GPU           49⁄49 lapisan dimuat ke GPU

Di sini saya menguji bagaimana cara kerjanya di PC saya. Hasil saya sangat berbeda dengan uji coba resmi, bahkan justru kebalikannya. Saya memiliki konfigurasi perangkat keras yang sedikit berbeda dan menguji model yang berbeda, tetapi hasilnya tidak lebih baik sama sekali, dan seringkali lebih buruk. Ini mengingatkan postingan tentang Tanda-Tanda Awal Ollama Enshittification.

ollama llamas Gambar ini berasal dari posting blog di situs web Ollama.

TL;DR

Saya telah menguji bagaimana versi baru Ollama mengatur LLM yang tidak masuk ke dalam VRAM 16GB saya.

mistral-small3.2:24b
qwen3:30b-a3b
gemma3:27b
qwen3:32b

Saya menjalankan ollama run <modelname>, lalu beberapa pertanyaan sederhana seperti siapa kamu?, dan di terminal terpisah memeriksa respons dari ollama ps dan nvidia-smi. Semuanya cukup sederhana.

Hanya qwen3:30b-a3b yang menunjukkan penyebaran CPU/GPU yang sama, tiga model lain lebih banyak dipindahkan ke CPU di versi baru. Dalam uji saya, dengan kekecewaan saya, versi baru Ollama justru lebih buruk, dan hasil ini bertentangan dengan posting di blog Ollama.

Data perbandingan detail

Model	VRAM dialokasikan versi lama	CPU/GPU versi lama	VRAM dialokasikan versi baru	CPU/GPU versi baru
mistral-small3.2:24b	14489MiB	41%/59%	14249MiB	44%/56%
qwen3:30b-a3b	15065MiB	21%/79%	14867MiB	21%/79%
gemma3:27b	13771MiB	28%/72%	14817MiB	29%/71%
qwen3:32b	14676MiB	30%/70%	15139MiB	32%/68%

Kecewa.

TL;DR

Data perbandingan detail

Tautan yang berguna