Penjadwalan model alokasi memori dalam versi baru Ollama - v0.12.1

Uji coba saya sendiri tentang jadwal model ollama ```

Konten Halaman

Di sini saya membandingkan berapa banyak VRAM versi baru Ollama yang dialokasikan untuk model dengan versi sebelumnya Ollama. Versi baru justru lebih buruk.

Seperti yang disebutkan di situs web resmi rilis baru Ollama memiliki Pengaturan Model Baru dengan

Memaksimalkan penggunaan GPU:
Manajemen memori baru Ollama mengalokasikan lebih banyak memori ke GPU,
meningkatkan kecepatan pembuatan dan pemrosesan token

dan beberapa contoh diberikan, misalnya:

Konteks panjang

    GPU: 1x NVIDIA GeForce RTX 4090
    Model: gemma3:12b
    Panjang konteks: 128k

Lama                                   Baru
52.02 token/s kecepatan pembuatan token 85.54 token/s kecepatan pembuatan token
19.9GiB VRAM                          21.4GiB VRAM
48⁄49 lapisan dimuat ke GPU           49⁄49 lapisan dimuat ke GPU

Di sini saya menguji bagaimana cara kerjanya di PC saya. Hasil saya sangat berbeda dengan uji coba resmi, bahkan justru kebalikannya. Saya memiliki konfigurasi perangkat keras yang sedikit berbeda dan menguji model yang berbeda, tetapi hasilnya tidak lebih baik sama sekali, dan seringkali lebih buruk. Ini mengingatkan postingan tentang Tanda-Tanda Awal Ollama Enshittification.

ollama llamas Gambar ini berasal dari posting blog di situs web Ollama.

TL;DR

Saya telah menguji bagaimana versi baru Ollama mengatur LLM yang tidak masuk ke dalam VRAM 16GB saya.

  • mistral-small3.2:24b
  • qwen3:30b-a3b
  • gemma3:27b
  • qwen3:32b

Saya menjalankan ollama run <modelname>, lalu beberapa pertanyaan sederhana seperti siapa kamu?, dan di terminal terpisah memeriksa respons dari ollama ps dan nvidia-smi. Semuanya cukup sederhana.

Hanya qwen3:30b-a3b yang menunjukkan penyebaran CPU/GPU yang sama, tiga model lain lebih banyak dipindahkan ke CPU di versi baru. Dalam uji saya, dengan kekecewaan saya, versi baru Ollama justru lebih buruk, dan hasil ini bertentangan dengan posting di blog Ollama.

Data perbandingan detail

Model VRAM dialokasikan versi lama CPU/GPU versi lama VRAM dialokasikan versi baru CPU/GPU versi baru
mistral-small3.2:24b 14489MiB 41%/59% 14249MiB 44%/56%
qwen3:30b-a3b 15065MiB 21%/79% 14867MiB 21%/79%
gemma3:27b 13771MiB 28%/72% 14817MiB 29%/71%
qwen3:32b 14676MiB 30%/70% 15139MiB 32%/68%

Kecewa.

Tautan yang berguna