Ollamaの新バージョンv0.12.1におけるメモリ確保モデルのスケジューリング
オラマモデルのスケジューリングに関する自分のテスト ````
ここでは、新しいバージョンのOllamaがモデルに対してどのくらいのVRAMを割り当てているかについて、Ollama VRAM割り当てと以前のOllamaバージョンを比較しています。新しいバージョンは、実際には以前のバージョンよりも劣っています。
公式ウェブサイトに記載されているように、公式ウェブサイトに新しいOllamaリリースにはNew model scheduling
が導入されており、以下のように記述されています。
GPU利用率の最大化:
Ollamaの新しいメモリ管理は、GPUにより多くのメモリを割り当て、トークン生成および処理速度を向上させます。
また、いくつかの例が示されています。例えば:
長文のコンテキスト
GPU: 1x NVIDIA GeForce RTX 4090
モデル: gemma3:12b
コンテキスト長: 128k
旧バージョン 新バージョン
52.02トークン/秒のトークン生成速度 85.54トークン/秒のトークン生成速度
19.9GiBのVRAM 21.4GiBのVRAM
48⁄49レイヤーがGPUにロードされている 49⁄49レイヤーがGPUにロードされている
私はここでは、自分のPCでどのように動作するかをテストしています。 私の結果は公式のテストと大きく異なり、完全に逆の結果となっています。 ハードウェア構成がわずかに異なり、テストしたモデルも異なるため、結果が全く改善されていないどころか、むしろ悪化している場合があります。 これは、Ollama Enshittificationの最初の兆候という投稿と一致しています。
この画像は、Ollamaのウェブサイトにあるブログ投稿からのものです。
TL;DR
私は、16GB VRAMに収まらないLLMをスケジューリングする新しいバージョンの Ollama についてテストしました。
- mistral-small3.2:24b
- qwen3:30b-a3b
- gemma3:27b
- qwen3:32b
ollama run <modelname>
を実行し、その後「who are you?」などの単純な質問を行い、別のターミナルでollama ps
とnvidia-smi
の応答を確認しました。すべて非常にシンプルです。
qwen3:30b-a3bのみがCPU/GPUの分散が同じでしたが、他の3つのモデルは新しいバージョンではCPUに多く依存するようになりました。 私のテストでは、残念ながら新しいバージョンのOllamaは以前のバージョンよりも劣っており、これらの結果はOllamaブログの投稿と矛盾しています。
詳細な比較データ
モデル | 旧バージョン: VRAM割り当て | 旧バージョン: CPU/GPU | 新バージョン: VRAM割り当て | 新バージョン: CPU/GPU |
---|---|---|---|---|
mistral-small3.2:24b | 14489MiB | 41%/59% | 14249MiB | 44%/56% |
qwen3:30b-a3b | 15065MiB | 21%/79% | 14867MiB | 21%/79% |
gemma3:27b | 13771MiB | 28%/72% | 14817MiB | 29%/71% |
qwen3:32b | 14676MiB | 30%/70% | 15139MiB | 32%/68% |
失望しました。