Ollamaの新バージョンv0.12.1におけるメモリ確保モデルのスケジューリング

オラマモデルのスケジューリングに関する自分のテスト ````

目次

ここでは、新しいバージョンのOllamaがモデルに対してどのくらいのVRAMを割り当てているかについて、Ollama VRAM割り当てと以前のOllamaバージョンを比較しています。新しいバージョンは、実際には以前のバージョンよりも劣っています。

公式ウェブサイトに記載されているように、公式ウェブサイトに新しいOllamaリリースにはNew model schedulingが導入されており、以下のように記述されています。

GPU利用率の最大化:
Ollamaの新しいメモリ管理は、GPUにより多くのメモリを割り当て、トークン生成および処理速度を向上させます。

また、いくつかの例が示されています。例えば:

長文のコンテキスト

    GPU: 1x NVIDIA GeForce RTX 4090
    モデル: gemma3:12b
    コンテキスト長: 128k

旧バージョン                                 新バージョン
52.02トークン/秒のトークン生成速度 85.54トークン/秒のトークン生成速度
19.9GiBのVRAM                       21.4GiBのVRAM
48⁄49レイヤーがGPUにロードされている 49⁄49レイヤーがGPUにロードされている

私はここでは、自分のPCでどのように動作するかをテストしています。 私の結果は公式のテストと大きく異なり、完全に逆の結果となっています。 ハードウェア構成がわずかに異なり、テストしたモデルも異なるため、結果が全く改善されていないどころか、むしろ悪化している場合があります。 これは、Ollama Enshittificationの最初の兆候という投稿と一致しています。

ollama llamas この画像は、Ollamaのウェブサイトにあるブログ投稿からのものです。

TL;DR

私は、16GB VRAMに収まらないLLMをスケジューリングする新しいバージョンの Ollama についてテストしました。

  • mistral-small3.2:24b
  • qwen3:30b-a3b
  • gemma3:27b
  • qwen3:32b

ollama run <modelname>を実行し、その後「who are you?」などの単純な質問を行い、別のターミナルでollama psnvidia-smiの応答を確認しました。すべて非常にシンプルです。

qwen3:30b-a3bのみがCPU/GPUの分散が同じでしたが、他の3つのモデルは新しいバージョンではCPUに多く依存するようになりました私のテストでは、残念ながら新しいバージョンのOllamaは以前のバージョンよりも劣っており、これらの結果はOllamaブログの投稿と矛盾しています。

詳細な比較データ

モデル 旧バージョン: VRAM割り当て 旧バージョン: CPU/GPU 新バージョン: VRAM割り当て 新バージョン: CPU/GPU
mistral-small3.2:24b 14489MiB 41%/59% 14249MiB 44%/56%
qwen3:30b-a3b 15065MiB 21%/79% 14867MiB 21%/79%
gemma3:27b 13771MiB 28%/72% 14817MiB 29%/71%
qwen3:32b 14676MiB 30%/70% 15139MiB 32%/68%

失望しました。

有用なリンク