Ollamaの新しいバージョンは前のバージョンより優れていますか？

Ollamaの新しいバージョンは、前のバージョンよりも多くのメモリを消費します。

Ollamaの新バージョンv0.12.1におけるメモリ確保モデルのスケジューリング

オラマモデルのスケジューリングに関する自分のテスト ````

ここでは、新しいバージョンのOllamaがモデルに対してどのくらいのVRAMを割り当てているかについて、Ollama VRAM割り当てと以前のOllamaバージョンを比較しています。新しいバージョンは、実際には以前のバージョンよりも劣っています。

公式ウェブサイトに記載されているように、公式ウェブサイトに新しいOllamaリリースにはNew model schedulingが導入されており、以下のように記述されています。

GPU利用率の最大化:
Ollamaの新しいメモリ管理は、GPUにより多くのメモリを割り当て、トークン生成および処理速度を向上させます。

また、いくつかの例が示されています。例えば：

長文のコンテキスト

    GPU: 1x NVIDIA GeForce RTX 4090
    モデル: gemma3:12b
    コンテキスト長: 128k

旧バージョン                                 新バージョン
52.02トークン/秒のトークン生成速度 85.54トークン/秒のトークン生成速度
19.9GiBのVRAM                       21.4GiBのVRAM
48⁄49レイヤーがGPUにロードされている 49⁄49レイヤーがGPUにロードされている

私はここでは、自分のPCでどのように動作するかをテストしています。私の結果は公式のテストと大きく異なり、完全に逆の結果となっています。ハードウェア構成がわずかに異なり、テストしたモデルも異なるため、結果が全く改善されていないどころか、むしろ悪化している場合があります。これは、Ollama Enshittificationの最初の兆候という投稿と一致しています。

ollama llamas この画像は、Ollamaのウェブサイトにあるブログ投稿からのものです。

TL;DR

私は、16GB VRAMに収まらないLLMをスケジューリングする新しいバージョンの Ollama についてテストしました。

mistral-small3.2:24b
qwen3:30b-a3b
gemma3:27b
qwen3:32b

ollama run <modelname>を実行し、その後「who are you?」などの単純な質問を行い、別のターミナルでollama psとnvidia-smiの応答を確認しました。すべて非常にシンプルです。

qwen3:30b-a3bのみがCPU/GPUの分散が同じでしたが、他の3つのモデルは新しいバージョンではCPUに多く依存するようになりました。 私のテストでは、残念ながら新しいバージョンのOllamaは以前のバージョンよりも劣っており、これらの結果はOllamaブログの投稿と矛盾しています。

詳細な比較データ

モデル	旧バージョン: VRAM割り当て	旧バージョン: CPU/GPU	新バージョン: VRAM割り当て	新バージョン: CPU/GPU
mistral-small3.2:24b	14489MiB	41%/59%	14249MiB	44%/56%
qwen3:30b-a3b	15065MiB	21%/79%	14867MiB	21%/79%
gemma3:27b	13771MiB	28%/72%	14817MiB	29%/71%
qwen3:32b	14676MiB	30%/70%	15139MiB	32%/68%

失望しました。

TL;DR

詳細な比較データ

有用なリンク