Speicherzuweisungsmodellplanung in der neuen Version von Ollama - v0.12.1

Mein eigener Test der Ollama-Modellplanung

Inhaltsverzeichnis

Hier vergleiche ich, wie viel VRAM die neue Version von Ollama für das Modell zuweist (https://www.glukhov.org/de/post/2025/09/memory-allocation-in-ollama-new-version/ “Ollama VRAM-Zuweisung”) im Vergleich zur vorherigen Version. Die neue Version ist schlechter.

Wie auf der offiziellen Website erwähnt, hat die neue Ollama-Version Neue Modellplanung mit

Maximierung der GPU-Auslastung:
Ollamas neues Speichermanagement weist der GPU mehr Speicher zu,
was die Token-Generierungs- und Verarbeitungsgeschwindigkeiten erhöht

und einige Beispiele werden gegeben, zum Beispiel:

Langer Kontext

    GPU: 1x NVIDIA GeForce RTX 4090
    Modell: gemma3:12b
    Kontextlänge: 128k

Alt                                   Neu
52,02 Tokens/s Token-Generierungsgeschwindigkeit 85,54 Tokens/s Token-Generierungsgeschwindigkeit
19,9GiB VRAM                       21,4GiB VRAM
48⁄49 Schichten auf GPU geladen            49⁄49 Schichten auf GPU geladen

Hier teste ich, wie es auf meinem PC funktioniert. Meine Ergebnisse sind sehr unterschiedlich zu den offiziellen Tests, sie sind völlig entgegengesetzt. Ich habe eine leicht unterschiedliche Hardware-Konfiguration und getestete verschiedene Modelle, aber die Ergebnisse sind überhaupt nicht besser und oft schlechter. Dies spiegelt den Beitrag über Erste Anzeichen der Ollama-Verschlechterung wider.

ollama llamas Dieses Bild stammt aus dem Blogbeitrag auf der Ollama-Website.

TL;DR

Ich habe getestet, wie die neue Version von Ollama LLMs plant, die nicht in meine 16GB VRAM passen.

  • mistral-small3.2:24b
  • qwen3:30b-a3b
  • gemma3:27b
  • qwen3:32b

Ich führte ollama run <Modellname> aus, dann eine einfache Frage wie Wer bist du?, und in einem separaten Terminal überprüfte ich die Antwort von ollama ps und nvidia-smi. Alles ziemlich einfach.

Nur qwen3:30b-a3b zeigte dieselbe CPU/GPU-Verteilung, die drei anderen Modelle wurden in der neuen Version mehr auf die CPU verschoben. In meinen Tests, zu meiner Enttäuschung, ist die neue Version von Ollama schlechter, und diese Ergebnisse widersprechen dem Beitrag im Ollama-Blog.

Detaillierte Vergleichsdaten

Modell Alte Version: Zugewiesener VRAM Alte Version: CPU/GPU Neue Version: Zugewiesener VRAM Neue Version: CPU/GPU
mistral-small3.2:24b 14489MiB 41%/59% 14249MiB 44%/56%
qwen3:30b-a3b 15065MiB 21%/79% 14867MiB 21%/79%
gemma3:27b 13771MiB 28%/72% 14817MiB 29%/71%
qwen3:32b 14676MiB 30%/70% 15139MiB 32%/68%

Enttäuscht.