Ist die neue Version von Ollama besser als die vorherige?

Die neue Version von Ollama verbraucht mehr Speicher als die vorherige.

Speicherzuweisungsmodellplanung in der neuen Version von Ollama - v0.12.1

Mein eigener Test der Ollama-Modellplanung

Inhaltsverzeichnis

Hier vergleiche ich, wie viel VRAM die neue Version von Ollama für das Modell zuweist (https://www.glukhov.org/de/post/2025/09/memory-allocation-in-ollama-new-version/ “Ollama VRAM-Zuweisung”) im Vergleich zur vorherigen Version. Die neue Version ist schlechter.

Wie auf der offiziellen Website erwähnt, hat die neue Ollama-Version Neue Modellplanung mit

Maximierung der GPU-Auslastung:
Ollamas neues Speichermanagement weist der GPU mehr Speicher zu,
was die Token-Generierungs- und Verarbeitungsgeschwindigkeiten erhöht

und einige Beispiele werden gegeben, zum Beispiel:

Langer Kontext

    GPU: 1x NVIDIA GeForce RTX 4090
    Modell: gemma3:12b
    Kontextlänge: 128k

Alt                                   Neu
52,02 Tokens/s Token-Generierungsgeschwindigkeit 85,54 Tokens/s Token-Generierungsgeschwindigkeit
19,9GiB VRAM                       21,4GiB VRAM
48⁄49 Schichten auf GPU geladen            49⁄49 Schichten auf GPU geladen

Hier teste ich, wie es auf meinem PC funktioniert. Meine Ergebnisse sind sehr unterschiedlich zu den offiziellen Tests, sie sind völlig entgegengesetzt. Ich habe eine leicht unterschiedliche Hardware-Konfiguration und getestete verschiedene Modelle, aber die Ergebnisse sind überhaupt nicht besser und oft schlechter. Dies spiegelt den Beitrag über Erste Anzeichen der Ollama-Verschlechterung wider.

ollama llamas Dieses Bild stammt aus dem Blogbeitrag auf der Ollama-Website.

TL;DR

Ich habe getestet, wie die neue Version von Ollama LLMs plant, die nicht in meine 16GB VRAM passen.

mistral-small3.2:24b
qwen3:30b-a3b
gemma3:27b
qwen3:32b

Ich führte ollama run <Modellname> aus, dann eine einfache Frage wie Wer bist du?, und in einem separaten Terminal überprüfte ich die Antwort von ollama ps und nvidia-smi. Alles ziemlich einfach.

Nur qwen3:30b-a3b zeigte dieselbe CPU/GPU-Verteilung, die drei anderen Modelle wurden in der neuen Version mehr auf die CPU verschoben. In meinen Tests, zu meiner Enttäuschung, ist die neue Version von Ollama schlechter, und diese Ergebnisse widersprechen dem Beitrag im Ollama-Blog.

Detaillierte Vergleichsdaten

Modell	Alte Version: Zugewiesener VRAM	Alte Version: CPU/GPU	Neue Version: Zugewiesener VRAM	Neue Version: CPU/GPU
mistral-small3.2:24b	14489MiB	41%/59%	14249MiB	44%/56%
qwen3:30b-a3b	15065MiB	21%/79%	14867MiB	21%/79%
gemma3:27b	13771MiB	28%/72%	14817MiB	29%/71%
qwen3:32b	14676MiB	30%/70%	15139MiB	32%/68%

Enttäuscht.

TL;DR

Detaillierte Vergleichsdaten

Nützliche Links