Speicherzuweisungsmodellplanung in der neuen Version von Ollama - v0.12.1
Mein eigener Test der Ollama-Modellplanung
Hier vergleiche ich, wie viel VRAM die neue Version von Ollama für das Modell zuweist (https://www.glukhov.org/de/post/2025/09/memory-allocation-in-ollama-new-version/ “Ollama VRAM-Zuweisung”) im Vergleich zur vorherigen Version. Die neue Version ist schlechter.
Wie auf der offiziellen Website erwähnt, hat die neue Ollama-Version Neue Modellplanung
mit
Maximierung der GPU-Auslastung:
Ollamas neues Speichermanagement weist der GPU mehr Speicher zu,
was die Token-Generierungs- und Verarbeitungsgeschwindigkeiten erhöht
und einige Beispiele werden gegeben, zum Beispiel:
Langer Kontext
GPU: 1x NVIDIA GeForce RTX 4090
Modell: gemma3:12b
Kontextlänge: 128k
Alt Neu
52,02 Tokens/s Token-Generierungsgeschwindigkeit 85,54 Tokens/s Token-Generierungsgeschwindigkeit
19,9GiB VRAM 21,4GiB VRAM
48⁄49 Schichten auf GPU geladen 49⁄49 Schichten auf GPU geladen
Hier teste ich, wie es auf meinem PC funktioniert. Meine Ergebnisse sind sehr unterschiedlich zu den offiziellen Tests, sie sind völlig entgegengesetzt. Ich habe eine leicht unterschiedliche Hardware-Konfiguration und getestete verschiedene Modelle, aber die Ergebnisse sind überhaupt nicht besser und oft schlechter. Dies spiegelt den Beitrag über Erste Anzeichen der Ollama-Verschlechterung wider.
Dieses Bild stammt aus dem Blogbeitrag auf der Ollama-Website.
TL;DR
Ich habe getestet, wie die neue Version von Ollama LLMs plant, die nicht in meine 16GB VRAM passen.
- mistral-small3.2:24b
- qwen3:30b-a3b
- gemma3:27b
- qwen3:32b
Ich führte ollama run <Modellname>
aus, dann eine einfache Frage wie Wer bist du?
, und in einem separaten Terminal überprüfte ich die Antwort von ollama ps
und nvidia-smi
. Alles ziemlich einfach.
Nur qwen3:30b-a3b zeigte dieselbe CPU/GPU-Verteilung, die drei anderen Modelle wurden in der neuen Version mehr auf die CPU verschoben. In meinen Tests, zu meiner Enttäuschung, ist die neue Version von Ollama schlechter, und diese Ergebnisse widersprechen dem Beitrag im Ollama-Blog.
Detaillierte Vergleichsdaten
Modell | Alte Version: Zugewiesener VRAM | Alte Version: CPU/GPU | Neue Version: Zugewiesener VRAM | Neue Version: CPU/GPU |
---|---|---|---|---|
mistral-small3.2:24b | 14489MiB | 41%/59% | 14249MiB | 44%/56% |
qwen3:30b-a3b | 15065MiB | 21%/79% | 14867MiB | 21%/79% |
gemma3:27b | 13771MiB | 28%/72% | 14817MiB | 29%/71% |
qwen3:32b | 14676MiB | 30%/70% | 15139MiB | 32%/68% |
Enttäuscht.