Allocation de mémoire et planification du modèle dans la nouvelle version d'Ollama - v0.12.1
Mon propre test de planification du modèle ollama
Ici, je compare la quantité de VRAM allouée par la nouvelle version d’Ollama au modèle par rapport à la version précédente d’Ollama. La nouvelle version est pire.
Pour plus d’informations sur le débit, la latence, la VRAM et les benchmarks sur différents runtimes et matériels, consultez LLM Performance: Benchmarks, Bottlenecks & Optimization.
Comme le dit le site web officiel, la nouvelle version d’Ollama possède un Nouveau planification de modèles avec
Maximiser l'utilisation du GPU :
La nouvelle gestion de la mémoire d'Ollama alloue plus de mémoire au GPU,
augmentant ainsi la vitesse de génération et de traitement des tokens
et quelques exemples sont donnés, par exemple :
Contexte long
GPU : 1x NVIDIA GeForce RTX 4090
Modèle : gemma3:12b
Longueur du contexte : 128k
Ancien Nouveau
52,02 tokens/s vitesse de génération des tokens 85,54 tokens/s vitesse de génération des tokens
19,9GiB de VRAM 21,4GiB de VRAM
48⁄49 couches chargées sur le GPU 49⁄49 couches chargées sur le GPU
Ici, je teste comment cela fonctionne sur mon PC. Mes résultats sont très différents des tests officiels, ils sont complètement inversés. J’ai une configuration matérielle légèrement différente et j’ai testé différents modèles, mais les résultats ne sont pas meilleurs du tout, et souvent pire. Cela fait écho à l’article sur Premiers signes de l’enshittification d’Ollama.
Cette image provient d’un article du blog sur le site web d’Ollama.
TL;DR
J’ai testé comment la nouvelle version de Ollama planifie les LLM qui ne tiennent pas dans ma VRAM de 16 Go.
- mistral-small3.2:24b
- qwen3:30b-a3b
- gemma3:27b
- qwen3:32b
J’ai exécuté ollama run <modelname>, puis posé une question simple comme qui êtes-vous ?, et dans un terminal séparé, j’ai vérifié la réponse de ollama ps et nvidia-smi. Tout était assez simple.
Seul qwen3:30b-a3b a montré la même répartition CPU/GPU, les trois autres modèles ont été poussés davantage vers le CPU dans la nouvelle version. Dans mes tests, à ma grande déception, la nouvelle version d’Ollama est pire, et ces résultats contredisent l’article du blog d’Ollama.
Comparaison détaillée des données
| Modèle | VRAM allouée (ancienne version) | CPU/GPU (ancienne version) | VRAM allouée (nouvelle version) | CPU/GPU (nouvelle version) |
|---|---|---|---|---|
| mistral-small3.2:24b | 14 489 MiB | 41 % / 59 % | 14 249 MiB | 44 % / 56 % |
| qwen3:30b-a3b | 15 065 MiB | 21 % / 79 % | 14 867 MiB | 21 % / 79 % |
| gemma3:27b | 13 771 MiB | 28 % / 72 % | 14 817 MiB | 29 % / 71 % |
| qwen3:32b | 14 676 MiB | 30 % / 70 % | 15 139 MiB | 32 % / 68 % |
Déçu.
Pour plus de benchmarks, de réglage de mémoire et de conseils de performance, consultez notre LLM Performance: Benchmarks, Bottlenecks & Optimization hub.