Modèle de planification de l'allocation de mémoire dans la nouvelle version d'Ollama - v0.12.1
Mon propre test de planification du modèle ollama ```
Ici, je compare combien de VRAM la nouvelle version d’Ollama alloue au modèle
par rapport à la version précédente d’Ollama. La nouvelle version est pire.
Comme cela est indiqué sur le site web officiel la nouvelle version d’Ollama inclut Nouvelle planification des modèles
avec
Maximiser l'utilisation du GPU :
La nouvelle gestion de la mémoire d'Ollama alloue plus de mémoire au GPU,
augmentant ainsi la vitesse de génération et de traitement des tokens
et quelques exemples sont donnés, par exemple :
Contexte long
GPU : 1x NVIDIA GeForce RTX 4090
Modèle : gemma3:12b
Longueur du contexte : 128k
Ancienne version Nouvelle version
52,02 tokens/s vitesse de génération de tokens 85,54 tokens/s vitesse de génération de tokens
19,9 GiB de VRAM 21,4 GiB de VRAM
48⁄49 couches chargées sur le GPU 49⁄49 couches chargées sur le GPU
Ici, je teste comment cela fonctionne sur mon PC. Mes résultats sont très différents de ceux des tests officiels, ils sont même complètement inversés. J’ai une configuration matérielle légèrement différente et j’ai testé des modèles différents, mais les résultats ne sont pas meilleurs du tout, et souvent pire. Cela correspond à un article sur Premiers signes de l’enshittification d’Ollama.
Cette image provient d’un article du blog sur le site web d’Ollama.
TL;DR
J’ai testé comment la nouvelle version de Ollama planifie les LLM qui ne tiennent pas dans mes 16 Go de VRAM.
- mistral-small3.2:24b
- qwen3:30b-a3b
- gemma3:27b
- qwen3:32b
J’ai exécuté ollama run <modelname>
, puis posé une simple question comme qui êtes-vous ?
, et dans un terminal séparé, j’ai vérifié la réponse de ollama ps
et nvidia-smi
. Tout est assez simple.
Seul qwen3:30b-a3b a montré la même répartition CPU/GPU, les trois autres modèles ont été poussés davantage vers le CPU dans la nouvelle version. Dans mes tests, à ma grande déception, la nouvelle version d’Ollama est pire, et ces résultats contredisent l’article sur le blog d’Ollama.
Données de comparaison détaillées
Modèle | VRAM allouée (ancienne version) | CPU/GPU (ancienne version) | VRAM allouée (nouvelle version) | CPU/GPU (nouvelle version) |
---|---|---|---|---|
mistral-small3.2:24b | 14489 MiB | 41 % / 59 % | 14249 MiB | 44 % / 56 % |
qwen3:30b-a3b | 15065 MiB | 21 % / 79 % | 14867 MiB | 21 % / 79 % |
gemma3:27b | 13771 MiB | 28 % / 72 % | 14817 MiB | 29 % / 71 % |
qwen3:32b | 14676 MiB | 30 % / 70 % | 15139 MiB | 32 % / 68 % |
Déçu.