La nouvelle version d’Ollama est-elle meilleure que la précédente ?

La nouvelle version d’Ollama consomme plus de mémoire que la précédente.

Modèle de planification de l'allocation de mémoire dans la nouvelle version d'Ollama - v0.12.1

Mon propre test de planification du modèle ollama ```

Sommaire

Ici, je compare combien de VRAM la nouvelle version d’Ollama alloue au modèle
par rapport à la version précédente d’Ollama. La nouvelle version est pire.

Comme cela est indiqué sur le site web officiel la nouvelle version d’Ollama inclut Nouvelle planification des modèles avec

Maximiser l'utilisation du GPU :
La nouvelle gestion de la mémoire d'Ollama alloue plus de mémoire au GPU,
augmentant ainsi la vitesse de génération et de traitement des tokens

et quelques exemples sont donnés, par exemple :

Contexte long

    GPU : 1x NVIDIA GeForce RTX 4090
    Modèle : gemma3:12b
    Longueur du contexte : 128k

Ancienne version                                   Nouvelle version
52,02 tokens/s vitesse de génération de tokens  85,54 tokens/s vitesse de génération de tokens
19,9 GiB de VRAM                               21,4 GiB de VRAM
48⁄49 couches chargées sur le GPU              49⁄49 couches chargées sur le GPU

Ici, je teste comment cela fonctionne sur mon PC. Mes résultats sont très différents de ceux des tests officiels, ils sont même complètement inversés. J’ai une configuration matérielle légèrement différente et j’ai testé des modèles différents, mais les résultats ne sont pas meilleurs du tout, et souvent pire. Cela correspond à un article sur Premiers signes de l’enshittification d’Ollama.

ollama llamas Cette image provient d’un article du blog sur le site web d’Ollama.

TL;DR

J’ai testé comment la nouvelle version de Ollama planifie les LLM qui ne tiennent pas dans mes 16 Go de VRAM.

mistral-small3.2:24b
qwen3:30b-a3b
gemma3:27b
qwen3:32b

J’ai exécuté ollama run <modelname>, puis posé une simple question comme qui êtes-vous ?, et dans un terminal séparé, j’ai vérifié la réponse de ollama ps et nvidia-smi. Tout est assez simple.

Seul qwen3:30b-a3b a montré la même répartition CPU/GPU, les trois autres modèles ont été poussés davantage vers le CPU dans la nouvelle version. Dans mes tests, à ma grande déception, la nouvelle version d’Ollama est pire, et ces résultats contredisent l’article sur le blog d’Ollama.

Données de comparaison détaillées

Modèle	VRAM allouée (ancienne version)	CPU/GPU (ancienne version)	VRAM allouée (nouvelle version)	CPU/GPU (nouvelle version)
mistral-small3.2:24b	14489 MiB	41 % / 59 %	14249 MiB	44 % / 56 %
qwen3:30b-a3b	15065 MiB	21 % / 79 %	14867 MiB	21 % / 79 %
gemma3:27b	13771 MiB	28 % / 72 %	14817 MiB	29 % / 71 %
qwen3:32b	14676 MiB	30 % / 70 %	15139 MiB	32 % / 68 %

Déçu.

TL;DR

Données de comparaison détaillées

Liens utiles