Modèle de planification de l'allocation de mémoire dans la nouvelle version d'Ollama - v0.12.1

Mon propre test de planification du modèle ollama ```

Sommaire

Ici, je compare combien de VRAM la nouvelle version d’Ollama alloue au modèle
par rapport à la version précédente d’Ollama. La nouvelle version est pire.

Comme cela est indiqué sur le site web officiel la nouvelle version d’Ollama inclut Nouvelle planification des modèles avec

Maximiser l'utilisation du GPU :
La nouvelle gestion de la mémoire d'Ollama alloue plus de mémoire au GPU,
augmentant ainsi la vitesse de génération et de traitement des tokens

et quelques exemples sont donnés, par exemple :

Contexte long

    GPU : 1x NVIDIA GeForce RTX 4090
    Modèle : gemma3:12b
    Longueur du contexte : 128k

Ancienne version                                   Nouvelle version
52,02 tokens/s vitesse de génération de tokens  85,54 tokens/s vitesse de génération de tokens
19,9 GiB de VRAM                               21,4 GiB de VRAM
48⁄49 couches chargées sur le GPU              49⁄49 couches chargées sur le GPU

Ici, je teste comment cela fonctionne sur mon PC. Mes résultats sont très différents de ceux des tests officiels, ils sont même complètement inversés. J’ai une configuration matérielle légèrement différente et j’ai testé des modèles différents, mais les résultats ne sont pas meilleurs du tout, et souvent pire. Cela correspond à un article sur Premiers signes de l’enshittification d’Ollama.

ollama llamas Cette image provient d’un article du blog sur le site web d’Ollama.

TL;DR

J’ai testé comment la nouvelle version de Ollama planifie les LLM qui ne tiennent pas dans mes 16 Go de VRAM.

  • mistral-small3.2:24b
  • qwen3:30b-a3b
  • gemma3:27b
  • qwen3:32b

J’ai exécuté ollama run <modelname>, puis posé une simple question comme qui êtes-vous ?, et dans un terminal séparé, j’ai vérifié la réponse de ollama ps et nvidia-smi. Tout est assez simple.

Seul qwen3:30b-a3b a montré la même répartition CPU/GPU, les trois autres modèles ont été poussés davantage vers le CPU dans la nouvelle version. Dans mes tests, à ma grande déception, la nouvelle version d’Ollama est pire, et ces résultats contredisent l’article sur le blog d’Ollama.

Données de comparaison détaillées

Modèle VRAM allouée (ancienne version) CPU/GPU (ancienne version) VRAM allouée (nouvelle version) CPU/GPU (nouvelle version)
mistral-small3.2:24b 14489 MiB 41 % / 59 % 14249 MiB 44 % / 56 %
qwen3:30b-a3b 15065 MiB 21 % / 79 % 14867 MiB 21 % / 79 %
gemma3:27b 13771 MiB 28 % / 72 % 14817 MiB 29 % / 71 %
qwen3:32b 14676 MiB 30 % / 70 % 15139 MiB 32 % / 68 %

Déçu.

Liens utiles