Allocation de mémoire et planification du modèle dans la nouvelle version d'Ollama - v0.12.1

Mon propre test de planification du modèle ollama

Sommaire

Ici, je compare la quantité de VRAM allouée par la nouvelle version d’Ollama au modèle par rapport à la version précédente d’Ollama. La nouvelle version est pire.

Pour plus d’informations sur le débit, la latence, la VRAM et les benchmarks sur différents runtimes et matériels, consultez LLM Performance: Benchmarks, Bottlenecks & Optimization.

Comme le dit le site web officiel, la nouvelle version d’Ollama possède un Nouveau planification de modèles avec

Maximiser l'utilisation du GPU :
La nouvelle gestion de la mémoire d'Ollama alloue plus de mémoire au GPU,
augmentant ainsi la vitesse de génération et de traitement des tokens

et quelques exemples sont donnés, par exemple :

Contexte long

    GPU : 1x NVIDIA GeForce RTX 4090
    Modèle : gemma3:12b
    Longueur du contexte : 128k

Ancien                                  Nouveau
52,02 tokens/s vitesse de génération des tokens 85,54 tokens/s vitesse de génération des tokens
19,9GiB de VRAM                         21,4GiB de VRAM
48⁄49 couches chargées sur le GPU       49⁄49 couches chargées sur le GPU

Ici, je teste comment cela fonctionne sur mon PC. Mes résultats sont très différents des tests officiels, ils sont complètement inversés. J’ai une configuration matérielle légèrement différente et j’ai testé différents modèles, mais les résultats ne sont pas meilleurs du tout, et souvent pire. Cela fait écho à l’article sur Premiers signes de l’enshittification d’Ollama.

ollama llamas Cette image provient d’un article du blog sur le site web d’Ollama.

TL;DR

J’ai testé comment la nouvelle version de Ollama planifie les LLM qui ne tiennent pas dans ma VRAM de 16 Go.

  • mistral-small3.2:24b
  • qwen3:30b-a3b
  • gemma3:27b
  • qwen3:32b

J’ai exécuté ollama run <modelname>, puis posé une question simple comme qui êtes-vous ?, et dans un terminal séparé, j’ai vérifié la réponse de ollama ps et nvidia-smi. Tout était assez simple.

Seul qwen3:30b-a3b a montré la même répartition CPU/GPU, les trois autres modèles ont été poussés davantage vers le CPU dans la nouvelle version. Dans mes tests, à ma grande déception, la nouvelle version d’Ollama est pire, et ces résultats contredisent l’article du blog d’Ollama.

Comparaison détaillée des données

Modèle VRAM allouée (ancienne version) CPU/GPU (ancienne version) VRAM allouée (nouvelle version) CPU/GPU (nouvelle version)
mistral-small3.2:24b 14 489 MiB 41 % / 59 % 14 249 MiB 44 % / 56 %
qwen3:30b-a3b 15 065 MiB 21 % / 79 % 14 867 MiB 21 % / 79 %
gemma3:27b 13 771 MiB 28 % / 72 % 14 817 MiB 29 % / 71 %
qwen3:32b 14 676 MiB 30 % / 70 % 15 139 MiB 32 % / 68 %

Déçu.

Pour plus de benchmarks, de réglage de mémoire et de conseils de performance, consultez notre LLM Performance: Benchmarks, Bottlenecks & Optimization hub.

Liens utiles