Quel LLM est le plus rapide sur un GPU avec 16 Go de VRAM avec Ollama ?

GPT-OSS 20B a atteint la vitesse la plus élevée, soit 139,93 tokens/sec, tout en s’adaptant entièrement à 16 Go de VRAM. Il fonctionne à 100 % sur le GPU sans déchargement vers le CPU, ce qui le rend idéal pour les applications exigeant une vitesse élevée.

Qu’est-ce qui se passe lorsque un LLM dépasse 16 Go de VRAM ?

Ollama transfère automatiquement les couches du modèle vers la mémoire système (RAM) et le processeur (CPU). Cela réduit significativement les performances — par exemple, Mistral Small 3.2 24B passe à 18,51 tokens/sec lorsque 18 % des couches s’exécutent sur le CPU.

Comment la taille du contexte affecte-t-elle l’utilisation de la VRAM dans Ollama ?

Des fenêtres de contexte plus grandes nécessitent plus de VRAM pour le cache KV. En utilisant un contexte de 19K, un modèle qui tient dans la VRAM avec un contexte de 4K pourrait nécessiter un déchargement sur le CPU. Réduisez la taille du contexte si vous souhaitez maximiser l’utilisation du GPU.

Qwen3 14B est-il adapté à un GPU de 16 Go ?

Oui. Qwen3 14B utilise uniquement 12 Go de VRAM et s’exécute entièrement sur le GPU à un taux de 61,85 tokens/sec. Il offre un suivi des instructions excellent et s’installe confortablement dans 16 Go, laissant de la place pour des tailles de contexte plus importantes.

Dois-je utiliser des modèles plus grands avec le déchargement sur le CPU ou des modèles plus petits entièrement sur le GPU ?

Pour les cas d’utilisation interactifs, les modèles plus petits fonctionnant entièrement sur le GPU sont généralement préférables. L’amortissement de vitesse dû au déchargement sur le CPU est significatif — le GPT-OSS 120B à 12,64 tokens/sec semble lent par rapport au GPT-OSS 20B à 139,93 tokens/sec.

Où puis-je trouver davantage de benchmarks de performance des LLM et des guides d’optimisation ?

Notre centre de performance des LLM aborde le débit par rapport à la latence, les limites de VRAM, les requêtes parallèles, l’allocation mémoire et les benchmarks sur différents runtimes et matériels.

Comment l’utilisation de la VRAM se rapporte-t-elle à la vitesse des tokens dans Ollama ?

Les modèles qui tiennent entièrement dans la VRAM évitent le déchargement sur le CPU et fonctionnent beaucoup plus rapidement. Le guide sur les performances des LLM explique les limites de la VRAM et leur impact sur la vitesse d’inférence.

Comparaison des performances des LLM sur Ollama sur une GPU avec 16 Go de VRAM

Test de vitesse du LLM sur RTX 4080 avec 16 Go de VRAM

Sommaire

Exécuter des modèles de langage volumineux localement vous offre la confidentialité, la capacité hors ligne et un coût API nul. Ce benchmark révèle exactement ce à quoi on peut s’attendre à partir de 14 modèles populaires LLMs sur Ollama sur un RTX 4080.

Avec une carte graphique de 16 Go de VRAM, j’ai fait face à un compromis constant : des modèles plus grands, avec une qualité potentielle supérieure, ou des modèles plus petits, avec une inférence plus rapide. Pour en savoir plus sur les performances des LLM — débit vs latence, limites de VRAM, demandes parallèles et benchmarks à travers les environnements d’exécution — voir Performances des LLM : Benchmarks, Bottlenecks & Optimisation.

Performances des LLM sur Ollama - réordonnancement des cafards

TL;DR

Voici le tableau de comparaison mis à jour des performances des LLM sur un RTX 4080 16 Go avec Ollama 0.17.7, (2026-03-09) ajouté Qwen 3.5 9b, 9bq8, 27b et 35b modèles :

Modèle	RAM+VRAM Utilisé	CPU/GPU Split	Tokens/sec
gpt-oss:20b	14 GB	100% GPU	139.93
qwen3.5:9b	9.3 GB	100% GPU	90.89
ministral-3:14b	13 GB	100% GPU	70.13
qwen3:14b	12 GB	100% GPU	61.85
qwen3.5:9b-q8_0	13 GB	100% GPU	61.22
qwen3-coder:30b	20 GB	25%/75% CPU/GPU	57.17
qwen3-vl:30b-a3b	22 GB	30%/70% CPU/GPU	50.99
glm-4.7-flash	21 GB	27%/73% CPU/GPU	33.86
nemotron-3-nano:30b	25 GB	38%/62% CPU/GPU	32.77
qwen3.5:35b	27 GB	43%/57% CPU/GPU	20.66
devstral-small-2:24b	19 GB	18%/82% CPU/GPU	18.67
mistral-small3.2:24b	19 GB	18%/82% CPU/GPU	18.51
gpt-oss:120b	66 GB	78%/22% CPU/GPU	12.64
qwen3.5:27b	24 GB	43%/57% CPU/GPU	6.48

Insight clé : Les modèles qui tiennent entièrement dans la VRAM sont nettement plus rapides. GPT-OSS 20B atteint 139,93 tokens/sec, tandis que GPT-OSS 120B avec un déchargement lourd du CPU avance lentement à 12,64 tokens/sec — une différence de vitesse de 11 fois.

Configuration matérielle de test

Le benchmark a été effectué sur le système suivant :

GPU : NVIDIA RTX 4080 avec 16 Go de VRAM
CPU : Intel Core i7-14700 (8 cœurs P + 12 cœurs E)
RAM : 64 Go DDR5-6000

Cela représente une configuration courante de haut de gamme pour l’inférence locale des LLM. La VRAM de 16 Go est la contrainte critique — elle détermine quels modèles s’exécutent entièrement sur le GPU versus ceux nécessitant un déchargement du CPU.

Comprendre comment Ollama utilise les cœurs de processeur Intel devient important lorsque les modèles dépassent la capacité de la VRAM, car les performances du CPU impactent directement la vitesse d’inférence des couches déchargées.

Objectif de ce benchmark

L’objectif principal était de mesurer la vitesse d’inférence dans des conditions réalistes. Je savais déjà par expérience que Mistral Small 3.2 24B excelle dans la qualité linguistique tandis que Qwen3 14B offre une meilleure suivie des instructions pour mes cas d’utilisation spécifiques.

Ce benchmark répond à la question pratique : À quelle vitesse chaque modèle peut-il générer du texte, et quelle est la pénalité de vitesse pour dépasser les limites de VRAM ?

Les paramètres du test étaient :

Taille du contexte : 19 000 tokens. C’est la valeur moyenne dans mes demandes de génération.
Prompt : “comparez le temps et le climat entre les villes capitales d’Australie”
Métrique : taux d’évaluation (tokens par seconde pendant la génération)

Installation et version d’Ollama

Tous les tests ont utilisé la version 0.15.2 d’Ollama, la dernière version disponible à l’époque du test. Plus tard, j’ai réexécuté sur Ollama v 0.17.7 — pour ajouter les modèles Qwen3.5. Pour une référence complète des commandes Ollama utilisées dans ce benchmark, consultez le cheat sheet d’Ollama.

Pour un rappel rapide — installez Ollama sur Linux :

curl -fsSL https://ollama.com/install.sh | sh

Vérifiez l’installation :

ollama --version

Si vous avez besoin de stocker des modèles sur un disque différent en raison des contraintes d’espace, consultez comment déplacer les modèles Ollama vers un autre disque.

Modèles testés

Les modèles suivants ont été benchmarkés, dans l’ordre alphabétique :

Modèle	Paramètres	Quantification	Notes
devstral-small-2:24b	24B	Q4_K_M	Axé sur le code
glm-4.7-flash	30B	Q4_K_M	Modèle de réflexion
gpt-oss:20b	20B	Q4_K_M	Le plus rapide globalement
gpt-oss:120b	120B	Q4_K_M	Le plus grand testé
ministral-3:14b	14B	Q4_K_M	Modèle efficace de Mistral
mistral-small3.2:24b	24B	Q4_K_M	Qualité linguistique forte
nemotron-3-nano:30b	30B	Q4_K_M	Offre de NVIDIA
qwen3:14b	14B	Q4_K_M	Meilleure suivie des instructions
qwen3.5:9b	9B	Q4_K_M	Rapide, entièrement sur GPU
qwen3.5:9b-q8_0	9B	Q8_0	Qualité supérieure, entièrement sur GPU
qwen3.5:27b	27B	Q4_K_M	Qualité excellente, lente sur Ollama
qwen3-vl:30b-a3b	30B	Q4_K_M	Capacité visuelle
qwen3-coder:30b	30B	Q4_K_M	Axé sur le code
qwen3.5:35b	35B	Q4_K_M	Bonnes capacités de codage

Pour télécharger tout modèle :

ollama pull gpt-oss:20b
ollama pull qwen3:14b

Compréhension du déchargement du CPU

Lorsque les exigences en mémoire d’un modèle dépassent la VRAM disponible, Ollama répartit automatiquement les couches du modèle entre le GPU et la mémoire système. Le résultat affiche cela comme un pourcentage de division comme “18%/82% CPU/GPU”.

Cela a des implications importantes sur les performances. Chaque génération de token nécessite un transfert de données entre la mémoire du CPU et du GPU — un goulot d’étranglement qui s’accumule avec chaque couche déchargée vers le CPU.

Le motif est clair à partir de nos résultats :

Modèles 100% sur GPU : 61-140 tokens/sec
Modèles 70-82% sur GPU : 19-51 tokens/sec
Modèles 22% sur GPU (principalement CPU) : 12,6 tokens/sec

Cela explique pourquoi un modèle de 20B paramètres peut dépasser un modèle de 120B paramètres de 11 fois en pratique. Si vous prévoyez de servir plusieurs demandes simultanées, comprendre comment Ollama gère les demandes parallèles devient essentiel pour la planification de la capacité.

Résultats détaillés du benchmark

Modèles s’exécutant entièrement sur le GPU

GPT-OSS 20B — Le champion de la vitesse

ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000

NAME           SIZE     PROCESSOR    CONTEXT
gpt-oss:20b    14 GB    100% GPU     19000

eval count:           2856 token(s)
eval duration:        20.410517947s
eval rate:            139.93 tokens/s

À 139,93 tokens/sec, GPT-OSS 20B est clairement le gagnant pour les applications critiques en vitesse. Il utilise seulement 14 Go de VRAM, laissant de la marge pour des fenêtres de contexte plus grandes ou d’autres charges de travail GPU.

Qwen3 14B — Bonne équilibre

ollama run qwen3:14b --verbose
/set parameter num_ctx 19000

NAME         SIZE     PROCESSOR    CONTEXT
qwen3:14b    12 GB    100% GPU     19000

eval count:           3094 token(s)
eval duration:        50.020594575s
eval rate:            61.85 tokens/s

Qwen3 14B offre la meilleure suivie des instructions selon mon expérience, avec un empreinte mémoire confortable de 12 Go. À 61,85 tokens/sec, il est suffisamment réactif pour une utilisation interactive.

Pour les développeurs intégrant Qwen3 dans des applications, consultez Sortie structurée des LLM avec Ollama et Qwen3 pour extraire des réponses structurées en JSON.

Ministral 3 14B — Rapide et compact

ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000

NAME               SIZE     PROCESSOR    CONTEXT
ministral-3:14b    13 GB    100% GPU     19000

eval count:           1481 token(s)
eval duration:        21.11734277s
eval rate:            70.13 tokens/s

Le petit modèle de Mistral livre 70,13 tokens/sec tout en s’adaptant entièrement dans la VRAM. Une excellente option lorsque vous avez besoin de la qualité Mistral à la vitesse maximale.

qwen3.5:9b - rapide et nouveau

ollama run  qwen3.5:9b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME          ID              SIZE      PROCESSOR    CONTEXT
qwen3.5:9b    6488c96fa5fa    9.3 GB    100% GPU     19000

eval count:           3802 token(s)
eval duration:        41.830174597s
eval rate:            90.89 tokens/s

qwen3.5:9b-q8_0 - quantification q8

Cette quantification réduit les performances de qwen3.5:9b de 30% par rapport à q4.

ollama run  qwen3.5:9b-q8_0 --verbose
/set parameter num_ctx 19000

compare weather and climate between capital cities of australia
NAME               ID              SIZE     PROCESSOR    CONTEXT
qwen3.5:9b-q8_0    441ec31e4d2a    13 GB    100% GPU     19000

eval count:           3526 token(s)
eval duration:        57.595540159s
eval rate:            61.22 tokens/s

Modèles nécessitant un déchargement du CPU

qwen3-coder:30b - le plus rapide du groupe 30b LLM car il est text-only

ollama run qwen3-coder:30b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME               ID              SIZE     PROCESSOR          CONTEXT
qwen3-coder:30b    06c1097efce0    20 GB    25%/75% CPU/GPU    19000
22%/605%

eval count:           559 token(s)
eval duration:        9.77768875s
eval rate:            57.17 tokens/s

Qwen3-VL 30B — Meilleure performance partiellement déchargée

ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000

NAME                         SIZE     PROCESSOR          CONTEXT
qwen3-vl:30b-a3b-instruct    22 GB    30%/70% CPU/GPU    19000

eval count:           1450 token(s)
eval duration:        28.439319709s
eval rate:            50.99 tokens/s

Malgré 30 % des couches sur le CPU, Qwen3-VL maintient 50,99 tokens/sec — plus rapide que certains modèles 100 % sur GPU. La capacité visuelle ajoute de la polyvalence pour les tâches multimodales.

Mistral Small 3.2 24B — Compromis entre qualité et vitesse

ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000

NAME                    SIZE     PROCESSOR          CONTEXT
mistral-small3.2:24b    19 GB    18%/82% CPU/GPU    19000

eval count:           831 token(s)
eval duration:        44.899859038s
eval rate:            18.51 tokens/s

Mistral Small 3.2 offre une qualité linguistique supérieure mais paie un lourd prix en vitesse. À 18,51 tokens/sec, il semble nettement plus lent pour les conversations interactives. Vaut la peine si la qualité prime sur la latence.

GLM 4.7 Flash — Modèle de réflexion MoE

ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000

NAME                 SIZE     PROCESSOR          CONTEXT
glm-4.7-flash        21 GB    27%/73% CPU/GPU    19000

eval count:           2446 token(s)
eval duration:        1m12.239164004s
eval rate:            33.86 tokens/s

GLM 4.7 Flash est un modèle Mixture of Experts de 30B-A3B — 30B de paramètres au total, avec seulement 3B actifs par token. En tant que modèle de “réflexion”, il génère une réflexion interne avant les réponses. Le taux de 33,86 tokens/sec inclut à la fois les tokens de réflexion et de sortie. Malgré le déchargement du CPU, l’architecture MoE maintient une vitesse raisonnable.

qwen3.5:35b - nouveau modèle avec une performance d’hébergement raisonnable

ollama run qwen3.5:35b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME           ID              SIZE     PROCESSOR          CONTEXT
qwen3.5:35b    4af949f8bdf0    27 GB    43%/57% CPU/GPU    19000

eval count:           3418 token(s)
eval duration:        2m45.458926548s
eval rate:            20.66 tokens/s

GPT-OSS 120B — Le modèle puissant

ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000

NAME            SIZE     PROCESSOR          CONTEXT
gpt-oss:120b    66 GB    78%/22% CPU/GPU    19000

eval count:           5008 token(s)
eval duration:        6m36.168233066s
eval rate:            12.64 tokens/s

Exécuter un modèle de 120B sur 16 Go de VRAM est techniquement possible mais pénible. Avec 78 % sur le CPU, le taux de 12,64 tokens/sec rend l’utilisation interactive frustrante. Plus adapté aux traitements par lots où la latence n’a pas d’importance.

qwen3.5:27b - intelligent mais lent sur Ollama

ollama run qwen3.5:27b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME           ID              SIZE     PROCESSOR          CONTEXT
qwen3.5:27b    193ec05b1e80    24 GB    43%/57% CPU/GPU    19000

eval count:           3370 token(s)
eval duration:        8m40.087510281s
eval rate:            6.48 tokens/s

J’ai testé qwen3.5:27b et j’ai obtenu une opinion extrêmement positive sur les performances de ce modèle avec OpenCode. C’est un outil très capable, savant, vraiment bon pour l’appel de fonction, bien que lent sur mon machine sur Ollama. J’ai essayé d’autres plateformes d’hébergement de LLM, et j’ai obtenu des vitesses beaucoup plus élevées. Je pense qu’il est temps de laisser Ollama partir. J’écrirai un peu à ce sujet plus tard.

Recommandations pratiques

Pour les conversations interactives

Utilisez des modèles qui s’adaptent entièrement dans la VRAM :

GPT-OSS 20B — Vitesse maximale (139,93 t/s)
Ministral 3 14B — Bonne vitesse avec la qualité Mistral (70,13 t/s)
Qwen3 14B — Meilleure suivie des instructions (61,85 t/s)

Pour une meilleure expérience de conversation, envisagez Interfaces utilisateur de chat open source pour Ollama local.

Pour le traitement par lots

Cela est à nouveau, sur mon équipement - 14 Go de VRAM.

Lorsque la vitesse est moins critique :

Mistral Small 3.2 24B — Qualité linguistique supérieure
Qwen3-VL 30B — Capacité visuelle + texte

Lorsque la vitesse n’est pas critique du tout :

Qwen3.5:35b - Bonnes capacités de codage
Qwen3.5:27b - Très bonne, mais lente sur Ollama. J’ai eu un grand succès en hébergeant ce modèle sur llama.cpp.

Pour le développement et le codage

Si vous construisez des applications avec Ollama :

Options d’hébergement alternatives

Si les limites d’Ollama vous préoccupent (voir Préoccupations concernant l’enshittification d’Ollama), explorez d’autres options dans le Guide d’hébergement des LLM locaux ou comparez Docker Model Runner vs Ollama.

Conclusion

Avec 16 Go de VRAM, vous pouvez exécuter des LLM capables à des vitesses impressionnantes — si vous faites le bon choix. Les principaux résultats :

Restez dans les limites de VRAM pour l’utilisation interactive. Un modèle de 20B à 140 tokens/sec bat un modèle de 120B à 12 tokens/sec pour la plupart des usages pratiques.
GPT-OSS 20B gagne sur la vitesse pure, mais Qwen3 14B offre le meilleur équilibre entre vitesse et capacité pour les tâches de suivie des instructions.
Le déchargement du CPU fonctionne mais attendez des ralentissements de 3 à 10 fois. Acceptable pour le traitement par lots, frustrant pour le chat.
La taille du contexte compte. Le contexte de 19K utilisé ici augmente significativement l’utilisation de la VRAM. Réduisez le contexte pour une meilleure utilisation du GPU.

Pour une recherche alimentée par l’IA combinant des LLM locaux avec des résultats web, consultez héberger Perplexica avec Ollama.

Pour explorer davantage de benchmarks, de compromis entre VRAM et débit, et d’optimisation des performances à travers Ollama et d’autres environnements d’exécution, consultez notre Performances des LLM : Benchmarks, Bottlenecks & Optimisation.