L’RTX 4080 peut-il exécuter efficacement GPT-OSS 120b ?

Oui, surprenamment bien. L’RTX 4080 atteint 969 tokens/s pour l’évaluation des prompts et 12,45 tokens/s pour la génération, bien que le modèle fonctionne à 78 % sur le CPU et seulement à 22 % sur le GPU en raison de la taille du modèle de 65 Go dépassant la VRAM de 16 Go.

Comment le Mac Studio se comporte-t-il avec GPT-OSS 120b ?

Le Mac Studio commence à 34 tokens/s, mais les performances diminuent significativement jusqu’à 6 tokens/s à mesure que la taille du contexte augmente, ce qui le rend moins adapté aux tâches à long contexte avec ce modèle.

La solution NVIDIA DGX Spark est-elle adaptée à l’exécution de grands modèles linguistiques ?

Pour GPT-OSS 120b, DGX Spark délivre une excellente performance à 41 tokens/s. Cependant, pour les modèles de taille moyenne à grande tels que Qwen3:32b et Llama3.1:70b, les performances ne sont pas aussi impressionnantes, ce qui suggère qu’il est le plus bénéfique pour les modèles très grands qui ont vraiment besoin de la capacité mémoire élevée.

Qu’est-ce que GPT-OSS 120b et pourquoi est-il significatif ?

GPT-OSS 120b est un modèle Mixture-of-Experts (MoE) de 117 milliards de paramètres, avec 5,1 milliards de paramètres actifs par passage, utilisant la quantification MXFP4. À 65 Go, il s’agit l’un des plus grands modèles disponibles librement, ce qui en fait un bon benchmark pour tester le matériel d’IA à grande capacité.

Puis-je exécuter GPT-OSS 120b sur un système ne disposant que de 16 Go de VRAM ?

Pas entièrement sur le GPU. Avec 16 Go de VRAM, le modèle devra fortement s’appuyer sur le déchargement vers le CPU. Vous aurez besoin d’au moins 64 Go de RAM système pour une performance acceptable, bien qu’il ne soit pas prêt pour la production. Le modèle fonctionne le mieux sur des systèmes équipés de grandes quantités de VRAM ou de architectures à mémoire unifiée.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080 : Comparaison des performances d'Ollama

Benchmarks GPT-OSS 120b sur trois plateformes d'IA

Sommaire

J’ai découvert quelques tests de performance intéressants du modèle GPT-OSS 120b exécuté sur Ollama sur trois plateformes différentes : NVIDIA DGX Spark, Mac Studio et RTX 4080. Le modèle GPT-OSS 120b de la bibliothèque Ollama pèse 65 Go, ce qui signifie qu’il ne peut pas s’adapter dans les 16 Go de VRAM d’une RTX 4080 (ou même sur la nouvelle RTX 5080).

Oui, le modèle peut s’exécuter avec un déchargement partiel vers le CPU, et si vous avez 64 Go de RAM système (comme moi), vous pouvez l’essayer. Cependant, ce type de configuration ne serait pas considéré comme étant prêt pour la production. Pour des charges de travail exigeantes, vous pourriez avoir besoin de quelque chose comme le NVIDIA DGX Spark, qui a été conçu spécifiquement pour des charges de travail d’IA à grande capacité.

7 llamas

J’attendais que ce LLM bénéficie considérablement de l’exécution sur un appareil à “haute capacité mémoire” comme le DGX Spark. Bien que les résultats soient bons, ils ne sont pas aussi nettement meilleurs que vous pourriez l’attendre, compte tenu de la différence de prix entre le DGX Spark et les options plus abordables.

TL;DR

Ollama exécutant GPT-OSS 120b comparaison des performances sur trois plateformes :

Appareil	Performance d’évaluation des prompts (tokens/sec)	Performance de génération (tokens/sec)	Notes
NVIDIA DGX Spark	1159	41	Meilleure performance globale, entièrement accélérée par GPU
Mac Studio	Inconnue	34 → 6	Un test a montré une dégradation avec l’augmentation de la taille du contexte
RTX 4080	969	12,45	78 % CPU / 22 % GPU en raison des limites de VRAM

Spécifications du modèle :

Modèle : GPT-OSS 120b
Paramètres : 117B (architecture Mixture-of-Experts)
Paramètres actifs par passage : 5,1B
Quantification : MXFP4
Taille du modèle : 65 Go

Cela est similaire à l’architecture d’autres modèles MoE comme Qwen3:30b, mais à une échelle bien plus grande.

GPT-OSS 120b sur NVIDIA DGX Spark

Les données de performance du LLM sur le NVIDIA DGX Spark proviennent du blog officiel Ollama (lien ci-dessous dans la section Liens utiles). Le DGX Spark représente l’entrée de NVIDIA sur le marché des superordinateurs d’IA personnels, avec 128 Go de mémoire unifiée spécialement conçue pour exécuter des modèles de langage de grande taille.

ollama on dgx spark performance table

La performance de génération du GPT-OSS 120b semble impressionnante à 41 tokens/sec. Cela en fait clairement le gagnant pour ce modèle particulier, montrant que la capacité mémoire supplémentaire peut vraiment faire la différence pour les modèles extrêmement grands.

Cependant, la performance des LLMs de taille moyenne à grande ne semble pas aussi convaincante. Cela est particulièrement visible avec Qwen3:32b et Llama3.1:70b — exactement les modèles où l’on s’attendrait à ce que la capacité mémoire élevée brille. La performance sur le DGX Spark pour ces modèles n’est pas inspirante par rapport au prix premium. Si vous travaillez principalement avec des modèles dans la fourchette de 30 à 70B paramètres, vous pourriez envisager des alternatives comme un ordinateur de travail bien configuré ou même un Quadro RTX 5880 Ada avec ses 48 Go de VRAM.

GPT-OSS 120b sur Mac Studio Max

Le canal YouTube Slinging Bits a mené des tests approfondis exécutant GPT-OSS 120b sur Ollama avec différentes tailles de contexte. Les résultats révèlent une préoccupation de performance significative : la vitesse de génération du modèle a chuté de manière dramatique, passant de 34 tokens/s à seulement 6 tokens/s à mesure que la taille du contexte augmentait.

Cette dégradation de performance est probablement due à la pression mémoire et à la manière dont macOS gère l’architecture de mémoire unifiée. Bien que le Mac Studio Max ait une mémoire unifiée impressionnante (jusqu’à 192 Go dans la configuration M2 Ultra), la manière dont il gère les modèles très grands sous des charges de contexte croissantes diffère considérablement de la VRAM dédiée du GPU.

ollama with gpt-oss 120b on mac studio

“ollama-gpt-oss-120b-on-mac-studio-summary”

Pour les applications nécessitant une performance constante sur différentes longueurs de contexte, cela rend le Mac Studio moins idéal pour le GPT-OSS 120b, malgré ses capacités excellentes pour les charges de travail d’IA. Vous pourriez avoir plus de chance avec des modèles plus petits ou envisager d’utiliser les fonctionnalités de gestion des requêtes parallèles d’Ollama ici pour maximiser le débit dans les scénarios de production.

GPT-OSS 120b sur RTX 4080

J’ai initialement pensé que l’exécution d’Ollama avec GPT-OSS 120b sur mon PC de consommation ne serait pas particulièrement excitante, mais les résultats m’ont agréablement surpris. Voici ce qui s’est produit lors de mes tests avec cette requête :

$ ollama run gpt-oss:120b --verbose Compare the weather in state capitals of Australia


Thinking...
We need to compare weather in state capitals of Australia. Provide a comparison, perhaps include 
...
*All data accessed September 2024; any updates from the BOM after that date may slightly adjust the 
numbers, but the broad patterns remain unchanged.*


total duration:       4m39.942105769s
load duration:        75.843974ms
prompt eval count:    75 token(s)
prompt eval duration: 77.341981ms
prompt eval rate:     969.72 tokens/s
eval count:           3483 token(s)
eval duration:        4m39.788119563s
eval rate:            12.45 tokens/s

Maintenant, voici la partie intéressante — Ollama avec ce LLM s’exécutait principalement sur le CPU ! Le modèle ne tient simplement pas dans les 16 Go de VRAM, donc Ollama a intelligemment transféré la plupart de lui-même vers la mémoire système. Vous pouvez observer ce comportement à l’aide de la commande ollama ps :

$ ollama ps

NAME            ID              SIZE     PROCESSOR          CONTEXT 
gpt-oss:120b    a951a23b46a1    65 GB    78%/22% CPU/GPU    4096

Malgré une répartition de 78 % CPU / 22 % GPU, la RTX 4080 livre tout de même une performance respectables pour un modèle de cette taille. L’évaluation des prompts est extrêmement rapide à 969 tokens/s, et même la vitesse de génération de 12,45 tokens/s est utilisable pour de nombreuses applications.

Cela est particulièrement impressionnant si l’on considère que :

Le modèle est presque 4 fois plus grand que la VRAM disponible
La plupart des calculs se produisent sur le CPU (ce qui bénéficie de mes 64 Go de RAM système)
Comprendre comment Ollama utilise les cœurs du CPU peut aider à optimiser davantage ce setup

Qui aurait pensé qu’un GPU de consommation pouvait gérer un modèle de 117B paramètres, encore moins avec une performance utilisable ? Cela démontre la puissance de la gestion intelligente de la mémoire d’Ollama et l’importance d’avoir suffisamment de RAM système. Si vous souhaitez intégrer Ollama dans vos applications, consultez ce guide sur l’utilisation d’Ollama avec Python.

Note : Bien que cela fonctionne pour l’expérimentation et les tests, vous remarquerez que GPT-OSS peut avoir quelques particularités, particulièrement avec les formats de sortie structurés.

Sources principales

Ollama sur NVIDIA DGX Spark : Benchmarks de performance - Article officiel d’Ollama avec des données de performance détaillées sur le DGX Spark
GPT-OSS 120B sur Mac Studio - Slinging Bits YouTube - Vidéo détaillée testant GPT-OSS 120b avec différentes tailles de contexte

Lectures connexes

Comparaisons matérielles et prix

DGX Spark vs. Mac Studio : Une vue pratique et vérifiée des prix de l’ordinateur d’IA personnel de NVIDIA - Explication détaillée des configurations DGX Spark, des prix mondiaux et d’une comparaison directe avec le Mac Studio pour le travail local d’IA
NVIDIA DGX Spark - Anticipation - Couverture précoce du DGX Spark : disponibilité, prix et spécifications techniques
Prix de la RTX 5080 et de la RTX 5090 en Australie - Octobre 2025 - Prix actuels du marché pour les nouveaux GPU de consommation
La Quadro RTX 5880 Ada 48GB est-elle bonne ? - Test de l’alternative GPU de travail de 48 Go pour les charges de travail d’IA

Guides Ollama et performances

Ollama cheatsheet - Référence complète des commandes et conseils pour Ollama
Comment Ollama gère les requêtes parallèles - Comprendre le traitement des requêtes parallèles en production
Comment Ollama utilise les cœurs de performance et d’efficacité d’Intel - Analyse approfondie des schémas d’utilisation des cœurs du CPU
Intégration d’Ollama avec Python : exemples d’API REST et de client Python - Intégration pratique d’Ollama avec l’API REST et le client officiel Python

Comparaisons de modèles

Comparaison des LLMs : Qwen3:30b vs GPT-OSS:20b - Comparaison technique de deux modèles MoE populaires
Problèmes de sortie structurée d’Ollama GPT-OSS - Limitations connues lors de l’utilisation de GPT-OSS pour la génération de données structurées