NVIDIA DGX Spark vs Mac Studio vs RTX-4080 : Comparaison des performances d'Ollama
Benchmarks GPT-OSS 120b sur trois plateformes d'IA
J’ai découvert quelques tests de performance intéressants du modèle GPT-OSS 120b exécuté sur Ollama sur trois plateformes différentes : NVIDIA DGX Spark, Mac Studio et RTX 4080. Le modèle GPT-OSS 120b de la bibliothèque Ollama pèse 65 Go, ce qui signifie qu’il ne peut pas s’adapter dans les 16 Go de VRAM d’une RTX 4080 (ou même sur la nouvelle RTX 5080).
Oui, le modèle peut s’exécuter avec un déchargement partiel vers le CPU, et si vous avez 64 Go de RAM système (comme moi), vous pouvez l’essayer. Cependant, ce type de configuration ne serait pas considéré comme étant prêt pour la production. Pour des charges de travail exigeantes, vous pourriez avoir besoin de quelque chose comme le NVIDIA DGX Spark, qui a été conçu spécifiquement pour des charges de travail d’IA à grande capacité.

J’attendais que ce LLM bénéficie considérablement de l’exécution sur un appareil à “haute capacité mémoire” comme le DGX Spark. Bien que les résultats soient bons, ils ne sont pas aussi nettement meilleurs que vous pourriez l’attendre, compte tenu de la différence de prix entre le DGX Spark et les options plus abordables.
TL;DR
Ollama exécutant GPT-OSS 120b comparaison des performances sur trois plateformes :
| Appareil | Performance d’évaluation des prompts (tokens/sec) | Performance de génération (tokens/sec) | Notes | |
|---|---|---|---|---|
| NVIDIA DGX Spark | 1159 | 41 | Meilleure performance globale, entièrement accélérée par GPU | |
| Mac Studio | Inconnue | 34 → 6 | Un test a montré une dégradation avec l’augmentation de la taille du contexte | |
| RTX 4080 | 969 | 12,45 | 78 % CPU / 22 % GPU en raison des limites de VRAM |
Spécifications du modèle :
- Modèle : GPT-OSS 120b
- Paramètres : 117B (architecture Mixture-of-Experts)
- Paramètres actifs par passage : 5,1B
- Quantification : MXFP4
- Taille du modèle : 65 Go
Cela est similaire à l’architecture d’autres modèles MoE comme Qwen3:30b, mais à une échelle bien plus grande.
GPT-OSS 120b sur NVIDIA DGX Spark
Les données de performance du LLM sur le NVIDIA DGX Spark proviennent du blog officiel Ollama (lien ci-dessous dans la section Liens utiles). Le DGX Spark représente l’entrée de NVIDIA sur le marché des superordinateurs d’IA personnels, avec 128 Go de mémoire unifiée spécialement conçue pour exécuter des modèles de langage de grande taille.

La performance de génération du GPT-OSS 120b semble impressionnante à 41 tokens/sec. Cela en fait clairement le gagnant pour ce modèle particulier, montrant que la capacité mémoire supplémentaire peut vraiment faire la différence pour les modèles extrêmement grands.
Cependant, la performance des LLMs de taille moyenne à grande ne semble pas aussi convaincante. Cela est particulièrement visible avec Qwen3:32b et Llama3.1:70b — exactement les modèles où l’on s’attendrait à ce que la capacité mémoire élevée brille. La performance sur le DGX Spark pour ces modèles n’est pas inspirante par rapport au prix premium. Si vous travaillez principalement avec des modèles dans la fourchette de 30 à 70B paramètres, vous pourriez envisager des alternatives comme un ordinateur de travail bien configuré ou même un Quadro RTX 5880 Ada avec ses 48 Go de VRAM.
GPT-OSS 120b sur Mac Studio Max
Le canal YouTube Slinging Bits a mené des tests approfondis exécutant GPT-OSS 120b sur Ollama avec différentes tailles de contexte. Les résultats révèlent une préoccupation de performance significative : la vitesse de génération du modèle a chuté de manière dramatique, passant de 34 tokens/s à seulement 6 tokens/s à mesure que la taille du contexte augmentait.
Cette dégradation de performance est probablement due à la pression mémoire et à la manière dont macOS gère l’architecture de mémoire unifiée. Bien que le Mac Studio Max ait une mémoire unifiée impressionnante (jusqu’à 192 Go dans la configuration M2 Ultra), la manière dont il gère les modèles très grands sous des charges de contexte croissantes diffère considérablement de la VRAM dédiée du GPU.


Pour les applications nécessitant une performance constante sur différentes longueurs de contexte, cela rend le Mac Studio moins idéal pour le GPT-OSS 120b, malgré ses capacités excellentes pour les charges de travail d’IA. Vous pourriez avoir plus de chance avec des modèles plus petits ou envisager d’utiliser les fonctionnalités de gestion des requêtes parallèles d’Ollama ici pour maximiser le débit dans les scénarios de production.
GPT-OSS 120b sur RTX 4080
J’ai initialement pensé que l’exécution d’Ollama avec GPT-OSS 120b sur mon PC de consommation ne serait pas particulièrement excitante, mais les résultats m’ont agréablement surpris. Voici ce qui s’est produit lors de mes tests avec cette requête :
$ ollama run gpt-oss:120b --verbose Compare the weather in state capitals of Australia
Thinking...
We need to compare weather in state capitals of Australia. Provide a comparison, perhaps include
...
*All data accessed September 2024; any updates from the BOM after that date may slightly adjust the
numbers, but the broad patterns remain unchanged.*
total duration: 4m39.942105769s
load duration: 75.843974ms
prompt eval count: 75 token(s)
prompt eval duration: 77.341981ms
prompt eval rate: 969.72 tokens/s
eval count: 3483 token(s)
eval duration: 4m39.788119563s
eval rate: 12.45 tokens/s
Maintenant, voici la partie intéressante — Ollama avec ce LLM s’exécutait principalement sur le CPU ! Le modèle ne tient simplement pas dans les 16 Go de VRAM, donc Ollama a intelligemment transféré la plupart de lui-même vers la mémoire système. Vous pouvez observer ce comportement à l’aide de la commande ollama ps :
$ ollama ps
NAME ID SIZE PROCESSOR CONTEXT
gpt-oss:120b a951a23b46a1 65 GB 78%/22% CPU/GPU 4096
Malgré une répartition de 78 % CPU / 22 % GPU, la RTX 4080 livre tout de même une performance respectables pour un modèle de cette taille. L’évaluation des prompts est extrêmement rapide à 969 tokens/s, et même la vitesse de génération de 12,45 tokens/s est utilisable pour de nombreuses applications.
Cela est particulièrement impressionnant si l’on considère que :
- Le modèle est presque 4 fois plus grand que la VRAM disponible
- La plupart des calculs se produisent sur le CPU (ce qui bénéficie de mes 64 Go de RAM système)
- Comprendre comment Ollama utilise les cœurs du CPU peut aider à optimiser davantage ce setup
Qui aurait pensé qu’un GPU de consommation pouvait gérer un modèle de 117B paramètres, encore moins avec une performance utilisable ? Cela démontre la puissance de la gestion intelligente de la mémoire d’Ollama et l’importance d’avoir suffisamment de RAM système. Si vous souhaitez intégrer Ollama dans vos applications, consultez ce guide sur l’utilisation d’Ollama avec Python.
Note : Bien que cela fonctionne pour l’expérimentation et les tests, vous remarquerez que GPT-OSS peut avoir quelques particularités, particulièrement avec les formats de sortie structurés.
Sources principales
- Ollama sur NVIDIA DGX Spark : Benchmarks de performance - Article officiel d’Ollama avec des données de performance détaillées sur le DGX Spark
- GPT-OSS 120B sur Mac Studio - Slinging Bits YouTube - Vidéo détaillée testant GPT-OSS 120b avec différentes tailles de contexte
Lectures connexes
Comparaisons matérielles et prix
- DGX Spark vs. Mac Studio : Une vue pratique et vérifiée des prix de l’ordinateur d’IA personnel de NVIDIA - Explication détaillée des configurations DGX Spark, des prix mondiaux et d’une comparaison directe avec le Mac Studio pour le travail local d’IA
- NVIDIA DGX Spark - Anticipation - Couverture précoce du DGX Spark : disponibilité, prix et spécifications techniques
- Prix de la RTX 5080 et de la RTX 5090 en Australie - Octobre 2025 - Prix actuels du marché pour les nouveaux GPU de consommation
- La Quadro RTX 5880 Ada 48GB est-elle bonne ? - Test de l’alternative GPU de travail de 48 Go pour les charges de travail d’IA
Guides Ollama et performances
- Ollama cheatsheet - Référence complète des commandes et conseils pour Ollama
- Comment Ollama gère les requêtes parallèles - Comprendre le traitement des requêtes parallèles en production
- Comment Ollama utilise les cœurs de performance et d’efficacité d’Intel - Analyse approfondie des schémas d’utilisation des cœurs du CPU
- Intégration d’Ollama avec Python : exemples d’API REST et de client Python - Intégration pratique d’Ollama avec l’API REST et le client officiel Python
Comparaisons de modèles
- Comparaison des LLMs : Qwen3:30b vs GPT-OSS:20b - Comparaison technique de deux modèles MoE populaires
- Problèmes de sortie structurée d’Ollama GPT-OSS - Limitations connues lors de l’utilisation de GPT-OSS pour la génération de données structurées