Comparaison : Qwen3:30b vs GPT-OSS:20b
Comparaison de la vitesse, des paramètres et des performances de ces deux modèles
Voici une comparaison entre Qwen3:30b et GPT-OSS:20b
axée sur le suivi des instructions et les performances, les spécifications et la vitesse.
Pour plus d’informations sur le débit, la latence, la VRAM et les benchmarks sur différents runtimes et matériels, consultez LLM Performance: Benchmarks, Bottlenecks & Optimization.

Architecture et paramètres
| Fonction | Qwen3:30b-instruct | GPT-OSS:20b |
|---|---|---|
| Paramètres totaux | 30,5 milliards | 21 milliards |
| Paramètres activés | ~3,3 milliards | ~3,6 milliards |
| Nombre de couches | 48 | 24 |
| Experts MoE par couche | 128 (8 actifs par token) | 32 (4 actifs par token) |
| Mécanisme d’attention | Attention regroupée par requête (32Q /4KV) | Attention multi-requête regroupée (64Q /8KV) |
| Fenêtre de contexte | 32 768 natif ; Jusqu’à 262 144 étendu | 128 000 tokens |
| Tokenizer | Basé sur BPE, vocabulaire de 151 936 | Basé sur GPT, vocabulaire d’environ 200 000 |
Suivi des instructions
- Qwen3:30b-instruct est optimisé pour le suivi des instructions avec une forte alignement des préférences humaines. Il excelle dans l’écriture créative, le rôle-jeu, les dialogues multi-tours et le suivi des instructions multilingues. Cette variante est fine-tunée spécifiquement pour fournir des réponses plus naturelles, contrôlées et engageantes alignées avec les instructions de l’utilisateur.
- GPT-OSS:20b prend en charge le suivi des instructions mais est généralement évalué légèrement en dessous de Qwen3:30b-instruct en matière de réglage des instructions subtils. Il fournit des performances comparables en matière d’appel de fonctions, de sorties structurées et de modes de raisonnement, mais peut être en retard en matière d’alignement conversationnel et de dialogues créatifs.
Performance et efficacité
- Qwen3:30b-instruct excelle dans le raisonnement mathématique, le codage, les tâches logiques complexes et les scénarios multilingues couvrant 119 langues et dialectes. Son mode « pensée » permet un raisonnement amélioré mais entraîne des coûts de mémoire plus élevés.
- GPT-OSS:20b atteint des performances comparables à celles du modèle o3-mini d’OpenAI. Il utilise moins de couches mais des experts plus larges par couche et une quantification native MXFP4 pour une inférence efficace sur le matériel de consommation avec des exigences de mémoire plus faibles (~16 Go vs plus élevées pour Qwen3).
- GPT-OSS est environ 33 % plus efficace en matière de mémoire et plus rapide sur certains configurations matérielles, en particulier sur les GPU de consommation, mais Qwen3 fournit souvent une meilleure alignement et une profondeur de raisonnement, surtout pour les cas d’utilisation complexes.
- Qwen3 propose une option de longueur de contexte étendu disponible plus longue (jusqu’à 262 144 tokens) par rapport à GPT-OSS de 128 000 tokens, ce qui bénéficie aux tâches nécessitant une compréhension de contexte très longue.
Recommandation d’utilisation
- Choisissez Qwen3:30b-instruct pour les cas d’utilisation exigeant un suivi d’instruction supérieur, une génération créative, un support multilingue et un raisonnement complexe.
- Choisissez GPT-OSS:20b si l’efficacité en matière de mémoire, la vitesse d’inférence sur le matériel de consommation et les performances compétitives avec moins de paramètres sont prioritaires.
Cette comparaison met en évidence Qwen3:30b-instruct comme un modèle plus profond et plus capable avec un réglage avancé des instructions, tandis que GPT-OSS:20b propose une alternative plus compacte et efficace avec des performances compétitives sur les benchmarks standards.
Les scores de benchmark comparant spécifiquement Qwen3:30b-instruct et GPT-OSS:20b pour le suivi des instructions et les principaux paramètres de performance (MMLU, LMEval, HumanEval) ne sont pas directement disponibles dans les résultats de recherche. Cependant, en se basant sur les rapports de benchmarks multilingues et multitâches existants :
MMLU (Massive Multitask Language Understanding)
Difficile de trouver les détails, juste :
- Les modèles Qwen3, en particulier à l’échelle de 30B et au-delà, montrent de bons scores MMLU, généralement supérieurs à 89 %, indiquant des capacités de compréhension et de raisonnement très compétitives sur 57 domaines divers.
- GPT-OSS:20b performe également bien sur les benchmarks MMLU mais obtient généralement des scores inférieurs aux modèles Qwen plus grands en raison du nombre de paramètres plus petit et de l’accentuation moindre sur le réglage des instructions.
LMEval (Language Model Evaluation Toolkit)
Pas beaucoup de détails pour le moment :
- Les modèles Qwen3 montrent une amélioration significative en matière de raisonnement et de tâches liées au codage dans LMEval, avec des scores améliorés en logique, en raisonnement mathématique et en capacités générales.
- GPT-OSS:20b fournit une performance robuste de base sur LMEval mais est généralement en retard sur Qwen3:30b-instruct pour les sous-tâches de raisonnement avancé et de suivi des instructions.
HumanEval (Benchmark de génération de code)
Pas beaucoup de données, juste :
- Qwen3:30b-instruct montre de bonnes performances sur les benchmarks de génération de code multilingue comme HumanEval-XL, soutenant plus de 20 langages de programmation et offrant une précision supérieure en génération de code translingue.
- GPT-OSS:20b, bien qu’adéquat, performe quelque peu moins bien que Qwen3:30b-instruct dans les benchmarks HumanEval, surtout dans les contextes de programmation multilingue et multilingue en raison d’une formation multilingue moins étendue.
Tableau récapitulatif (tendances approximatives tirées de la littérature) :
| Benchmark | Qwen3:30b-instruct | GPT-OSS:20b | Notes |
|---|---|---|---|
| Précision MMLU | ~89-91% | ~80-85% | Qwen3 plus fort en connaissance et raisonnement général |
| Scores LMEval | Élevés, raisonnement avancé et code | Modérés, raisonnement de base | Qwen3 excelle en mathématiques et logique |
| HumanEval | Bonnes performances en génération de code multilingue | Modérés | Qwen3 meilleur en génération de code translingue |
Si des chiffres de benchmark précis sont nécessaires, des benchmarks multilingues à grande échelle comme P-MMEval et HumanEval-XL mentionnés dans les articles de recherche récents fournissent des scores détaillés pour les modèles incluant Qwen3 et les variantes comparables GPT-OSS, mais ces derniers ne sont pas actuellement simplifiés publiquement pour une récupération directe des scores côte à côte.
Comparaison de vitesse entre Qwen3:30b et GPT-OSS:20b
Sur mon matériel (16 Go de VRAM) je fais tourner Qwen3:30b et GPT-OSS:20b avec une fenêtre de contexte de 4000, et ils produisent :
- qwen3:30b-a3b => 45,68 tokens/s
- gpt-oss:20b => 129,52 tokens/s
Et pour comparaison, j’ai également testé le qwen3:14b et le gpt-oss:120b
- qwen3:14b => 60,12 tokens/s
- gpt-oss:120b => 12,87 tokens/s
Sur des fenêtres de contexte plus longues, la vitesse sera plus lente, dans le cas de qwen3:30b-a3b probablement beaucoup plus lente. C’est à nouveau sur mon PC. Les détails techniques sont pris à partir de la sortie détaillée et de la mémoire allouée ci-dessous, les commandes à essayer :
- ollama run qwen3:30b-a3b –verbose décrire la différence entre les capitales des États en Australie
- ollama ps montrant l’allocation de mémoire sur un contexte de 4K
qwen3:30b-a3b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-a3b 19e422b02313 20 GB 23%/77% CPU/GPU 4096 4 minutes from now
total duration: 28.151133548s
load duration: 1.980696196s
prompt eval count: 16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate: 98.41 tokens/s
eval count: 1188 token(s)
eval duration: 26.007424856s
eval rate: 45.68 tokens/s
qwen3:30b-thinking
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-thinking ad815644918f 20 GB 23%/77% CPU/GPU 4096 4 minutes from now
total duration: 1m8.317354579s
load duration: 1.984986882s
prompt eval count: 18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate: 81.95 tokens/s
eval count: 2722 token(s)
eval duration: 1m6.11230524s
eval rate: 41.17 tokens/s
gpt-oss:20b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b aa4295ac10c3 14 GB 100% GPU 4096 4 minutes from now
total duration: 31.505397616s
load duration: 13.744361948s
prompt eval count: 75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate: 300.77 tokens/s
eval count: 2268 token(s)
eval duration: 17.510262884s
eval rate: 129.52 tokens/s
qwen3:14b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:14b bdbd181c33f2 10 GB 100% GPU 4096 4 minutes from now
total duration: 36.902729562s
load duration: 38.669074ms
prompt eval count: 18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate: 509.61 tokens/s
eval count: 2214 token(s)
eval duration: 36.828268069s
eval rate: 60.12 tokens/s
gpt-oss:120b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b f7f8e2f8f4e0 65 GB 78%/22% CPU/GPU 4096 2 minutes from now
49GB RAM + 14.4GB VRAM
total duration: 3m59.967272019s
load duration: 76.758783ms
prompt eval count: 75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate: 252.26 tokens/s
eval count: 3084 token(s)
eval duration: 3m59.592764501s
eval rate: 12.87 tokens/s
Variantes de Qwen3:30b
Il existe trois variantes du modèle qwen3:30b disponibles : qwen3:30b, qwen3:30b-instruct et qwen3:30b-thinking.
Principales différences et recommandations
- qwen3:30b-instruct est le meilleur pour les conversations où les instructions utilisateur, la clarté et le dialogue naturel sont prioritaires.
- qwen3:30b est la base générale, adaptée si à la fois le suivi des instructions et l’utilisation des outils sont importants sur des tâches variées.
- qwen3:30b-thinking excelle lorsqu’il s’agit de raisonnement profond, de mathématiques et de codage. Il dépasse les autres dans les tâches qui mesurent le rigueur logique/mathématique mais n’est pas nécessairement meilleur pour l’écriture créative ou les conversations informelles.
Comparaison directe des benchmarks
| Modèle | Raisonnement (AIME25) | Codage (LiveCodeBench) | Connaissance générale (MMLU Redux) | Vitesse et contexte | Cas d’utilisation idéal |
|---|---|---|---|---|---|
| qwen3:30b | 70,9 | 57,4 | 89,5 | 256K tokens ; Rapide | Langage/général/multilingue |
| qwen3:30b-instruct | N/A (prévu proche de 30b) | N/A | ~Même que 30b | 256K tokens | Suivi des instructions, alignement |
| qwen3:30b-thinking | 85,0 | 66,0 | 91,4 | 256K tokens | Mathématiques, codage, raisonnement, longs documents |
Pour plus de benchmarks, de choix de matériel et d’optimisation des performances, consultez notre LLM Performance: Benchmarks, Bottlenecks & Optimization hub.
Liens utiles
- https://ollama.com/library/qwen3
- https://ollama.com/library/gpt-oss
- https://artificialanalysis.ai/articles/analysis-openai-gpt-oss-models
- https://artificialanalysis.ai/models/qwen3-30b-a3b-2507
- Installer et configurer Ollama
- Feuille de triche Ollama - commandes les plus utiles
- Contrainte des LLM avec une sortie structurée : Ollama, Qwen3 et Python ou Go
- Intégration d’Ollama avec Python : exemples d’API REST et du client Python