Comment Qwen3 30b se compare-t-il à GPT-OSS 20b ?

Qwen3 30B offre généralement de meilleures capacités en matière de suivi des instructions, de raisonnement et de performance multilingue. GPT-OSS 20B est plus rapide et plus efficace en termes de mémoire sur les GPU grand public (par exemple, une consommation de VRAM environ 33 % inférieure et un débit de tokens plus élevé dans de nombreuses configurations).

Quel modèle est plus rapide, Qwen3 30b ou GPT-OSS 20b ?

Le modèle GPT-OSS 20b est généralement plus rapide. Avec 16 Go de VRAM et un contexte de 4K, il peut atteindre environ 130 jetons par seconde, contre environ 46 jetons par seconde pour Qwen3 30b a3b, bien que ces chiffres exacts dépendent du matériel et de la taille du contexte.

Quand devrais-je choisir Qwen3 30b plutôt que GPT-OSS 20b ?

Optez pour Qwen3 30b lorsque vous avez besoin d’une meilleure conformité aux instructions, de sorties créatives ou multilingues, d’un raisonnement complexe ou d’un contexte plus long (par exemple, jusqu’à 262K tokens). Choisissez GPT-OSS 20b lorsque la vitesse et une utilisation réduite de la mémoire VRAM sur du matériel grand public sont prioritaires.

De quelle VRAM Qwen3 30B et GPT-OSS 20B ont-ils besoin ?

Le modèle Qwen3 30b a3b peut s’exécuter sur une VRAM de 16 Go avec offload CPU (par exemple, un modèle d’environ 20 Go). GPT-OSS 20b s’adapte plus confortablement sur un GPU de 16 Go (par exemple, environ 14 Go alloués) et peut fonctionner entièrement sur le GPU.

Où puis-je trouver plus d’informations sur les performances et les benchmarks des LLM ?

Notre hub des performances des LLM couvre le débit par rapport à la latence, les limites de VRAM, les requêtes parallèles et les benchmarks sur différents environnements d’exécution et matériels.

Comparaison : Qwen3:30b contre GPT-OSS:20b

Comparaison de la vitesse, des paramètres et des performances de ces deux modèles

Sommaire

Voici une comparaison entre Qwen3:30b et GPT-OSS:20b portant sur le respect des instructions et les paramètres de performance, les spécifications et la vitesse.

Pour en savoir plus sur le débit, la latence, la VRAM et les benchmarks à travers les différents environnements d’exécution et matériels, consultez Performance des LLM : Benchmarks, Goulots d’étranglement & Optimisation.

7 llamas

Pour les paramètres de sampling orientés boucle d’agent sur la nouvelle ligne Qwen (y compris les pénalités et les préréglages réflexion par rapport au codage), consultez les références consolidées paramètres d’inférence agencés pour Qwen et Gemma.

Architecture et Paramètres

Fonctionnalité	Qwen3:30b-instruct	GPT-OSS:20b
Paramètres totaux	30,5 milliards	21 milliards
Paramètres activés	~3,3 milliards	~3,6 milliards
Nombre de couches	48	24
Experts MoE par couche	128 (8 actifs par token)	32 (4 actifs par token)
Mécanisme d’attention	Attention par requêtes groupées (32Q /4KV)	Attention multi-requêtes groupées (64Q /8KV)
Fenêtre de contexte	32 768 native ; Jusqu’à 262 144 étendue	128 000 tokens
Tokenizer	Basé sur BPE, vocabulaire de 151 936	Basé sur GPT, ≈ 200k vocabulaire

Respect des Instructions

Qwen3:30b-instruct est optimisé pour le respect des instructions avec un alignement fort sur les préférences humaines. Il excelle en écriture créative, jeu de rôle, dialogues multi-tours et respect des instructions multilingues. Cette variante est spécifiquement affinée pour fournir des réponses plus naturelles, contrôlées et engageantes, alignées sur les instructions de l’utilisateur.
GPT-OSS:20b prend en charge le respect des instructions mais est généralement classé légèrement derrière Qwen3:30b-instruct en termes d’ajustement nuancé des instructions. Il offre des performances comparables en appel de fonctions, sortie structurée et modes de raisonnement, mais peut être en retard sur l’alignement conversationnel et le dialogue créatif.

Performance et Efficacité

Qwen3:30b-instruct excelle en raisonnement mathématique, codage, tâches logiques complexes et scénarios multilingues couvrant 119 langues et dialectes. Son mode « réflexion » permet un raisonnement amélioré mais s’accompoute de coûts mémoire plus élevés.
GPT-OSS:20b atteint des performances comparables au modèle o3-mini d’OpenAI. Il utilise moins de couches mais des experts plus larges par couche et une quantification MXFP4 native pour une inférence efficace sur le matériel grand public avec des exigences mémoire plus faibles (~16 Go contre plus élevé pour Qwen3).
GPT-OSS est environ 33 % plus efficace en mémoire et plus rapide sur certaines configurations matérielles, en particulier sur les GPU grand public, mais Qwen3 offre souvent un meilleur alignement et une profondeur de raisonnement, surtout pour les cas d’utilisation complexes.
Qwen3 dispose d’une option de longueur de contexte étendue plus longue (jusqu’à 262 144 tokens) comparé à 128 000 tokens pour GPT-OSS, ce qui profite aux tâches nécessitant une compréhension de contexte très long.

Recommandation d’Utilisation

Choisissez Qwen3:30b-instruct pour les cas d’utilisation exigeant un respect des instructions supérieur, une génération créative, un support multilingue et un raisonnement complexe.
Choisissez GPT-OSS:20b si l’efficacité mémoire, la vitesse d’inférence sur le matériel grand public et des performances de base compétitives avec moins de paramètres sont prioritaires.

Cette comparaison met en lumière Qwen3:30b-instruct comme un modèle plus profond et plus capable avec un affinement des instructions avancé, tandis que GPT-OSS:20b offre une alternative plus compacte et efficace avec des performances compétitives sur les benchmarks standards.

Les scores de benchmark comparant spécifiquement Qwen3:30b-instruct et GPT-OSS:20b pour le respect des instructions et les paramètres de performance clés (MMLU, LMEval, HumanEval) ne sont pas directement disponibles dans les résultats de recherche. Cependant, sur la base des rapports de benchmarks multilingues et multitâches publiés existants :

MMLU (Massive Multitask Language Understanding)

Difficile de trouver les détails, simplement :

Les modèles de la série Qwen3, en particulier à l’échelle de 30B et au-delà, démontrent de solides scores MMLU dépassant généralement 89 %, indiquant des capacités de compréhension des connaissances et de raisonnement très compétitives dans 57 domaines divers.
GPT-OSS:20b performe également bien sur les benchmarks MMLU mais obtient généralement des scores inférieurs à ceux des modèles Qwen plus grands en raison d’un nombre de paramètres plus faible et d’une moindre emphase sur l’affinement des instructions.

LMEval (Language Model Evaluation Toolkit)

Pas beaucoup de détails pour le moment :

Les modèles Qwen3 montrent une amélioration significative dans les tâches de raisonnement et de codage au sein de LMEval, avec des scores améliorés en logique, raisonnement mathématique et capacités générales.
GPT-OSS:20b fournit des performances de base robustes sur LMEval mais reste généralement derrière Qwen3:30b-instruct sur les sous-tâches de raisonnement avancé et de respect des instructions.

HumanEval (Benchmark de Génération de Code)

Pas beaucoup de données, juste :

Qwen3:30b-instruct présente de solides performances sur les benchmarks de génération de code multilingue comme HumanEval-XL, supportant plus de 20 langages de programmation et offrant une précision supérieure en génération de code translingue.
GPT-OSS:20b, bien que compétitif, performe quelque peu en dessous de Qwen3:30b-instruct dans les benchmarks HumanEval, en particulier dans les contextes de programmation multilingue et multi-langues en raison d’un entraînement multilingue moins extensif.

Tableau Récapitulatif (tendances approximatives de la littérature) :

Benchmark	Qwen3:30b-instruct	GPT-OSS:20b	Notes
Précision MMLU	~89-91%	~80-85%	Qwen3 plus fort en connaissances générales et raisonnement
Scores LMEval	Élevés, raisonnement avancé & code	Modérés, raisonnement de base	Qwen3 excelle en maths et logique
HumanEval	Génération de code multilingue haute performance	Modérée	Qwen3 meilleur en génération de code translingue

Si des chiffres de benchmark exacts sont nécessaires, les benchmarks multilingues à grande échelle spécialisés comme P-MMEval et HumanEval-XL référencés dans les papiers de recherche récents fournissent des scores détaillés pour les modèles incluant Qwen3 et les variantes comparables de GPT-OSS, mais ceux-ci ne sont pas actuellement streamés publiquement pour une récupération directe côte à côte des scores.

Comparaison de Vitesse entre Qwen3:30b et GPT-OSS:20b

Sur mon matériel (16 Go de VRAM), j’obtiens Qwen3:30b et GPT-OSS:20b fonctionnant avec une fenêtre de contexte de 4000, et ils produisent :

qwen3:30b-a3b => 45,68 tokens/s
gpt-oss:20b => 129,52 tokens/s

Et pour comparaison, j’ai également testé le qwen3:14b et le gpt-oss:120b

qwen3:14b => 60,12 tokens/s
gpt-oss:120b => 12,87 tokens/s

Sur des fenêtres de contexte plus longues, la vitesse sera plus lente, dans le cas de qwen3:30b-a3b probablement beaucoup plus lente. Ceci est, encore une fois, sur mon PC. Détails techniques pris depuis la sortie verbose et la mémoire allouée ci-dessous, commandes à essayer :

ollama run qwen3:30b-a3b –verbose décrire la différence météo entre les capitales d’État en Australie
ollama ps montrant l’allocation mémoire sur un contexte 4K

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutes from now
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutes from now    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutes from now
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Variantes de Qwen3:30b

Il existe trois variantes du modèle qwen3:30b disponibles : qwen3:30b, qwen3:30b-instruct et qwen3:30b-thinking.

Différences Clés & Recommandations

qwen3:30b-instruct est le meilleur pour les conversations où les instructions utilisateur, la clarté et le dialogue naturel sont prioritaires.
qwen3:30b est la fondation générale, approprié si le respect des instructions et l’utilisation d’outils sont importants à travers diverses tâches.
qwen3:30b-thinking excelle lorsque le raisonnement profond, les mathématiques et le codage sont les principaux objectifs. Il surpasse les autres dans les tâches mesurant la rigueur logique/mathématique mais n’est pas nécessairement meilleur pour l’écriture créative ou les conversations décontractées.

Comparaison Directe de Benchmark

Modèle	Raisonnement (AIME25)	Codage (LiveCodeBench)	Connaissances Générales (MMLU Redux)	Vitesse & Contexte	Cas d’Utilisation Idéal
qwen3:30b	70.9	57.4	89.5	256K tokens ; Rapide	Langue générale/agents/multilingue
qwen3:30b-instruct	N/A (Prévu proche de 30b)	N/A	~Même que 30b	256K tokens	Respect des instructions, alignement
qwen3:30b-thinking	85.0	66.0	91.4	256K tokens	Maths, code, raisonnement, longs documents

Pour plus de benchmarks, choix de matériel et réglages de performance, consultez notre hub Performance des LLM : Benchmarks, Goulots d’étranglement & Optimisation.