对比:Qwen3:30b 与 GPT-OSS:20b

比较这两个模型的速度、参数和性能

目录

以下是 Qwen3:30b 和 GPT-OSS:20b 的比较,重点聚焦于指令遵循和性能参数、规格和速度:

7 llamas

架构和参数

特性 Qwen3:30b-instruct GPT-OSS:20b
总参数数量 305亿 210亿
激活参数数量 ~33亿 ~36亿
层数 48 24
每层MoE专家数量 128(每个token激活8个) 32(每个token激活4个)
注意机制 分组查询注意力(32Q /4KV) 分组多查询注意力(64Q /8KV)
上下文窗口 32,768原生;最多可扩展至262,144 128,000 tokens
分词器 基于BPE,词汇量151,936 基于GPT,词汇量约200,000

指令遵循

  • Qwen3:30b-instruct 针对指令遵循进行了优化,具有强大的人类偏好对齐能力。它在创意写作、角色扮演、多轮对话和多语言指令遵循方面表现出色。该变体特别经过微调,以提供更自然、可控且吸引人的响应,与用户指令保持一致。
  • GPT-OSS:20b 支持指令遵循,但通常在细致的指令调优方面略逊于 Qwen3:30b-instruct。它在功能调用、结构化输出和推理模式方面表现相当,但在对话对齐和创意对话方面可能稍逊一筹。

性能和效率

  • Qwen3:30b-instruct 在数学推理、编程、复杂逻辑任务和涵盖119种语言和方言的多语言场景中表现出色。其“思考”模式可以增强推理能力,但会带来更高的内存成本。
  • GPT-OSS:20b 的性能与 OpenAI 的 o3-mini 模型相当。它使用更少的层数,但每层的专家更宽,并且原生使用 MXFP4 量化,以在消费级硬件上实现高效的推理,内存需求较低(约16GB,而 Qwen3 的内存需求更高)。
  • GPT-OSS 在某些硬件配置上比 Qwen3 更加内存高效且更快,尤其是在消费级 GPU 上,但 Qwen3 通常在对齐和推理深度方面表现更好,尤其是在复杂使用场景中。
  • Qwen3 提供更长的可扩展上下文长度选项(最多262,144个token),相比 GPT-OSS 的128,000个token,这对需要非常长上下文理解的任务更有利。

使用建议

  • 如果需要更高级的指令遵循、创意生成、多语言支持和复杂推理,请选择 Qwen3:30b-instruct
  • 如果内存效率、消费级硬件上的推理速度以及较少参数下的竞争力基准性能是优先考虑因素,请选择 GPT-OSS:20b

此比较突出了 Qwen3:30b-instruct 作为更深入、更强大的模型,具有先进的指令调优能力,而 GPT-OSS:20b 提供了更紧凑、高效的替代方案,在标准基准测试中表现相当。

目前搜索结果中没有直接提供 Qwen3:30b-instruct 和 GPT-OSS:20b 在指令遵循和关键性能参数(MMLU、LMEval、HumanEval)上的具体基准分数。不过,根据现有的多语言和多任务基准报告:

MMLU(大规模多任务语言理解)

难以找到详细信息,仅:

  • Qwen3 系列模型,尤其是30B及以上规模的模型,在MMLU测试中表现出色,通常得分超过89%,表明其在57个不同领域中具有非常强大的知识理解和推理能力。
  • GPT-OSS:20b 在MMLU基准测试中也表现良好,但由于参数数量较少且指令微调强调程度较低,通常得分低于较大的Qwen模型。

LMEval(语言模型评估工具包)

目前没有太多细节:

  • Qwen3 模型在LMEval中的推理和代码相关任务中表现出显著提升,逻辑、数学推理和一般能力的得分也有所提高。
  • GPT-OSS:20b 在LMEval中提供稳健的基线性能,但在高级推理和指令遵循子任务上通常落后于Qwen3:30b-instruct。

HumanEval(代码生成基准)

数据不多,仅:

  • Qwen3:30b-instruct 在多语言代码生成基准(如HumanEval-XL)中表现出色,支持超过20种编程语言,并提供卓越的跨语言代码生成准确性。
  • GPT-OSS:20b 虽然具有竞争力,但在HumanEval基准测试中,特别是在多语言和多语言编程环境中,由于多语言训练范围较窄,其表现略低于Qwen3:30b-instruct。

总结表(文献中近似趋势):

基准 Qwen3:30b-instruct GPT-OSS:20b 说明
MMLU 准确率 ~89-91% ~80-85% Qwen3 在广泛知识和推理方面更强
LMEval 分数 高,高级推理 & 代码 中等,基线推理 Qwen3 在数学和逻辑方面表现优异
HumanEval 高多语言代码生成性能 中等 Qwen3 在跨语言代码生成方面表现更好

如果需要确切的基准数字,近期研究论文中提到的多语言大规模基准(如 P-MMEval 和 HumanEval-XL)提供了 Qwen3 和可比 GPT-OSS 变体的详细分数,但这些基准目前尚未经过优化,无法直接进行侧边对比得分检索。

Qwen3:30b 和 GPT-OSS:20b 速度比较

在我的硬件(16GB 显存)上,我正在使用 4000 上下文窗口 运行 Qwen3:30bGPT-OSS:20b,它们的输出速度如下:

  • qwen3:30b-a3b => 45.68 tokens/s
  • gpt-oss:20b => 129.52 tokens/s

为了比较,我还测试了 qwen3:14b 和 gpt-oss:120b:

  • qwen3:14b => 60.12 tokens/s
  • gpt-oss:120b => 12.87 tokens/s

在更长的上下文窗口中,速度会变慢,对于 qwen3:30b-a3b 来说,可能会慢很多。 这是在我的电脑上测试的结果。 技术细节来自详细输出和分配的内存,以下是一些可以尝试的命令:

  • ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
  • ollama ps 显示在4K上下文中的内存分配情况

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutes from now
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutes from now    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutes from now
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Qwen3:30b 变体

目前有三种 Qwen3:30b 模型变体可供使用:qwen3:30b、qwen3:30b-instruct 和 qwen3:30b-thinking。

关键差异与建议

  • qwen3:30b-instruct 适用于用户指令、清晰度和自然对话优先的对话场景。
  • qwen3:30b 是通用基础模型,如果在多样任务中需要同时关注指令遵循和工具使用,它是一个合适的选择。
  • qwen3:30b-thinking 在深度推理、数学和编程方面表现突出。它在衡量逻辑/数学严谨性的任务中优于其他模型,但不一定更适合创意写作或随意对话。

直接基准比较

模型 推理 (AIME25) 编程 (LiveCodeBench) 一般知识 (MMLU Redux) 速度与上下文 理想使用场景
qwen3:30b 70.9 57.4 89.5 256K tokens; 快速 通用语言/代理/多语言
qwen3:30b-instruct N/A(预计接近30b) N/A ~与30b相同 256K tokens 指令遵循,对齐
qwen3:30b-thinking 85.0 66.0 91.4 256K tokens 数学,代码,推理,长文档

有用的链接