비교: Qwen3:30b vs GPT-OSS:20b

이 두 모델의 속도, 파라미터 및 성능 비교

Page content

다음은 Qwen3:30b와 GPT-OSS:20b 사이의 비교입니다.
지시사항 준수 및 성능 파라미터, 사양 및 속도에 초점을 맞추고 있습니다:

7 llamas

아키텍처 및 파라미터

기능 Qwen3:30b-instruct GPT-OSS:20b
총 파라미터 수 305억개 210억개
활성화된 파라미터 수 약 33억개 약 36억개
레이어 수 48 24
레이어당 MoE 전문가 수 128 (토큰당 8개 활성화) 32 (토큰당 4개 활성화)
주의 메커니즘 그룹화된 쿼리 주의 (32Q /4KV) 그룹화된 다중 쿼리 주의 (64Q /8KV)
컨텍스트 창 32,768개 기본; 최대 262,144개 확장 128,000개 토큰
토큰화기 BPE 기반, 151,936개 어휘 GPT 기반, 약 200,000개 어휘

지시사항 준수

  • Qwen3:30b-instruct는 인간의 선호도와 강하게 일치하도록 최적화되어 있습니다. 창작 글쓰기, 역할극, 다중 대화, 다국어 지시사항 준수 등에서 우수한 성능을 보입니다. 이 버전은 사용자 지시사항에 따라 더 자연스럽고, 제어력이 높고, 흥미로운 응답을 제공하도록 특별히 미세 조정되었습니다.
  • GPT-OSS:20b는 지시사항 준수를 지원하지만, 일반적으로 Qwen3:30b-instruct보다 세부적인 지시사항 조정에서 약간 뒤처집니다. 기능 호출, 구조화된 출력, 추론 모드에서는 비슷한 성능을 보이지만, 대화 일치 및 창의적 대화에서는 약간 뒤처질 수 있습니다.

성능 및 효율성

  • Qwen3:30b-instruct는 수학적 추론, 코딩, 복잡한 논리 작업, 119개 언어 및 방언을 포함한 다국어 시나리오에서 우수한 성능을 보입니다. “생각” 모드는 강화된 추론을 가능하게 하지만 더 높은 메모리 비용이 따릅니다.
  • GPT-OSS:20b는 OpenAI의 o3-mini 모델과 비슷한 성능을 달성합니다. 더 적은 레이어를 사용하지만, 레이어당 더 넓은 전문가 수와 MXFP4 원자화를 사용하여 소비자 하드웨어에서 효율적인 추론이 가능하며, 메모리 요구 사항이 낮습니다 (~16GB vs Qwen3의 더 높은 수준).
  • GPT-OSS는 특정 하드웨어 설정, 특히 소비자 GPU에서 약 33% 더 높은 메모리 효율성과 더 빠른 속도를 제공하지만, Qwen3는 복잡한 사용 사례에서 더 높은 일치도와 추론 깊이를 제공하는 경우가 많습니다.
  • Qwen3는 GPT-OSS의 128,000 토큰보다 더 긴 확장 컨텍스트 길이 옵션(최대 262,144 토큰)을 제공하여 매우 긴 컨텍스트 이해가 필요한 작업에 유리합니다.

사용 권장 사항

  • Qwen3:30b-instruct를 선택하세요. 지시사항 준수, 창작 생성, 다국어 지원, 복잡한 추론이 필요한 사용 사례에 적합합니다.
  • GPT-OSS:20b를 선택하세요. 메모리 효율성, 소비자 하드웨어에서의 추론 속도, 그리고 적은 파라미터 수로도 경쟁력 있는 기초 성능이 필요한 경우에 적합합니다.

이 비교는 Qwen3:30b-instruct가 고급 지시사항 조정을 갖춘 더 깊고 능력 있는 모델임을 강조하며, GPT-OSS:20b는 표준 벤치마크에서 경쟁력 있는 성능을 제공하는 더 간결하고 효율적인 대안임을 보여줍니다.

Qwen3:30b-instruct와 GPT-OSS:20b 사이의 지시사항 준수 및 주요 성능 파라미터(MMLU, LMEval, HumanEval)에 대한 구체적인 벤치마크 점수는 검색 결과에서 직접적으로 제공되지 않습니다. 그러나 기존 출판된 다국어 및 다태스크 벤치마크 보고서를 바탕으로 다음과 같은 추세가 있습니다:

MMLU (Massive Multitask Language Understanding)

세부 정보는 어렵지만:

  • Qwen3 시리즈 모델, 특히 30B 규모 이상의 모델은 일반적으로 57개 다양한 분야에서 89% 이상의 MMLU 점수를 보여주며, 매우 경쟁력 있는 지식 이해 및 추론 능력을 나타냅니다.
  • GPT-OSS:20b도 MMLU 벤치마크에서 잘 수행하지만, 파라미터 수가 적고 지시사항 미세 조정에 대한 강조가 덜하기 때문에 더 큰 Qwen 모델보다 일반적으로 점수가 낮습니다.

LMEval (Language Model Evaluation Toolkit)

현재는 세부 정보가 많지 않습니다:

  • Qwen3 모델은 LMEval 내에서 추론 및 코드 관련 작업에서 상당한 개선을 보여주며, 논리, 수학 추론, 일반 능력 등에서 점수가 향상되었습니다.
  • GPT-OSS:20b는 LMEval에서 견고한 기초 성능을 제공하지만, 고급 추론 및 지시사항 준수 하위 작업에서는 일반적으로 Qwen3:30b-instruct보다 뒤처집니다.

HumanEval (Code Generation Benchmark)

데이터는 많지 않지만:

  • Qwen3:30b-instruct는 HumanEval-XL과 같은 다국어 코드 생성 벤치마크에서 우수한 성능을 보여주며, 20개 이상의 프로그래밍 언어를 지원하고, 다국어 코드 생성 정확도에서 우수한 성능을 제공합니다.
  • GPT-OSS:20b는 경쟁력 있지만, HumanEval 벤치마크에서 Qwen3:30b-instruct보다 다국어 및 다언어 프로그래밍 맥락에서 약간 낮은 성능을 보입니다. 이는 다국어 훈련이 덜했기 때문입니다.

요약 표 (문헌에서 추정된 추세):

벤치마크 Qwen3:30b-instruct GPT-OSS:20b 참고 사항
MMLU 정확도 ~89-91% ~80-85% Qwen3는 광범위한 지식 및 추론에서 더 강함
LMEval 점수 높음, 고급 추론 및 코드 중간, 기초 추론 Qwen3는 수학 및 논리에서 우수함
HumanEval 높은 다국어 코드 생성 성능 중간 Qwen3는 다국어 코드 생성에서 우수함

정확한 벤치마크 수치가 필요한 경우, 최근 연구 논문에서 언급된 P-MMEval 및 HumanEval-XL과 같은 다국어 대규모 벤치마크는 Qwen3 및 비교 가능한 GPT-OSS 변형 모델에 대한 상세한 점수를 제공하지만, 현재는 직접적인 비교 점수 검색을 위해 공개적으로 정리되지 않았습니다.

Qwen3:30b 및 GPT-OSS:20b 속도 비교

내 하드웨어(16GB VRAM)에서 Qwen3:30bGPT-OSS:20b4000 컨텍스트 창으로 실행하고 있으며, 다음과 같은 속도를 얻고 있습니다:

  • qwen3:30b-a3b => 45.68 토큰/초
  • gpt-oss:20b => 129.52 토큰/초

비교를 위해 qwen3:14bgpt-oss:120b도 테스트했습니다:

  • qwen3:14b => 60.12 토큰/초
  • gpt-oss:120b => 12.87 토큰/초

더 긴 컨텍스트 창에서는 속도가 느려질 것이며, qwen3:30b-a3b의 경우 매우 느려질 가능성이 있습니다. 이것은 다시 말해, 내 컴퓨터에서의 결과입니다. 기술 세부 사항은 자세한 출력에서 가져왔으며, 할당된 메모리 정보는 아래에 있습니다. 시도할 명령어는 다음과 같습니다:

  • ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
  • ollama ps 4K 컨텍스트에서 메모리 할당을 보여주는 명령어

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutes from now
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutes from now    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutes from now
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Qwen3:30b 변형

qwen3:30b 모델에는 세 가지 변형이 제공됩니다: qwen3:30b, qwen3:30b-instruct 및 qwen3:30b-thinking.

주요 차이점 및 권장 사항

  • qwen3:30b-instruct는 사용자 지시사항, 명확성 및 자연스러운 대화가 우선시되는 대화에 가장 적합합니다.
  • qwen3:30b는 일반적인 기초 모델로, 다양한 작업에서 지시사항 준수 및 도구 사용이 중요한 경우에 적합합니다.
  • qwen3:30b-thinking은 깊은 추론, 수학 및 코딩이 주요 초점인 경우에 우수합니다. 논리/수학적 엄격성을 측정하는 작업에서는 다른 모델보다 우수하지만, 창작 글쓰기나 일상 대화에서는 반드시 더 우수하지는 않습니다.

직접 벤치마크 비교

모델 추론 (AIME25) 코딩 (LiveCodeBench) 일반 지식 (MMLU Redux) 속도 및 컨텍스트 이상적인 사용 사례
qwen3:30b 70.9 57.4 89.5 256K 토큰; 빠름 일반 언어/에이전트/다국어
qwen3:30b-instruct N/A (30b에 가까움) N/A ~30b와 동일 256K 토큰 지시사항 준수, 일치성
qwen3:30b-thinking 85.0 66.0 91.4 256K 토큰 수학, 코딩, 추론, 긴 문서

유용한 링크