비교: Qwen3:30b 대 GPT-OSS:20b

두 모델의 속도, 파라미터 및 성능 비교

Page content

다음은 지시 순응도 및 성능 매개변수, 사양, 속도 측면에 초점을 맞춘 Qwen3:30b와 GPT-OSS:20b 간의 비교입니다.

처리량(throughput), 지연 시간(latency), VRAM 및 다양한 런타임과 하드웨어에서의 벤치마크에 대한 자세한 내용은 LLM 성능: 벤치마크, 병목 현상 및 최적화를 참조하세요.

7 llamas

더 새로운 Qwen 라인(페널티 및 코딩 프리셋에 대한 사고(thinking) 모드 포함)의 에이전트 루프 중심 샘플링 기본값에 대해서는 Qwen 및 Gemma용 에이전티브 추론 매개변수와 대조하여 통합해 보세요.

아키텍처 및 매개변수

기능 Qwen3:30b-instruct GPT-OSS:20b
총 매개변수 305억 개 21억 개
활성화된 매개변수 약 33억 개 약 36억 개
레이어 수 48 24
레이어당 MoE 전문가 수 128 (토큰당 8개 활성화) 32 (토큰당 4개 활성화)
어텐션 메커니즘 그룹 쿼리 어텐션 (32Q /4KV) 그룹 멀티 쿼리 어텐션 (64Q /8KV)
컨텍스트 창 기본 32,768; 최대 262,144까지 확장 가능 128,000 토큰
토크나이저 BPE 기반, 어휘 151,936개 GPT 기반, 약 20만 개 어휘

지시 순응도 (Instruction Following)

  • Qwen3:30b-instruct는 강력한 인간 선호도 정렬과 함께 지시 순응을 위해 최적화되었습니다. 창의적 글쓰기, 역할 놀이, 다중 턴 대화 및 다국어 지시 순응에서 뛰어난 성능을 보입니다. 이 변형 모델은 사용자의 지시에 부합하는 더 자연스럽고 통제되며 몰입감 있는 응답을 제공하도록 특별히 파인튜닝되었습니다.
  • GPT-OSS:20b는 지시 순응을 지원하지만, 미묘한 지시 튜닝 측면에서는 일반적으로 Qwen3:30b-instruct보다 약간 뒤쳐지는 평가를 받습니다. 기능 호출, 구조화된 출력 및 추론 모드에서는 유사한 성능을 제공하지만, 대화 정렬 및 창의적 대화에서는 다소 뒤처질 수 있습니다.

성능 및 효율성

  • Qwen3:30b-instruct는 수학적 추론, 코딩, 복잡한 논리적 작업 및 119개 언어와 방언을 포함하는 다국어 시나리오에서 뛰어난 성능을 발휘합니다. ‘사고(thinking)’ 모드는 추론 능력을 향상시키지만 더 높은 메모리 비용이 수반됩니다.
  • GPT-OSS:20b는 OpenAI의 o3-mini 모델과 견줄 만한 성능을 달성합니다. 레이어 수는 적지만 레이어당 더 넓은 전문가(experts)와 네이티브 MXFP4 양자화를 사용하여 소비자 하드웨어에서 ~16GB라는 낮은 메모리 요구 사항으로 효율적인 추론이 가능합니다(Qwen3보다 낮음).
  • GPT-OSS는 특정 하드웨어 설정, 특히 소비자용 GPU에서 약 33% 더 메모리 효율적이며 빠르지만, Qwen3는 특히 복잡한 사용 사례에서 더 나은 정렬과 추론 깊이를 제공합니다.
  • Qwen3는 GPT-OSS의 128,000 토큰에 비해 더 긴 확장 컨텍스트 길이 옵션(최대 262,144 토큰)을 제공하여 매우 긴 컨텍스트 이해가 필요한 작업에 유리합니다.

사용 권장 사항

  • 우수한 지시 순응, 창의적 생성, 다국어 지원 및 복잡한 추론이 필요한 사용 사례에는 Qwen3:30b-instruct를 선택하세요.
  • 메모리 효율성, 소비자 하드웨어에서의 추론 속도, 적은 매개변수로 경쟁력 있는 기준 성능이 우선순위인 경우 GPT-OSS:20b를 선택하세요.

이 비교는 Qwen3:30b-instruct를 더 깊고 능력이 뛰어나며 고급 지시 튜닝을 갖춘 모델로 강조하는 반면, GPT-OSS:20b는 표준 벤치마크에서 경쟁력 있는 성능을 갖춘 더 컴팩트하고 효율적인 대안으로 제시합니다.

지시 순응 및 주요 성능 매개변수(MMLU, LMEval, HumanEval)에 대한 Qwen3:30b-instruct와 GPT-OSS:20b를 직접 비교하는 벤치마크 점수는 검색 결과에서 직접적으로 이용 가능하지 않습니다. 그러나 기존에 출판된 다국어 및 다중 작업 벤치마크 리포트를 바탕으로 다음과 같습니다:

MMLU (Massive Multitask Language Understanding)

자세한 내용을 찾기 어렵습니다. 요약하면:

  • Qwen3 시리즈 모델, 특히 30B 규모 이상의 모델은 일반적으로 89%를 초과하는 강력한 MMLU 점수를 보여주며, 57개 다양한 도메인 전반에서 매우 경쟁력 있는 지식 이해 및 추론 능력을 나타냅니다.
  • GPT-OSS:20b도 MMLU 벤치마크에서 잘 수행하지만, 매개변수 수가 적고 지시 파인튜닝에 대한 강조가 덜하여 일반적으로 더 큰 Qwen 모델보다 낮은 점수를 기록합니다.

LMEval (Language Model Evaluation Toolkit)

현재 세부 사항이 많지 않습니다:

  • Qwen3 모델은 LMEval 내의 추론 및 코드 관련 작업에서 상당한 개선을 보여주며, 논리, 수학 추론 및 일반 기능에서 향상된 점수를 기록합니다.
  • GPT-OSS:20b는 LMEval에서 강력한 기준 성능을 제공하지만, 고급 추론 및 지시 순응 하위 작업에서는 일반적으로 Qwen3:30b-instruct보다 뒤처집니다.

HumanEval (Code Generation Benchmark)

데이터가 많지 않습니다. 요약하면:

  • Qwen3:30b-instruct는 HumanEval-XL과 같은 다국어 코드 생성 벤치마크에서 강력한 성능을 보여주며, 20개 이상의 프로그래밍 언어를 지원하고 뛰어난 교차 언어 코드 생성 정확도를 제공합니다.
  • GPT-OSS:20b는 경쟁력이 있지만, 광범위한 다국어 훈련이 부족하여 HumanEval 벤치마크, 특히 다국어 및 다중 언어 프로그래밍 컨텍스트에서 Qwen3:30b-instruct보다 다소 낮은 성능을 보입니다.

요약 테이블 (문헌에서의 근사적인 추세를 바탕으로 함):

벤치마크 Qwen3:30b-instruct GPT-OSS:20b 참고
MMLU 정확도 ~89-91% ~80-85% Qwen3가 광범위한 지식과 추론에서 더 강함
LMEval 점수 높음, 고급 추론 및 코드 보통, 기준 추론 Qwen3가 수학 및 논리에서 우수함
HumanEval 높은 다국어 코드 생성 성능 보통 Qwen3가 교차 언어 코드 생성에서 더 우수함

정확한 벤치마크 숫자가 필요한 경우, 최근 연구 논문에서 언급된 P-MMEval 및 HumanEval-XL과 같은 전문 다국어 대규모 벤치마크가 Qwen3 및 비교 가능한 GPT-OSS 변형 모델에 대한 자세한 점수를 제공하지만, 이러한 점수는 현재 공개적으로 나란히 비교하여 검색할 수 있도록 스트림라이닝(streamlined)되어 있지 않습니다.

Qwen3:30b 및 GPT-OSS:20b 속도 비교

제 하드웨어(VRAM 16GB)에서 Qwen3:30bGPT-OSS:20b4000 컨텍스트 창을 사용하여 실행되었으며, 그 결과 다음과 같습니다:

  • qwen3:30b-a3b => 45.68 토큰/초
  • gpt-oss:20b => 129.52 토큰/초

비교를 위해 qwen3:14b와 gpt-oss:120b도 테스트했습니다.

  • qwen3:14b => 60.12 토큰/초
  • gpt-oss:120b => 12.87 토큰/초

더 긴 컨텍스트 창에서는 속도가 느려지며, qwen3:30b-a3b의 경우 아마도 훨씬 더 느려질 것입니다. 다시 한번 강조하되, 이는 제 PC에서의 결과입니다. verbose 출력에서 가져온 기술적 세부 사항과 할당된 메모리는 아래에 있으며, 시도해 볼 명령어는 다음과 같습니다:

  • ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
  • ollama ps 4K 컨텍스트에서의 메모리 할당 표시

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutes from now
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutes from now    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutes from now
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Qwen3:30b 변형 모델

qwen3:30b 모델에는 세 가지 변형이 있습니다: qwen3:30b, qwen3:30b-instruct 및 qwen3:30b-thinking.

주요 차이점 및 권장 사항

  • qwen3:30b-instruct는 사용자 지시, 명확성 및 자연스러운 대화가 우선되는 대화에 가장 적합합니다.
  • qwen3:30b는 일반적인 기반 모델로, 다양한 작업 전반에서 지시 순응과 도구 사용 모두 중요한 경우에 적합합니다.
  • qwen3:30b-thinking은 심층 추론, 수학 및 코딩이 주요 초점일 때 뛰어난 성능을 보입니다. 논리적/수학적 엄밀성을 측정하는 작업에서 다른 모델을 능가하지만, 창의적 글쓰기나 일상적인 대화에서는 반드시 더 나은 것은 아닙니다.

직접 벤치마크 비교

모델 추론 (AIME25) 코딩 (LiveCodeBench) 일반 지식 (MMLU Redux) 속도 및 컨텍스트 이상적인 사용 사례
qwen3:30b 70.9 57.4 89.5 256K 토큰; 빠름 일반 언어/에이전트/다국어
qwen3:30b-instruct N/A (30b와 비슷할 것으로 예상) N/A ~30b와 동일 256K 토큰 지시 순응, 정렬
qwen3:30b-thinking 85.0 66.0 91.4 256K 토큰 수학, 코드, 추론, 긴 문서

더 많은 벤치마크, 하드웨어 선택 및 성능 튜닝에 대해서는 LLM 성능: 벤치마크, 병목 현상 및 최적화 허브를 확인하세요.

유용한 링크

구독하기

시스템, 인프라, AI 엔지니어링에 관한 새 글을 받아보세요.