비교: Qwen3:30b vs GPT-OSS:20b
이 두 모델의 속도, 파라미터 및 성능 비교
다음은 Qwen3:30b와 GPT-OSS:20b 사이의 비교입니다. 지시사항 준수 및 성능 파라미터, 사양 및 속도에 초점을 맞추고 있습니다.
추가적으로 처리량, 지연 시간, VRAM, 그리고 실행 환경과 하드웨어에 따른 벤치마크에 대한 자세한 내용은 LLM 성능: 벤치마크, 병목 현상 및 최적화를 참조하세요.

아키텍처 및 파라미터
| 기능 | Qwen3:30b-instruct | GPT-OSS:20b |
|---|---|---|
| 전체 파라미터 | 305억 개 | 210억 개 |
| 활성화된 파라미터 | 약 33억 개 | 약 36억 개 |
| 층 수 | 48 | 24 |
| 층당 MoE 전문가 수 | 128 (토큰당 8개 활성화) | 32 (토큰당 4개 활성화) |
| 주의 메커니즘 | 그룹화된 쿼리 주의 (32Q /4KV) | 그룹화된 다중 쿼리 주의 (64Q /8KV) |
| 컨텍스트 창 | 32,768개(기본); 최대 262,144개 확장 | 128,000개 토큰 |
| 토큰화기 | BPE 기반, 151,936개 어휘 | GPT 기반, 약 200,000개 어휘 |
지시사항 준수
- Qwen3:30b-instruct는 지시사항 준수에 최적화되어 있으며, 인간 선호도와 강하게 일치합니다. 창의적 글쓰기, 역할극, 다중 대화, 다국어 지시사항 준수에 우수합니다. 이 버전은 사용자 지시사항에 따라 더 자연스럽고 제어된, 그리고 흥미로운 응답을 제공하기 위해 특별히 미세 조정되었습니다.
- GPT-OSS:20b는 지시사항 준수를 지원하지만, 일반적으로 Qwen3:30b-instruct보다 세부적인 지시사항 미세 조정에서 약간 뒤처집니다. 비슷한 기능 호출, 구조화된 출력, 추론 모드를 제공하지만, 대화 조정 및 창의적 대화에서는 약간 뒤처질 수 있습니다.
성능 및 효율성
- Qwen3:30b-instruct는 수학적 추론, 코딩, 복잡한 논리 작업, 119개의 언어 및 방언을 포함한 다국어 시나리오에서 우수합니다. “생각” 모드는 추론을 향상시키지만 더 높은 메모리 비용이 따릅니다.
- GPT-OSS:20b는 OpenAI의 o3-mini 모델과 비슷한 성능을 달성합니다. 층 수는 적지만, 층당 더 넓은 전문가를 사용하고, 소비자 하드웨어에서 효율적인 추론을 위해 MXFP4 정량화를 사용합니다. 메모리 요구 사항이 낮고 (~16GB 대 Qwen3의 더 높은 수준)입니다.
- GPT-OSS는 특정 하드웨어 설정, 특히 소비자 GPU에서 약 33% 더 메모리 효율적이며 더 빠르지만, Qwen3는 복잡한 사용 사례에서 더 높은 조정 및 추론 깊이를 제공합니다.
- Qwen3는 GPT-OSS의 128,000개 토큰보다 더 긴 확장된 컨텍스트 길이 옵션(최대 262,144개 토큰)을 제공하여 매우 긴 컨텍스트 이해가 필요한 작업에 유리합니다.
사용 권장 사항
- Qwen3:30b-instruct를 사용해야 할 경우는, 지시사항 준수, 창의적 생성, 다국어 지원, 복잡한 추론이 필요한 경우입니다.
- GPT-OSS:20b를 사용해야 할 경우는, 메모리 효율성, 소비자 하드웨어에서의 추론 속도, 그리고 적은 파라미터 수로 인한 경쟁력 있는 기초 성능이 우선시되는 경우입니다.
이 비교는 Qwen3:30b-instruct를 더 깊고 능력 있는 모델로 보여주며, 고급 지시사항 미세 조정을 제공하는 반면, GPT-OSS:20b는 표준 벤치마크에서 경쟁력 있는 성능을 제공하는 더 작고 효율적인 대안입니다.
Qwen3:30b-instruct와 GPT-OSS:20b 간의 지시사항 준수 및 주요 성능 파라미터(MMLU, LMEval, HumanEval)에 대한 벤치마크 점수는 검색 결과에서 직접적으로 제공되지 않습니다. 그러나 기존 출판된 다국어 및 다태스크 벤치마크 보고서에 따르면:
MMLU (Massive Multitask Language Understanding)
세부 사항은 어렵게 찾을 수 있으며, 다음과 같습니다:
- Qwen3 시리즈 모델, 특히 30B 규모 이상 모델은 일반적으로 57개의 다양한 도메인에서 89% 이상의 MMLU 점수를 보여주며, 매우 경쟁력 있는 지식 이해 및 추론 능력을 나타냅니다.
- GPT-OSS:20b는 MMLU 벤치마크에서도 잘 수행하지만, 더 작은 파라미터 수와 지시사항 미세 조정에 대한 강조가 덜 해서 더 큰 Qwen 모델보다 일반적으로 점수가 낮습니다.
LMEval (Language Model Evaluation Toolkit)
현재는 자세한 정보가 거의 없으며, 다음과 같습니다:
- Qwen3 모델은 LMEval 내에서 추론 및 코드 관련 작업에서 크게 향상된 성능을 보여주며, 논리, 수학 추론, 일반 능력에 대한 점수가 향상되었습니다.
- GPT-OSS:20b는 LMEval에서 견고한 기초 성능을 제공하지만, 고급 추론 및 지시사항 준수 하위 작업에서는 일반적으로 Qwen3:30b-instruct보다 뒤처집니다.
HumanEval (Code Generation Benchmark)
자세한 데이터는 거의 없으며, 다음과 같습니다:
- Qwen3:30b-instruct는 HumanEval-XL과 같은 다국어 코드 생성 벤치마크에서 강력한 성능을 보여주며, 20개 이상의 프로그래밍 언어를 지원하고, 다국어 코드 생성 정확도에서 우수한 성능을 제공합니다.
- GPT-OSS:20b는 경쟁력 있지만, HumanEval 벤치마크에서 Qwen3:30b-instruct보다 다국어 및 다언어 프로그래밍 환경에서 다소 낮은 성능을 보입니다. 이는 더 광범위한 다국어 훈련이 덜 했기 때문입니다.
요약 표 (문헌에서의 추세):
| 벤치마크 | Qwen3:30b-instruct | GPT-OSS:20b | 비고 |
|---|---|---|---|
| MMLU 정확도 | ~89-91% | ~80-85% | Qwen3는 광범위한 지식과 추론에서 우수함 |
| LMEval 점수 | 높음, 고급 추론 및 코드 | 보통, 기초 추론 | Qwen3는 수학 및 논리에서 우수함 |
| HumanEval | 높은 다국어 코드 생성 성능 | 보통 | Qwen3는 다국어 코드 생성에서 우수함 |
정확한 벤치마크 점수가 필요한 경우, 최근 연구 논문에서 언급된 P-MMEval 및 HumanEval-XL과 같은 전문 다국어 대규모 벤치마크는 Qwen3 및 비교 가능한 GPT-OSS 변형 모델에 대한 자세한 점수를 제공하지만, 이들은 현재 직접적인 비교 점수 검색을 위해 공개적으로 정리되지 않았습니다.
Qwen3:30b 및 GPT-OSS:20b 속도 비교
내 하드웨어(16GB VRAM)에서 Qwen3:30b 및 GPT-OSS:20b를 4000 컨텍스트 창으로 실행하고 있으며, 다음과 같은 속도를 얻고 있습니다:
- qwen3:30b-a3b => 45.68 토큰/초
- gpt-oss:20b => 129.52 토큰/초
비교를 위해 qwen3:14b 및 gpt-oss:120b도 테스트했습니다:
- qwen3:14b => 60.12 토큰/초
- gpt-oss:120b => 12.87 토큰/초
더 긴 컨텍스트 창에서는 속도가 느려지며, qwen3:30b-a3b의 경우 매우 느려질 수 있습니다. 이것은 내 PC에서의 결과입니다. 기술 세부 사항은 복잡한 출력 및 할당된 메모리에서 아래와 같습니다. 시도할 명령어는 다음과 같습니다:
- ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
- ollama ps 4K 컨텍스트에서 메모리 할당을 보여줍니다.
qwen3:30b-a3b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-a3b 19e422b02313 20 GB 23%/77% CPU/GPU 4096 4 minutes from now
total duration: 28.151133548s
load duration: 1.980696196s
prompt eval count: 16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate: 98.41 tokens/s
eval count: 1188 token(s)
eval duration: 26.007424856s
eval rate: 45.68 tokens/s
qwen3:30b-thinking
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-thinking ad815644918f 20 GB 23%/77% CPU/GPU 4096 4 minutes from now
total duration: 1m8.317354579s
load duration: 1.984986882s
prompt eval count: 18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate: 81.95 tokens/s
eval count: 2722 token(s)
eval duration: 1m6.11230524s
eval rate: 41.17 tokens/s
gpt-oss:20b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b aa4295ac10c3 14 GB 100% GPU 4096 4 minutes from now
total duration: 31.505397616s
load duration: 13.744361948s
prompt eval count: 75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate: 300.77 tokens/s
eval count: 2268 token(s)
eval duration: 17.510262884s
eval rate: 129.52 tokens/s
qwen3:14b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:14b bdbd181c33f2 10 GB 100% GPU 4096 4 minutes from now
total duration: 36.902729562s
load duration: 38.669074ms
prompt eval count: 18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate: 509.61 tokens/s
eval count: 2214 token(s)
eval duration: 36.828268069s
eval rate: 60.12 tokens/s
gpt-oss:120b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b f7f8e2f8f4e0 65 GB 78%/22% CPU/GPU 4096 2 minutes from now
49GB RAM + 14.4GB VRAM
total duration: 3m59.967272019s
load duration: 76.758783ms
prompt eval count: 75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate: 252.26 tokens/s
eval count: 3084 token(s)
eval duration: 3m59.592764501s
eval rate: 12.87 tokens/s
Qwen3:30b 변형
qwen3:30b 모델에는 세 가지 변형이 있습니다: qwen3:30b, qwen3:30b-instruct 및 qwen3:30b-thinking.
주요 차이점 및 권장 사항
- qwen3:30b-instruct는 사용자 지시사항, 명확성, 자연스러운 대화가 우선시되는 대화에 최적화되어 있습니다.
- qwen3:30b는 일반적인 기초 모델로, 다양한 작업에서 지시사항 준수 및 도구 사용이 모두 중요한 경우에 적합합니다.
- qwen3:30b-thinking은 깊은 추론, 수학, 코딩이 주요 초점인 경우에 우수합니다. 논리/수학적 엄격성을 측정하는 작업에서는 다른 것들보다 우수하지만, 창의적 글쓰기 또는 편안한 대화에서는 필수적으로 더 우수하지는 않습니다.
직접적인 벤치마크 비교
| 모델 | 추론 (AIME25) | 코딩 (LiveCodeBench) | 일반 지식 (MMLU Redux) | 속도 및 컨텍스트 | 이상적인 사용 사례 |
|---|---|---|---|---|---|
| qwen3:30b | 70.9 | 57.4 | 89.5 | 256K 토큰; 빠름 | 일반 언어/에이전트/다국어 |
| qwen3:30b-instruct | N/A (30b 근접) | N/A | ~30b와 동일 | 256K 토큰 | 지시사항 준수, 조정 |
| qwen3:30b-thinking | 85.0 | 66.0 | 91.4 | 256K 토큰 | 수학, 코딩, 추론, 긴 문서 |
더 많은 벤치마크, 하드웨어 선택, 성능 최적화에 대한 정보는 LLM 성능: 벤치마크, 병목 현상 및 최적화 허브를 참조하세요.
유용한 링크
- https://ollama.com/library/qwen3
- https://ollama.com/library/gpt-oss
- https://artificialanalysis.ai/articles/analysis-openai-gpt-oss-models
- https://artificialanalysis.ai/models/qwen3-30b-a3b-2507
- Ollama 설치 및 구성
- Ollama 쉬트 - 가장 유용한 명령어
- 구조화된 출력으로 LLM 제한: Ollama, Qwen3 및 Python 또는 Go
- Ollama와 Python 통합: REST API 및 Python 클라이언트 예제