MTP 추론 해독이 모든 LLM 모델을 동일하게 가속화합니까?

아니요. MTP는 Qwen 3.6 35B-A3B와 같은 MoE(전문가 혼합) 모델에서 가장 효과적입니다. 이는 희소 구조가 MTP 헤드의 연산 비용을 낮게 유지하기 때문입니다. 반면 Qwen 3.6 27B와 같은 Dense 모델의 경우 성능 향상폭이 작고, 추가적인 VRAM 사용으로 인해 사용 가능한 컨텍스트 윈도우가 현저히 감소합니다.

MTP 활성화 시 GPU에 추가되는 VRAM 오버헤드는 얼마인가요?

MTP 예측 헤드는 모델 크기에 따라 약 1~2GB의 VRAM을 추가로 사용합니다. 16GB 메모리 카드의 경우 사용 가능한 KV 캐시 용량이 줄어들어 최대 컨텍스트 윈도우 길이가 단축됩니다.

llama.cpp에서 MTP가 각 단계마다 예측하는 추정 토큰(speculative tokens)의 수를 제어하는 매개변수는 무엇인가요?

–spec-draft-n-max 플래그는 단계별 최대 초안 토큰 수를 설정합니다. 16GB GPU의 경우 2가 실용적인 최적치로, 이보다 높은 값은 비례하는 속도 향상 없이 VRAM 부담만 증가시킵니다.

Qwen 3.6 35B MTP는 16GB GPU에서 구동 가능한가요?

네, IQ3_S와 같은 강력한 양자화를 사용하면 적합하지만, MTP 헤드가 VRAM을 차지하여 q8 KV 캐시에서의 사용 가능한 컨텍스트를 약 10~15K 토큰으로 축소시킵니다. 이는 대부분의 작업에 있어 실용적으로 너무 짧습니다.

16GB 소비자용 GPU에서 MTP와 가장 잘 맞는 KV 캐시 양자화 조합은 무엇인가요?

q5 KV 캐시는 좋은 균형을 제공합니다. 충분한 VRAM을 확보하여 더 긴 컨텍스트 윈도우를 복원하면서도 생성 속도를 표준 디코딩 처리량보다 훨씬 높게 유지합니다.

16GB GPU에서 Qwen 3.6 27B 및 35B MTP와 표준 모델 비교

RTX 4080에서의 MTP 대 표준 디코딩 — 실제 벤치마크

Page content

RTX 4080(16 GB VRAM) 환경에서 Qwen 3.6 27B 및 35B 모델의 추측 해독(Speculative decoding, 다중 토큰 예측(MTP)) 성능을 테스트했습니다.

동일 하드웨어에서 더 많은 모델에 대한 토큰 속도 및 VRAM 트레이드오프의 광범위한 뷰를 보려면 16 GB VRAM LLM 벤치마크로 llama.cpp 비교를 참조하세요.

RTX 4080에서 Qwen 3.6 MTP 대 표준 해독 벤치마크

MTP(Multi-Token Prediction, 다중 토큰 예측)란 무엇인가

다중 토큰 예측(Multi-Token Prediction)은 특정 모델 체크포인트에 직접 내장된 형태의 추측 해독입니다. 모델은 순방향 패스당 하나의 토큰을 예측하는 대신, 여러 개의 미래 토큰을 단일 단계에서 제안하는 추가 “MTP 헤드"를 가지고 있으며, 이후 이를 병렬로 검증합니다. 추측이 수락되면 출력 품질을 변경하지 않고도 실제 처리량이 증가합니다.

Qwen 3.6 제품군은 표준 GGUF 파일과 MTP 활성화 변형 버전을 모두 제공합니다. llama.cpp에서는 다음을 통해 MTP를 활성화합니다.

--spec-type draft-mtp --spec-draft-n-max 3

--spec-draft-n-max가 핵심 튜닝 파라미터입니다. 이는 MTP 헤드가 각 단계에서 몇 개의 추측 토큰을 제안할지를 설정합니다. 값이 높으면 잠재적인 속도 향상을 제공하지만, 16 GB 카드에서는 드래프트 버퍼에 추가 VRAM이 소비되는 실제 제약 사항이 됩니다.

무엇을 어떻게 테스트했는가

16 GB VRAM(GPU, RTX 4080) 환경에서 두 Qwen 3.6 모델이 MTP 활성화 시와 표준 해독 시 어떻게 동작하는지 테스트했습니다.

모델 가중치와 KV 캐시를 VRAM에 맞추기 위해 다음과 같이 심하게 양자화된 변형 버전을 사용했습니다.

Qwen3.6-27B-UD-IQ3_XXS 및 Qwen3.6-27B-UD-IQ3_XXS-MTP
Qwen3.6-35B-A3B-UD-IQ3_S 및 Qwen3.6-35B-A3B-UD-IQ3_S-MTP

각 실행 시 두 가지 컨텍스트 예산이 추적됩니다.

Avg Ctx(평균 컨텍스트) — llama.cpp가 약 14.8 GB VRAM을 점유하여 다른 애플리케이션(Xorg, GNOME Shell, Cursor)에 약 500 MB의 여유 버퍼를 남기는 컨텍스트 크기.
Max Ctx(최대 컨텍스트) — 동일한 데스크톱 애플리케이션이 이미 약 500 MB VRAM을 점유하고 있는 상태에서 llama.cpp가 할당할 수 있는 최대 컨텍스트.

평균 컨텍스트를 실용적인 목표로 유지하는 주요 이유는 이 머신에서 llama.cpp에 연결하는 주요 AI 어시스턴트로 사용하는 Hermes Agent가 기본적으로 최소 64 K 컨텍스트를 필요로 하며, 더 작은 윈도우를 가진 모델은 시작 시 거부하기 때문입니다. 그 임계값 이하의 모델은 다단계 도구 호출 워크플로우에 필요한 작업 메모리를 유지할 수 없습니다. llama.cpp의 경우 --ctx-size 65536 이상을 전달해야 합니다. 따라서 평균 사용 가능 컨텍스트가 64 K보다 현저히 낮아지는 MTP 구성은 일상적인 Hermes 워크로드에 적합하지 않으므로, 아래 테이블의 Avg Ctx 숫자가 가장 결정적인 참고 사항입니다.

두 가지 KV 캐시 양자화 수준을 테스트했습니다: q8(높은 품질, 더 많은 VRAM) 및 q5(낮은 VRAM, 더 긴 컨텍스트). q8에서 q5 KV 캐시로 전환하면 품질이 현저히 떨어질 수 있다는 점을 유의하세요. 제 테스트에서는 q5가 제 워크로드에 부적합할 정도로 성능 저하가 컸습니다. q5의 속도와 컨텍스트 숫자는 완전성을 위해 포함되었지만, 이를 확정하기 전에 자신의 작업에서 응답 품질을 테스트해야 합니다.

Qwen 3.6 27B MTP 대 표준

KV 캐시 q8

	MTP max 1	MTP max 2	MTP max 3	MTP max 4	표준(IQ3_XXS)
프롬프트 속도	148 t/s	151 t/s	148 t/s	147 t/s	200 t/s
생성 속도	65 t/s	75 t/s	73 t/s	75 t/s	45 t/s
Avg Ctx	40 K	40 K	40 K	30 K	80 K
Max Ctx	60 K	60 K	60 K	50 K	100 K

q8 KV 캐시에서 --spec-draft-n-max 2 설정의 MTP는 평균 컨텍스트 윈도우가 80 K에서 40 K로 절반으로 줄어드는 대가로 생성 속도가 약 67 % 더 빠릅니다(75 대 45 t/s). MTP는 프리필(preprefill) 단계 동안 디바이스-호스트 전송이 필요하므로 프롬프트 인제스트 속도는 200 t/s에서 약 150 t/s로 감소합니다.

KV 캐시 q5

	MTP max 1	MTP max 2	MTP max 3	MTP max 4	표준(IQ3_XXS)
프롬프트 속도	145 t/s	144 t/s	141 t/s	139 t/s	191 t/s
생성 속도	57 t/s	62 t/s	67 t/s	66 t/s	41 t/s
Avg Ctx	70 K	60 K	60 K	50 K	130 K
Max Ctx	100 K	100 K	90 K	80 K	160 K

q5 KV 캐시로 전환하면 의미 있는 컨텍스트가 복원됩니다. --spec-draft-n-max 1은 57 t/s에서 70 K의 평균 컨텍스트를 제공하며, 이는 컨텍스트 윈도우를 유용한 크기로 유지하면서 표준 해독 대비 39 %의 생성 속도 향상을 의미합니다. --spec-draft-n-max 3에서는 컨텍스트가 60 K로 감소하지만 생성 속도가 67 t/s(+63 %)에 도달합니다.

Qwen 3.6 27B 요약

MTP는 27B 밀집형 모델에 실제로 유용합니다. 16 GB VRAM에서의 최적점은 다음과 같습니다.

q8 KV + --spec-draft-n-max 2 — 최고의 원시 속도(75 t/s), 컨텍스트가 40–60 K로 감소
q5 KV + --spec-draft-n-max 1 — 최고의 속도-컨텍스트 균형(57 t/s, 70 K 평균 컨텍스트)

Qwen 3.6 35B MTP 대 표준

35B 모델은 혼합 전문가(Mixture-of-Experts, MoE) 아키텍처(35B-A3B는 총 35B 파라미터, 토큰당 약 3B 활성)입니다. MoE 모델은 희소 라우팅이 전체 순방향 패스에 비해 MTP 헤드를 계산적으로 저렴하게 유지하므로 일반적으로 MTP에서 더 많은 혜택을 받습니다.

KV 캐시 q8

	MTP max 1	MTP max 2	MTP max 3	MTP max 4	표준(IQ3_S)
프롬프트 속도	277 t/s	277 t/s	265 t/s	275 t/s	368 t/s
생성 속도	186 t/s	189 t/s	180 t/s	171 t/s	146 t/s
Avg Ctx	15 K	10 K	—	—	80 K
Max Ctx	80 K	70 K	60 K	50 K	150 K

MoE 아키텍처는 MTP와 함께 인상적인 원시 생성 속도를 제공합니다(max 1에서 +27 %, max 2에서 +29 %, 표준 146 t/s 대비). 그러나 실용적인 문제는 평균 컨텍스트입니다. q8 KV 캐시에서 --spec-draft-n-max 1조차 15 K의 평균 컨텍스트만 제공하여, 약한 작업에는 겨우 충분한 수준입니다. 더 높은 드래프트 깊이는 16 GB 카드에서는 전혀 사용 가능한 평균 컨텍스트가 없습니다.

이는 소비자 하드웨어에서 MTP를 위한 핵심 VRAM 비용 문제입니다. 추가 드래프트 버퍼가 남은 VRAM 예산을 직접적으로 잠식하며, q8 KV 캐시를 사용하는 35B-A3B 모델은 매우 적은 여유 공간을 남깁니다.

KV 캐시 q5

	MTP max 1	MTP max 2	MTP max 3	MTP max 4	표준(IQ3_S)
프롬프트 속도	264 t/s	266 t/s	270 t/s	264 t/s	343 t/s
생성 속도	151 t/s	147 t/s	137 t/s	131 t/s	122 t/s
Avg Ctx	10 K	—	—	—	120 K
Max Ctx	120 K	110 K	110 K	80 K	200 K

q5 KV 캐시는 평균 컨텍스트 상황을 약간만 개선합니다. --spec-draft-n-max 1은 151 t/s에서 10 K의 평균 컨텍스트를 제공합니다. q5에서의 표준 해독은 122 t/s로 120 K의 평균 컨텍스트를 제공합니다.

Qwen 3.6 35B 요약

16 GB GPU에서 35B MoE 모델의 MTP는 심각한 벽에 부딪힙니다. 사용 가능한 평균 컨텍스트가 10–15 K 토큰으로 붕괴되어 실제 워크로드에 실용적이지 않습니다. 80–120 K 컨텍스트를 가진 122–146 t/s의 표준 해독이 실제 작업에 훨씬 더 유용합니다.

24 GB 이상의 VRAM이 있다면 35B + MTP 조합이 훨씬 매력적이 됩니다. 컨텍스트 윈도우 문제가 사라지고 속도 이점을 유지할 수 있기 때문입니다.

올바른 `--spec-draft-n-max` 값 선택하기

단계별로 제안할 추측 토큰 수(--spec-draft-n-max)에 대한 질문에는 단일 정답이 없습니다. 이는 모델 아키텍처와 사용 가능한 VRAM 모두에 달려 있습니다.

16 GB의 27B 밀집형의 경우: q8 KV와 함께 --spec-draft-n-max 2가 가장 빠르고, q5 KV와 함께 --spec-draft-n-max 1이 컨텍스트에 가장 친화적입니다.
16 GB의 35B MoE의 경우: --spec-draft-n-max 1이 유일한 옵션이며, 그나마도 겨우 사용 가능한 컨텍스트를 유지합니다.
더 높은 값(3, 4)은 비례하는 속도 향상 없이 VRAM 압력을 증가시킵니다. max 4에서는 max 2와 거의 같은 추가 VRAM을 사용하지만 생성 속도가 따라가지 못합니다.

llama.cpp에서 MTP 활성화 방법

MTP 활성화 GGUF(파일명에 MTP 포함)를 사용하고 있는지 확인하세요. llama.cpp 플래그에 익숙하지 않다면 llama.cpp CLI 및 서버로 빠른 시작에서 모든 기본 사항을 다룹니다. 그런 다음 다음과 함께 llama-server 또는 llama-cli를 실행합니다.

llama-server \
  --model Qwen3.6-27B-UD-IQ3_XXS-MTP.gguf \
  --ctx-size 40000 \
  -ngl 99 --flash-attn on \
  --cache-type-k q8_0 --cache-type-v q8_0 \
  --spec-type draft-mtp \
  --spec-draft-n-max 2

q5 KV 캐시의 경우 q8_0을 q5_1 또는 q5_0로 교체하고 --ctx-size를 높여 조정합니다.

llama-server \
  --model Qwen3.6-27B-UD-IQ3_XXS-MTP.gguf \
  --ctx-size 80000 \
  -ngl 99 --flash-attn on \
  --cache-type-k q5_1 --cache-type-v q5_1 \
  --spec-type draft-mtp \
  --spec-draft-n-max 1

llama.cpp가 GGUF 파일에서 MTP 헤드를 감지하고 --spec-type draft-mtp가 설정되면 MTP가 자동으로 활성화됩니다. 따라서 표준 Qwen3.6-27B-UD-IQ3_XXS.gguf는 MTP 모드에서 작동하지 않으며, Qwen3.6-27B-UD-IQ3_XXS-MTP.gguf가 필요합니다. 하지만 Qwen3.6-27B-UD-IQ3_XXS-MTP.gguf는 추측 해독 모드와 자기회귀(Autoregressive) 모드 모두에서 작동할 수 있습니다.

결론

16 GB GPU(RTX 4080)와 이러한 양자화 수준에서 llama.cpp의 MTP는 실용적인 사용에서 Qwen 3.6 27B에게는 명확한 승리이고 Qwen 3.6 35B에게는 순손실(net negative)입니다.

Qwen 3.6 27B (IQ3_XXS) — MTP가 worthwhile(가치 있음):

q8 KV + MTP max 2 → 생성 속도 약 67 % 향상, 컨텍스트 40–60 K(MTP 없음 시 80–100 K 대비)
q5 KV + MTP max 1 → 생성 속도 약 39 % 향상, 컨텍스트 70–100 K(MTP 없음 시 130–160 K 대비)
--spec-draft-n-max 2에서 속도와 VRAM 효율성의 좋은 균형

Qwen 3.6 35B (IQ3_S) — 16 GB에서 MTP가 실용적이지 않음:

생성 속도는 27–29 % 높지만 평균 컨텍스트가 q8에서 10–15 K, q5에서 10 K로 붕괴
80–120 K 컨텍스트를 가진 122–146 t/s의 표준 해독이 실제 작업에 더 유용
24 GB 이상의 VRAM에서 상황이 현저히 개선됨

종이 위에서 q5 KV 캐시는 컨텍스트 윈도우를 최대화하면서 MTP 속도 이점을 유지하는 명확한 해결책처럼 보이지만, 실제로 q8에서 q5로 이동할 때의 품질 저하는 상당히 클 수 있습니다. 채택하기 전에 자신의 작업에서 q5를 테스트하십시오. 제 워크로드에서는 저하가 수용 불가능했으며, 더 빡빡한 컨텍스트 예산과 함께 q8이 여전히 더 나은 트레이드오프였습니다.

LLM 호스팅 옵션과 인프라 트레이드오프의 더 넓은 그림을 보려면 2026년 LLM 호스팅 pilar와 2026년 LLM 성능를 참조하세요. MTP와 함께 Qwen 3.6 샘플러 설정을 튜닝 중이라면, Qwen 3.6 및 Gemma 4용 에이전틱 LLM 추론 파라미터 참조가 유용한 동반 자료입니다.

MTP(Multi-Token Prediction, 다중 토큰 예측)란 무엇인가

무엇을 어떻게 테스트했는가

Qwen 3.6 27B MTP 대 표준

KV 캐시 q8

KV 캐시 q5

Qwen 3.6 27B 요약

Qwen 3.6 35B MTP 대 표준

KV 캐시 q8

KV 캐시 q5

Qwen 3.6 35B 요약

올바른 --spec-draft-n-max 값 선택하기

llama.cpp에서 MTP 활성화 방법

결론

구독하기

올바른 `--spec-draft-n-max` 값 선택하기