Qwen 3.6 27B i 35B MTP w porównaniu do standardowych modeli na GPU z 16 GB
MTP w porównaniu do standardowego dekodowania na RTX 4080 — rzeczywiste benchmarki
Przetestowałem wydajność spekulacyjnego dekodowania (Wieloznakowego Przewidywania, MTP) w modelach Qwen 3.6 27B i 35B na karcie RTX 4080 z 16 GB pamięci VRAM.