Qwen 3.6 27B et 35B MTP par rapport au standard sur GPU 16 Go
MTP vs décodage standard sur RTX 4080 — benchmarks réels
J’ai testé les performances de la décodage spéculatif (Multi-Token Prediction, MTP) sur les modèles Qwen 3.6 27B et 35B avec une RTX 4080 dotée de 16 Go de VRAM.