Spekulativ dekodering: 20–50 % snabbare LLM-inferens
Snabbare LLM-inferens utan kvalitetsförlust – en praktisk guide
Ett modell med 70 miljarder parametrar (70B) genererar en token per framåtriktad passering (forward pass), och vid varje passering laddas vikterna in från VRAM, uppmärksamheten beräknas över kontexten och minnet synkroniseras. Mellan tokenerna sitter GPU:n idle medan den väntar på att sekventiella beroenden ska lösas.