LLM-prestanda och PCIe-lan: Viktiga överväganden

Tänker du på att installera en andra GPU för LLM:er?

Sidinnehåll

Hur påverkar PCIe-laner LLM-prestanda? Beroende på uppgiften. För träning och fler-GPU-inferens – prestandaförändringen är betydande.

För mer information om genomströmning, latens, VRAM och jämförelser mellan olika körningar och hårdvara, se LLM-prestanda: Benchmarks, fläckar och optimering.

För en enda GPU, när LLM redan är i VRAM – nästan ingen skillnad.

“Motherboard med många PCI-laner” Detta bild är automatgenererad med Flux - text till bild LLM .

  • Modellladdning: Antalet PCIe-laner påverkar främst hastigheten där modellviktarna laddas från systemets RAM till GPU:s VRAM. Mer laner (t.ex. x16) möjliggör snabbare överföringar och minskar initiala laddtider. När modellen är laddad in i GPU-minnet påverkar PCIe-bandbredden inte inferenshastigheten mycket, om inte modellen eller data måste ofta bytas in och ut ur VRAM.
  • Inferenshastighet: För typiska LLM-inferensuppgifter har antalet PCIe-laner minimal effekt efter att modellen är laddad, eftersom beräkningar sker inom GPU:n. Endast när resultat eller mellanlagrade data måste ofta överföras tillbaka till CPU:n eller mellan GPU:er blir PCIe-bandbredden en fläck.
  • Träning och fler-GPU-konfigurationer: För träning, särskilt med flera GPU:er, blir PCIe-bandbredden mer kritisk. Lägre antal laner (t.ex. x4) kan avsevärt försämra träningstiden på grund av ökad kommunikation mellan GPU:er och dataomkastning. För bästa resultat rekommenderas minst x8 laner per GPU i fler-GPU-system.

Prestandajämförelse: PCIe-laner och GPU-anslutningar

Konfiguration Påverkan på LLM-inferens Påverkan på LLM-träning Viktiga anteckningar
PCIe x16 per GPU Snabbaste laddtider, optimal för stora modeller Bästa för fler-GPU-träning Standard för högprestanda arbetsstationer och servrar
PCIe x8 per GPU Lätt långsammare laddning, obetydlig inferensminskning Acceptabel för fler-GPU-träning Liten prestandaförsämring, särskilt i 2-4 GPU-konfigurationer
PCIe x4 per GPU Tydligt långsammare laddning, liten inferenspåverkan Avsevärt långsammare träning Ej rekommenderat för träning, men fungerar för enkel-GPU-inferens
SXM/NVLink (t.ex. H100) Mycket snabbare inter-GPU-kommunikation, upp till 2,6x snabbare inferens jämfört med PCIe Bättre för storskalig träning Idealisk för företagsnivå LLM:er, möjliggör GPU-ensamhet
  • SXM mot PCIe: NVIDIA:s SXM-formfaktor (med NVLink) ger betydligt högre inter-GPU-bandbredd jämfört med PCIe. Till exempel levererar H100 SXM5-GPU:er upp till 2,6x snabbare LLM-inferens än H100 PCIe, särskilt i fler-GPU-konfigurationer. Detta är avgörande för stora modeller och distribuerade arbetsbelastningar.
  • PCIe-generation: Att uppgradera från PCIe 3.0 till 4.0 eller 5.0 ger mer bandbredd, men för de flesta småskaliga eller enkel-GPU-inferensuppgifter är praktiska fördelarna minimala. För stora kluster eller tunga fler-GPU-träning hjälper högre PCIe-genereringar med parallellisering och dataöverföring.

Praktiska rekommendationer

  • Enkel-GPU-inferens: PCIe-lanantal är inte en stor fläck efter att modellen är laddad. x4-laner är vanligtvis tillräckliga, även om x8 eller x16 minskar laddtiden.
  • Fler-GPU-inferens/träning: Föredra x8 eller x16 laner per GPU. Lägre lanantal kan fläcka inter-GPU-kommunikation och minska både träning och storskalig inferens.
  • Företags- och forskningsnivå: För de största modellerna och snabbaste prestandan är SXM/NVLink-baserade system (t.ex. DGX, HGX) överlägsna, eftersom de möjliggör mycket snabbare dataöverföring mellan GPU:er och högre genomströmning.

“Att driva GPU:er med 4x laner är okej, särskilt om du bara har 2 GPU:er. För en 4 GPU-konfiguration föredrar jag 8x laner per GPU, men att köras på 4x laner kommer sannolikt endast minska prestandan med cirka 5-10% om du parallelliserar över alla 4 GPU:er.”

Sammanfattning

  • Antalet PCIe-laner påverkar främst modellladdning och inter-GPU-kommunikation, inte inferenshastigheten efter att modellen är laddad.
  • För de flesta användare som kör LLM-inferens på en enda GPU är lanantal inte ett stort problem.
  • För träning eller fler-GPU-belastningar ger fler laner (x8/x16) och högre bandbredd (NVLink/SXM) betydande prestandavinstar.

För mer benchmarks, hårdvaruväljningar och prestandaoptimering, se vår LLM-prestanda: Benchmarks, fläckar och optimering.

Några användbara länkar