Performance des LLM et voies PCIe : Points clés à considérer

Pensez-vous à installer une deuxième carte graphique pour les LLM ?

Sommaire

Comment les canaux PCIe affectent les performances des LLM ? Selon la tâche. Pour l’entraînement et l’inférence multi-GPU, la baisse de performance est significative.

Pour plus d’informations sur le débit, la latence, la VRAM et les benchmarks sur différents runtimes et matériels, consultez Performances des LLM : Benchmarks, Bottlenecks & Optimisation.

Pour un GPU unique, une fois que le LLM est chargé en VRAM, presque aucune différence n’est constatée.

“Mémoire mère avec de nombreux canaux PCIe” Cette image est générée automatiquement avec Flux - LLM texte vers image .

  • Chargement du modèle : Le nombre de canaux PCIe influence principalement la vitesse à laquelle les poids du modèle sont transférés depuis la RAM système vers la VRAM du GPU. Plus il y a de canaux (par exemple, x16), plus les transferts sont rapides, réduisant ainsi les temps de chargement initiaux. Une fois que le modèle est chargé en mémoire du GPU, la vitesse d’inférence n’est pas grandement affectée par la bande passante PCIe, sauf si le modèle ou les données doivent être fréquemment transférés entre la VRAM et la RAM.

  • Vitesse d’inférence : Pour les tâches d’inférence typiques des LLM, le nombre de canaux PCIe a peu d’effet après le chargement du modèle, car le calcul se fait à l’intérieur du GPU. Seulement lorsque les résultats ou les données intermédiaires doivent être fréquemment transférés vers le CPU ou entre les GPU, la bande passante PCIe devient un goulot d’étranglement.

  • Entraînement et configurations multi-GPU : Pour l’entraînement, particulièrement avec plusieurs GPU, la bande passante PCIe devient plus critique. Les nombres de canaux plus faibles (par exemple, x4) peuvent considérablement ralentir l’entraînement en raison de la communication inter-GPU accrue et du mélange des données. Pour de meilleurs résultats, au moins x8 canaux par GPU sont recommandés dans les configurations multi-GPU.

Comparaison des performances : canaux PCIe et interconnexions GPU

Configuration Impact sur l’inférence LLM Impact sur l’entraînement LLM Notes importantes
PCIe x16 par GPU Temps de chargement les plus rapides, idéal pour les grands modèles Meilleur pour l’entraînement multi-GPU Norme pour les stations de travail et serveurs de haut de gamme
PCIe x8 par GPU Légèrement plus lent au chargement, baisse négligeable de l’inférence Acceptable pour les configurations multi-GPU Légère perte de performance, particulièrement dans les configurations 2-4 GPU
PCIe x4 par GPU Charge nettement plus lente, impact mineur sur l’inférence Ralentissement significatif de l’entraînement Non recommandé pour l’entraînement, mais fonctionne pour l’inférence mono-GPU
SXM/NVLink (ex. H100) Communications inter-GPU beaucoup plus rapides, jusqu’à 2,6x plus rapide l’inférence vs PCIe Supérieur pour l’entraînement à grande échelle Idéal pour les LLM d’entreprise, permet l’unification des GPU
  • SXM vs PCIe : Le format SXM de NVIDIA (avec NVLink) fournit une bande passante inter-GPU bien plus élevée que PCIe. Par exemple, les GPU H100 SXM5 offrent jusqu’à 2,6x plus rapide l’inférence LLM que les GPU H100 PCIe, particulièrement dans les configurations multi-GPU. Cela est crucial pour les grands modèles et les charges de travail distribuées.
  • Génération PCIe : Passer de PCIe 3.0 à PCIe 4.0 ou 5.0 fournit plus de bande passante, mais pour la plupart des petites configurations ou des inférences LLM mono-GPU, le bénéfice pratique est minime. Pour les grands clusters ou les entraînements multi-GPU lourds, les générations plus élevées de PCIe aident à la parallélisation et au transfert de données.

Recommandations pratiques

  • Inférence LLM mono-GPU : Le nombre de canaux PCIe n’est pas un goulot d’étranglement majeur après le chargement du modèle. Les canaux x4 sont généralement suffisants, bien que x8 ou x16 réduiront les temps de chargement.
  • Inférence/entraînement multi-GPU : Préférez x8 ou x16 canaux par GPU. Les nombres de canaux plus faibles peuvent limiter la communication inter-GPU, ralentissant à la fois l’entraînement et l’inférence à grande échelle.
  • Échelle d’entreprise/recherche : Pour les plus grands modèles et les performances les plus rapides, les systèmes basés sur SXM/NVLink (ex. DGX, HGX) sont supérieurs, permettant un échange de données beaucoup plus rapide entre les GPU et un débit plus élevé.

“Faire fonctionner les GPU sur 4x canaux est acceptable, particulièrement si vous n’avez que 2 GPU. Pour une configuration de 4 GPU, je préférerais 8x canaux par GPU, mais faire fonctionner les GPU à 4x canaux ne réduira probablement la performance que d’environ 5 à 10 % si vous les parallélisez sur tous les 4 GPU.”

Résumé

  • Le nombre de canaux PCIe affecte principalement le chargement du modèle et la communication inter-GPU, pas la vitesse d’inférence après le chargement du modèle.
  • Pour la plupart des utilisateurs effectuant une inférence LLM sur un seul GPU, le nombre de canaux n’est pas une préoccupation majeure.
  • Pour l’entraînement ou les charges de travail multi-GPU, plus de canaux (x8/x16) et des interconnexions à bande passante élevée (NVLink/SXM) offrent des gains de performance substantiels.

Pour plus de benchmarks, de choix de matériel et d’optimisation des performances, consultez notre Performances des LLM : Benchmarks, Bottlenecks & Optimisation.

Liens utiles