Comment les voies PCIe affectent les performances des modèles de langage de grande envergure ?

Un faible nombre de voies PCIe ralentit le temps de chargement des modèles de langage de grande envergure (LLM), l’inférence multi-modèle et l’entraînement. Les voies PCIe n’ont aucun effet sur le temps d’inférence du modèle si tous les données tiennent dans la mémoire GPU.

Performance des LLM et lanes PCIe : considérations clés

Pensez-vous à installer une deuxième carte graphique pour les LLM ?

Sommaire

Comment les voies PCIe affectent les performances des LLM ? Selon la tâche. Pour l’entraînement et l’inférence multi-GPU, la baisse de performance est significative.

Pour l’inférence à un seul GPU, une fois que le LLM est déjà en VRAM, il y a presque aucune différence.

“Motherboard with many PCI lanes” Cette image est générée automatiquement avec Flux - text to image LLM .

Chargement du modèle : Le nombre de voies PCIe influence principalement la vitesse à laquelle les poids du modèle sont chargés depuis la RAM du système vers la VRAM du GPU. Plus il y a de voies (par exemple, x16), plus les transferts sont rapides, réduisant ainsi les temps de chargement initiaux. Une fois que le modèle est chargé en mémoire GPU, la vitesse d’inférence n’est presque pas affectée par la bande passante PCIe, sauf si le modèle ou les données doivent être fréquemment transférés vers et depuis la VRAM.
Vitesse d’inférence : Pour les tâches d’inférence typiques des LLM, le nombre de voies PCIe a peu d’effet après le chargement du modèle, car les calculs ont lieu directement sur le GPU. Seule la bande passante PCIe devient un goulot d’étranglement lorsque les résultats ou les données intermédiaires doivent être fréquemment transférés vers le CPU ou entre les GPU.
Entraînement et configurations multi-GPU : Pour l’entraînement, particulièrement avec plusieurs GPU, la bande passante PCIe devient plus critique. Un nombre de voies plus faible (par exemple, x4) peut ralentir significativement l’entraînement en raison de la communication accrue entre les GPU et du mélange des données. Pour de meilleurs résultats, il est recommandé d’avoir au moins x8 voies par GPU dans les systèmes multi-GPU.

Comparaison des performances : voies PCIe et interconnexions GPU

Configuration	Impact sur l’inférence LLM	Impact sur l’entraînement LLM	Notes importantes
PCIe x16 par GPU	Temps de chargement les plus rapides, optimal pour les grands modèles	Meilleur pour l’entraînement multi-GPU	Norme pour les stations de travail et serveurs haut de gamme
PCIe x8 par GPU	Un peu plus lent au chargement, perte d’inférence négligeable	Acceptable pour l’entraînement multi-GPU	Perte de performance mineure, particulièrement dans les configurations 2-4 GPU
PCIe x4 par GPU	Chargement nettement plus lent, impact mineur sur l’inférence	Ralentissement significatif de l’entraînement	Non recommandé pour l’entraînement, mais fonctionne pour l’inférence à un seul GPU
SXM/NVLink (par exemple, H100)	Communication inter-GPU bien plus rapide, jusqu’à 2,6 fois plus rapide pour l’inférence LLM par rapport au PCIe	Supérieur pour l’entraînement à grande échelle	Idéal pour les LLM d’entreprise, permet l’unification des GPU

SXM vs PCIe : Le format SXM de NVIDIA (avec NVLink) offre une bande passante inter-GPU nettement plus élevée que PCIe. Par exemple, les GPU H100 SXM5 offrent jusqu’à 2,6 fois plus de vitesse d’inférence LLM que les H100 PCIe, particulièrement dans les configurations multi-GPU. Cela est crucial pour les grands modèles et les charges de travail distribuées.
Génération PCIe : Passer du PCIe 3.0 au PCIe 4.0 ou 5.0 offre plus de bande passante, mais pour la plupart des petites configurations ou des inférences LLM à un seul GPU, le bénéfice pratique est minime. Pour les grands clusters ou l’entraînement multi-GPU intensif, les générations plus récentes de PCIe aident à la parallélisation et aux transferts de données.

Recommandations pratiques

Inférence LLM à un seul GPU : Le nombre de voies PCIe n’est pas un goulot d’étranglement majeur après le chargement du modèle. Les x4 voies sont généralement suffisantes, bien que les x8 ou x16 réduisent les temps de chargement.
Inférence/entraînement multi-GPU : Privilégiez les x8 ou x16 voies par GPU. Les faibles nombres de voies peuvent limiter la communication inter-GPU, ralentissant à la fois l’entraînement et l’inférence à grande échelle.
Échelle d’entreprise/recherche : Pour les plus grands modèles et les performances les plus rapides, les systèmes basés sur SXM/NVLink (par exemple, DGX, HGX) sont supérieurs, permettant un échange de données bien plus rapide entre les GPU et une plus grande bande passante.

“Faire fonctionner les GPU sur 4 voies est acceptable, surtout si vous n’avez que 2 GPU. Pour une configuration de 4 GPU, je préférerais 8 voies par GPU, mais faire fonctionner les GPU à 4 voies ne réduira probablement la performance que de 5 à 10 % si vous les parallélisez sur tous les 4 GPU.”

Résumé

Le nombre de voies PCIe affecte principalement le chargement du modèle et la communication inter-GPU, pas la vitesse d’inférence après le chargement du modèle.
Pour la plupart des utilisateurs effectuant une inférence LLM sur un seul GPU, le nombre de voies n’est pas une préoccupation majeure.
Pour l’entraînement ou les charges de travail multi-GPU, plus de voies (x8/x16) et des interconnexions à bande passante élevée (NVLink/SXM) offrent des gains de performance importants.

Comparaison des performances : voies PCIe et interconnexions GPU

Recommandations pratiques

Résumé

Liens utiles