Performance des LLM et voies PCIe : Points clés à considérer
Pensez-vous à installer une deuxième carte graphique pour les LLM ?
Comment les canaux PCIe affectent les performances des LLM ? Selon la tâche. Pour l’entraînement et l’inférence multi-GPU, la baisse de performance est significative.
Pour plus d’informations sur le débit, la latence, la VRAM et les benchmarks sur différents runtimes et matériels, consultez Performances des LLM : Benchmarks, Bottlenecks & Optimisation.
Pour un GPU unique, une fois que le LLM est chargé en VRAM, presque aucune différence n’est constatée.
Cette image est générée automatiquement avec Flux - LLM texte vers image .
-
Chargement du modèle : Le nombre de canaux PCIe influence principalement la vitesse à laquelle les poids du modèle sont transférés depuis la RAM système vers la VRAM du GPU. Plus il y a de canaux (par exemple, x16), plus les transferts sont rapides, réduisant ainsi les temps de chargement initiaux. Une fois que le modèle est chargé en mémoire du GPU, la vitesse d’inférence n’est pas grandement affectée par la bande passante PCIe, sauf si le modèle ou les données doivent être fréquemment transférés entre la VRAM et la RAM.
-
Vitesse d’inférence : Pour les tâches d’inférence typiques des LLM, le nombre de canaux PCIe a peu d’effet après le chargement du modèle, car le calcul se fait à l’intérieur du GPU. Seulement lorsque les résultats ou les données intermédiaires doivent être fréquemment transférés vers le CPU ou entre les GPU, la bande passante PCIe devient un goulot d’étranglement.
-
Entraînement et configurations multi-GPU : Pour l’entraînement, particulièrement avec plusieurs GPU, la bande passante PCIe devient plus critique. Les nombres de canaux plus faibles (par exemple, x4) peuvent considérablement ralentir l’entraînement en raison de la communication inter-GPU accrue et du mélange des données. Pour de meilleurs résultats, au moins x8 canaux par GPU sont recommandés dans les configurations multi-GPU.
Comparaison des performances : canaux PCIe et interconnexions GPU
| Configuration | Impact sur l’inférence LLM | Impact sur l’entraînement LLM | Notes importantes |
|---|---|---|---|
| PCIe x16 par GPU | Temps de chargement les plus rapides, idéal pour les grands modèles | Meilleur pour l’entraînement multi-GPU | Norme pour les stations de travail et serveurs de haut de gamme |
| PCIe x8 par GPU | Légèrement plus lent au chargement, baisse négligeable de l’inférence | Acceptable pour les configurations multi-GPU | Légère perte de performance, particulièrement dans les configurations 2-4 GPU |
| PCIe x4 par GPU | Charge nettement plus lente, impact mineur sur l’inférence | Ralentissement significatif de l’entraînement | Non recommandé pour l’entraînement, mais fonctionne pour l’inférence mono-GPU |
| SXM/NVLink (ex. H100) | Communications inter-GPU beaucoup plus rapides, jusqu’à 2,6x plus rapide l’inférence vs PCIe | Supérieur pour l’entraînement à grande échelle | Idéal pour les LLM d’entreprise, permet l’unification des GPU |
- SXM vs PCIe : Le format SXM de NVIDIA (avec NVLink) fournit une bande passante inter-GPU bien plus élevée que PCIe. Par exemple, les GPU H100 SXM5 offrent jusqu’à 2,6x plus rapide l’inférence LLM que les GPU H100 PCIe, particulièrement dans les configurations multi-GPU. Cela est crucial pour les grands modèles et les charges de travail distribuées.
- Génération PCIe : Passer de PCIe 3.0 à PCIe 4.0 ou 5.0 fournit plus de bande passante, mais pour la plupart des petites configurations ou des inférences LLM mono-GPU, le bénéfice pratique est minime. Pour les grands clusters ou les entraînements multi-GPU lourds, les générations plus élevées de PCIe aident à la parallélisation et au transfert de données.
Recommandations pratiques
- Inférence LLM mono-GPU : Le nombre de canaux PCIe n’est pas un goulot d’étranglement majeur après le chargement du modèle. Les canaux x4 sont généralement suffisants, bien que x8 ou x16 réduiront les temps de chargement.
- Inférence/entraînement multi-GPU : Préférez x8 ou x16 canaux par GPU. Les nombres de canaux plus faibles peuvent limiter la communication inter-GPU, ralentissant à la fois l’entraînement et l’inférence à grande échelle.
- Échelle d’entreprise/recherche : Pour les plus grands modèles et les performances les plus rapides, les systèmes basés sur SXM/NVLink (ex. DGX, HGX) sont supérieurs, permettant un échange de données beaucoup plus rapide entre les GPU et un débit plus élevé.
“Faire fonctionner les GPU sur 4x canaux est acceptable, particulièrement si vous n’avez que 2 GPU. Pour une configuration de 4 GPU, je préférerais 8x canaux par GPU, mais faire fonctionner les GPU à 4x canaux ne réduira probablement la performance que d’environ 5 à 10 % si vous les parallélisez sur tous les 4 GPU.”
Résumé
- Le nombre de canaux PCIe affecte principalement le chargement du modèle et la communication inter-GPU, pas la vitesse d’inférence après le chargement du modèle.
- Pour la plupart des utilisateurs effectuant une inférence LLM sur un seul GPU, le nombre de canaux n’est pas une préoccupation majeure.
- Pour l’entraînement ou les charges de travail multi-GPU, plus de canaux (x8/x16) et des interconnexions à bande passante élevée (NVLink/SXM) offrent des gains de performance substantiels.
Pour plus de benchmarks, de choix de matériel et d’optimisation des performances, consultez notre Performances des LLM : Benchmarks, Bottlenecks & Optimisation.
Liens utiles
- Test : Comment Ollama utilise les performances du processeur Intel et les cœurs efficaces
- Problèmes de dégradation dans les processeurs Intel de 13e et 14e génération
- Comparaison de la performance des LLM
- Performance d’AWS Lambda : JavaScript vs Python vs Golang
- Le Quadro RTX 5880 Ada 48GB est-il encore utile ?