Performance des LLM et lanes PCIe : considérations clés
Pensez-vous à installer une deuxième carte graphique pour les LLM ?
Sommaire
Comment les voies PCIe affectent les performances des LLM ? Selon la tâche. Pour l’entraînement et l’inférence multi-GPU, la baisse de performance est significative.
Pour l’inférence à un seul GPU, une fois que le LLM est déjà en VRAM, il y a presque aucune différence.
Cette image est générée automatiquement avec Flux - text to image LLM .
- Chargement du modèle : Le nombre de voies PCIe influence principalement la vitesse à laquelle les poids du modèle sont chargés depuis la RAM du système vers la VRAM du GPU. Plus il y a de voies (par exemple, x16), plus les transferts sont rapides, réduisant ainsi les temps de chargement initiaux. Une fois que le modèle est chargé en mémoire GPU, la vitesse d’inférence n’est presque pas affectée par la bande passante PCIe, sauf si le modèle ou les données doivent être fréquemment transférés vers et depuis la VRAM.
- Vitesse d’inférence : Pour les tâches d’inférence typiques des LLM, le nombre de voies PCIe a peu d’effet après le chargement du modèle, car les calculs ont lieu directement sur le GPU. Seule la bande passante PCIe devient un goulot d’étranglement lorsque les résultats ou les données intermédiaires doivent être fréquemment transférés vers le CPU ou entre les GPU.
- Entraînement et configurations multi-GPU : Pour l’entraînement, particulièrement avec plusieurs GPU, la bande passante PCIe devient plus critique. Un nombre de voies plus faible (par exemple, x4) peut ralentir significativement l’entraînement en raison de la communication accrue entre les GPU et du mélange des données. Pour de meilleurs résultats, il est recommandé d’avoir au moins x8 voies par GPU dans les systèmes multi-GPU.
Comparaison des performances : voies PCIe et interconnexions GPU
Configuration | Impact sur l’inférence LLM | Impact sur l’entraînement LLM | Notes importantes |
---|---|---|---|
PCIe x16 par GPU | Temps de chargement les plus rapides, optimal pour les grands modèles | Meilleur pour l’entraînement multi-GPU | Norme pour les stations de travail et serveurs haut de gamme |
PCIe x8 par GPU | Un peu plus lent au chargement, perte d’inférence négligeable | Acceptable pour l’entraînement multi-GPU | Perte de performance mineure, particulièrement dans les configurations 2-4 GPU |
PCIe x4 par GPU | Chargement nettement plus lent, impact mineur sur l’inférence | Ralentissement significatif de l’entraînement | Non recommandé pour l’entraînement, mais fonctionne pour l’inférence à un seul GPU |
SXM/NVLink (par exemple, H100) | Communication inter-GPU bien plus rapide, jusqu’à 2,6 fois plus rapide pour l’inférence LLM par rapport au PCIe | Supérieur pour l’entraînement à grande échelle | Idéal pour les LLM d’entreprise, permet l’unification des GPU |
- SXM vs PCIe : Le format SXM de NVIDIA (avec NVLink) offre une bande passante inter-GPU nettement plus élevée que PCIe. Par exemple, les GPU H100 SXM5 offrent jusqu’à 2,6 fois plus de vitesse d’inférence LLM que les H100 PCIe, particulièrement dans les configurations multi-GPU. Cela est crucial pour les grands modèles et les charges de travail distribuées.
- Génération PCIe : Passer du PCIe 3.0 au PCIe 4.0 ou 5.0 offre plus de bande passante, mais pour la plupart des petites configurations ou des inférences LLM à un seul GPU, le bénéfice pratique est minime. Pour les grands clusters ou l’entraînement multi-GPU intensif, les générations plus récentes de PCIe aident à la parallélisation et aux transferts de données.
Recommandations pratiques
- Inférence LLM à un seul GPU : Le nombre de voies PCIe n’est pas un goulot d’étranglement majeur après le chargement du modèle. Les x4 voies sont généralement suffisantes, bien que les x8 ou x16 réduisent les temps de chargement.
- Inférence/entraînement multi-GPU : Privilégiez les x8 ou x16 voies par GPU. Les faibles nombres de voies peuvent limiter la communication inter-GPU, ralentissant à la fois l’entraînement et l’inférence à grande échelle.
- Échelle d’entreprise/recherche : Pour les plus grands modèles et les performances les plus rapides, les systèmes basés sur SXM/NVLink (par exemple, DGX, HGX) sont supérieurs, permettant un échange de données bien plus rapide entre les GPU et une plus grande bande passante.
“Faire fonctionner les GPU sur 4 voies est acceptable, surtout si vous n’avez que 2 GPU. Pour une configuration de 4 GPU, je préférerais 8 voies par GPU, mais faire fonctionner les GPU à 4 voies ne réduira probablement la performance que de 5 à 10 % si vous les parallélisez sur tous les 4 GPU.”
Résumé
- Le nombre de voies PCIe affecte principalement le chargement du modèle et la communication inter-GPU, pas la vitesse d’inférence après le chargement du modèle.
- Pour la plupart des utilisateurs effectuant une inférence LLM sur un seul GPU, le nombre de voies n’est pas une préoccupation majeure.
- Pour l’entraînement ou les charges de travail multi-GPU, plus de voies (x8/x16) et des interconnexions à bande passante élevée (NVLink/SXM) offrent des gains de performance importants.
Liens utiles
- Test : Comment Ollama utilise les performances du CPU Intel et les cœurs efficaces
- Problèmes de dégradation dans les processeurs Intel de 13e et 14e génération
- Comparaison de la vitesse des LLM : CPU vs GPU
- Déplacer les modèles Ollama vers un autre disque ou dossier
- Auto-hébergement de Perplexica avec Ollama
- Performance d’AWS Lambda : JavaScript vs Python vs Golang
- Le Quadro RTX 5880 Ada 48GB est-il bon ?
- Réordonnancement de documents textuels avec Ollama et le modèle d’embedding Qwen3 - en Go