Test de vitesse des grands modèles de langage

Testons la vitesse des LLM sur GPU par rapport au CPU

Sommaire

Comparaison de la vitesse de prédiction de plusieurs versions de LLM (modèles de langage grand public) : llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) sur CPU et GPU.

Test de la vitesse des grands modèles de langage pour détecter les fautes logiques - chronomètre

Look, on first blush, it all sounds perfectly reasonable:
too many people, not enough houses.

But it is never that simple,
as a former home affairs minister should know.

TL;DR

Sur GPU, les LLM tournent environ 20 fois plus vite, mais sur CPU, ils restent tout à fait gérables.

Description de l’environnement de test

J’ai exécuté les modèles suivants de grands modèles de langage sur deux ordinateurs :

  • Un ancien avec un processeur i5 4e génération à 4 cœurs (i5-4460 - produit en 2014) et
  • Un nouveau avec une carte graphique RTX 4080 (produite en 2022) avec 9728 cœurs CUDA et 304 cœurs tensoriels.

Résultats des tests

Voici les résultats :

Model_Name_Version__________ RAM GPU Durée GPU Performance GPU RAM principale Durée CPU Performance CPU Différence de performance
llama3:8b-instruct-q4_0 5,8 Go 2,1 s 80 t/s 4,7 Go 49 s 4,6 t/s 17,4x
llama3:8b-instruct-q8_0 9,3 Go 3,4 s 56 t/s 8,3 Go 98 s 2,7 t/s 20,7x
phi3:3.8b 4,5 Go 3,6 s 98 t/s 3,0 Go 83 s 7,2 t/s 13,6x
phi3:3.8b-mini-4k-instruct-q8_0 6,0 Go 6,9 s 89 t/s 4,6 Go 79 s 5,3 t/s 16,8x
phi3:3.8b-mini-instruct-4k-fp16 9,3 Go 4,2 s 66 t/s 7,9 Go 130 s 2,9 t/s 22,8x
phi3:14b 9,6 Go 4,2 s 55 t/s 7,9 Go 96 s 2,7 t/s 21,2x
phi3:14b-medium-4k-instruct-q6_K 12,5 Go 8,9 s 42 t/s 11,1 Go 175 s 1,9 t/s 21,8x
mistral:7b-instruct-v0.3-q4_0 5,4 Go 2,1 s 87 t/s 4,1 Go 36 s 4,9 t/s 17,8x
mistral:7b-instruct-v0.3-q8_0 8,7 Go 2,3 s 61 t/s 7,5 Go 109 s 2,9 t/s 21,0x
gemma:7b-instruct-v1.1-q4_0 7,4 Go 1,8 s 82 t/s 7,5 Go 25 s 4,4 t/s 18,6x
gemma:7b-instruct-v1.1-q6_K 9,1 Go 1,6 s 66 t/s 7,5 Go 40 s 3,0 t/s 22,0x

La performance des modèles est indiquée dans les colonnes « Performance GPU » et « Performance CPU ».

Le gain de vitesse lors du passage du CPU au GPU est indiqué dans la colonne « Différence de performance ».

Nous ne devons pas accorder beaucoup d’importance aux colonnes « Durée » : ce critère dépend de la performance du modèle et de la longueur du texte produit. Tous les modèles produisent des textes de longueurs différentes. Ces colonnes ne donnent qu’une indication du temps d’attente.

Conclusion 1 - Différence de performance

La différence de vitesse entre le GPU et le CPU n’est pas aussi grande qu’on pourrait s’y attendre.

Sérieusement ? Toutes les légions (10 000+) de cœurs Ada Tensor & Cuda contre 4 Spartiates Haswell, et seulement 20 fois la différence. Je pensais qu’il y aurait un facteur de 100 à 1000.

Conclusion 2 - Coût par prédiction est presque le même

  • Le prix de ce nouvel ordinateur est d’environ 3500 AUD
  • Cet ancien ordinateur coûte probablement 200 AUD aujourd’hui

D’après le site de PCCCaseGear :

ordinateur avec RTX 4080super prix

D’après eBay (vous pourriez vouloir ajouter 8 Go de RAM supplémentaires pour obtenir un total de 16 Go - arrondissons donc à 200 AUD) :

Dell 9020 depuis eBay

Vous pourriez avoir besoin de 20 de ces anciens ordinateurs pour avoir le même débit, donc 200 AUD * 20 = 4000 AUD.

Conclusion 3 - Loi de Moore

La loi de Moore stipule que la performance des ordinateurs double tous les deux ans.

Intel a commencé la production de l’i5-4460 en 2014. Nvidia a commencé la production de l’une des RTX 4080 en 2022. La hausse de performance attendue devrait être d’environ 16 fois.

Je dirais que la loi de Moore fonctionne toujours.

Mais gardez à l’esprit que le DELL 9020 était à l’époque une station de travail de base, et que l’ordinateur avec la RTX 4080 est maintenant, selon moi, un ordinateur de graphisme/jeux avancé. Un peu différent en termes de classe de poids.

Liens utiles