Prueba de velocidad de modelos de lenguaje grandes

Probemos la velocidad de los LLM en GPU frente a CPU

Índice

Comparando la velocidad de predicción de varias versiones de LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) en CPU y GPU.

Prueba de velocidad de modelos de lenguaje grande para detectar falacias lógicas - cronómetro

Estoy usando el mismo texto de muestra que en la prueba anterior donde comparé la calidad de detección de falacias lógicas de estos LLMs.

Mire, a primera vista, todo suena perfectamente razonable:
demasiadas personas, pocas casas.

Pero nunca es tan simple,
como debería saber un ex ministro de asuntos domésticos.

TL;DR

En GPU, los LLMs funcionan aproximadamente 20 veces más rápido, pero en CPU aún son bastante manejables.

Descripción de la configuración de prueba

He ejecutado los siguientes Modelos de Lenguaje Grande en dos PCs:

Antiguo con CPU de 4º generación i5 de 4 núcleos (i5-4460 - producido en 2014) y
Nuevo con GPU RTX 4080 (producido en 2022) con 9728 núcleos CUDA y 304 núcleos tensor.

Resultados de la prueba

A continuación se muestran los resultados:

Model_Name_Version__________	RAM de GPU	Duración en GPU	Rendimiento en GPU	RAM principal	Duración en CPU	Rendimiento en CPU	Diferencia de rendimiento
llama3:8b-instruct-q4_0	5.8GB	2.1s	80t/s	4.7GB	49s	4.6t/s	17.4x
llama3:8b-instruct-q8_0	9.3GB	3.4s	56t/s	8.3GB	98s	2.7t/s	20.7x
phi3:3.8b	4.5GB	3.6s	98t/s	3.0GB	83s	7.2t/s	13.6x
phi3:3.8b-mini-4k-instruct-q8_0	6.0GB	6.9s	89t/s	4.6GB	79s	5.3t/s	16.8x
phi3:3.8b-mini-instruct-4k-fp16	9.3GB	4.2s	66t/s	7.9GB	130s	2.9t/s	22.8x
phi3:14b	9.6GB	4.2s	55t/s	7.9GB	96s	2.7t/s	21.2x
phi3:14b-medium-4k-instruct-q6_K	12.5GB	8.9s	42t/s	11.1GB	175s	1.9t/s	21.8x
mistral:7b-instruct-v0.3-q4_0	5.4GB	2.1s	87t/s	4.1GB	36s	4.9t/s	17.8x
mistral:7b-instruct-v0.3-q8_0	8.7GB	2.3s	61t/s	7.5GB	109s	2.9t/s	21.0x
gemma:7b-instruct-v1.1-q4_0	7.4GB	1.8s	82t/s	7.5GB	25s	4.4t/s	18.6x
gemma:7b-instruct-v1.1-q6_K	9.1GB	1.6s	66t/s	7.5GB	40s	3.0t/s	22.0x

El rendimiento del modelo se encuentra en las columnas “Rendimiento en GPU” y “Rendimiento en CPU”.

El aumento de velocidad al pasar de CPU a GPU se encuentra en la columna “Diferencia de rendimiento”.

No debemos prestar mucha atención a las columnas “duración”, ya que este indicador depende del rendimiento del modelo y de la longitud del texto producido. Todos los modelos producen textos de longitudes diferentes. Estas columnas solo dan una idea del tiempo de espera.

Conclusión 1 - Diferencia de rendimiento

La diferencia de velocidad entre GPU y CPU no es tan grande como se esperaba.

¿En serio? Todas esas legiones (10k+) de núcleos Tensor y Cuda de Ada vs 4 Spartans Haswell, y solo una diferencia de 20 veces. Pensaba que sería 100-1000 veces.

Conclusión 2 - Costo por predicción es casi el mismo

este nuevo PC tiene un costo de aproximadamente 3500AUD
ese viejo PC ahora cuesta probablemente 200AUD

De la página de PCCCaseGear:

pc con RTX 4080super precio

De eBay (podrías querer agregar 8GB más de RAM para hacer un total de 16GB - así que redondea a 200AUD):

Dell 9020 de eBay

Podrías necesitar 20 de esos viejos PCs para tener el mismo throughput, así que 200AUD * 20 = 4000AUD.

Conclusión 3 - Ley de Moore

La Ley de Moore implica que el rendimiento de los ordenadores se duplica cada dos años.

Intel comenzó la producción del i5-4460 en 2014. Nvidia comenzó la producción de uno de los RTX 4080 en 2022. El aumento de rendimiento esperado debería ser de aproximadamente 16 veces.

Diría que la Ley de Moore aún funciona.

Pero ten en cuenta que el DELL 9020 fue en su momento una estación de trabajo básica, y el PC con RTX 4080 es ahora, diría yo, una PC avanzada para gráficos/juegos. Clase de peso ligeramente diferente.