大语言模型速度测试

让我们测试LLMs在GPU与CPU上的速度表现

目录

比较几种大语言模型(LLMs)版本在CPU和GPU上的预测速度:llama3(Meta/Facebook)、phi3(Microsoft)、gemma(Google)、mistral(开源)。

测试大语言模型在检测逻辑谬误时的速度 - 停表

我使用与之前测试相同的样本文本,其中我 比较了这些LLMs检测逻辑谬误的质量

看,乍一听,一切都听起来非常合理: 人太多,房子太少。

但事情从来不会这么简单, 前住房事务部长应该知道这一点。

TL;DR

在GPU上,LLMs运行速度大约快20倍,但在CPU上它们仍然相当容易管理。

测试环境描述

我在两台电脑上运行了以下大型语言模型

  • 旧电脑,配备第四代i5四核CPU(i5-4460 - 2014年生产)和
  • 新电脑,配备RTX 4080 GPU(2022年生产),拥有9728个CUDA核心和304个张量核心。

测试结果

以下是测试结果:

Model_Name_Version__________ GPU RAM GPU duration GPU Perfor-mance Main RAM CPU Duration CPU Perfor-mance Perfor-mance diffe-rence
llama3:8b-instruct-q4_0 5.8GB 2.1s 80t/s 4.7GB 49s 4.6t/s 17.4x
llama3:8b-instruct-q8_0 9.3GB 3.4s 56t/s 8.3GB 98s 2.7t/s 20.7x
phi3:3.8b 4.5GB 3.6s 98t/s 3.0GB 83s 7.2t/s 13.6x
phi3:3.8b-mini-4k-instruct-q8_0 6.0GB 6.9s 89t/s 4.6GB 79s 5.3t/s 16.8x
phi3:3.8b-mini-instruct-4k-fp16 9.3GB 4.2s 66t/s 7.9GB 130s 2.9t/s 22.8x
phi3:14b 9.6GB 4.2s 55t/s 7.9GB 96s 2.7t/s 21.2x
phi3:14b-medium-4k-instruct-q6_K 12.5GB 8.9s 42t/s 11.1GB 175s 1.9t/s 21.8x
mistral:7b-instruct-v0.3-q4_0 5.4GB 2.1s 87t/s 4.1GB 36s 4.9t/s 17.8x
mistral:7b-instruct-v0.3-q8_0 8.7GB 2.3s 61t/s 7.5GB 109s 2.9t/s 21.0x
gemma:7b-instruct-v1.1-q4_0 7.4GB 1.8s 82t/s 7.5GB 25s 4.4t/s 18.6x
gemma:7b-instruct-v1.1-q6_K 9.1GB 1.6s 66t/s 7.5GB 40s 3.0t/s 22.0x

模型性能在“GPU性能”和“CPU性能”列中。

从CPU迁移到GPU时的速度提升在“性能差异”列中。

我们不应该过多关注“持续时间”列,这个指标取决于模型性能和生成文本的长度。 所有模型生成的文本长度不同。 这些列仅提供参考等待时间。

结论1 - 性能差异

GPU与CPU的速度差异并不像预期的那样大。

真的吗? 所有这些军团(10,000+)的Ada Tensor & Cuda核心与4个Haswell战士相比,差距只有20倍。 我以为会是100到1000倍。

结论2 - 每次预测的成本几乎相同

  • 这台新电脑的价格约为3500澳元
  • 那台旧电脑现在大概价值200澳元

来自PCCCaseGear网站:

带有RTX 4080super的电脑价格

来自eBay(你可能需要再添加8GB内存,使总内存达到16GB,所以大约算作200澳元):

来自eBay的Dell 9020

你可能需要20台这样的旧电脑才能达到相同的吞吐量,所以200澳元 * 20 = 4000澳元。

结论3 - 摩尔定律

摩尔定律表明,计算机的性能每两年翻一番。

英特尔于2014年开始生产i5-4460。 Nvidia于2022年开始生产RTX 4080之一。 预期的性能提升应为约16倍。

我认为,摩尔定律仍然有效。

但请注意,DELL 9020在当时是一款基础工作站,而配备RTX 4080的电脑现在我认为是一款高级图形/游戏电脑。 略有不同的重量等级。

有用的链接