大语言模型速度测试

让我们测试LLMs在GPU与CPU上的速度表现

比较几种大语言模型（LLMs）版本在CPU和GPU上的预测速度：llama3（Meta/Facebook）、phi3（Microsoft）、gemma（Google）、mistral（开源）。

测试大语言模型在检测逻辑谬误时的速度 - 停表

我使用与之前测试相同的样本文本，其中我比较了这些LLMs检测逻辑谬误的质量。

看，乍一听，一切都听起来非常合理：人太多，房子太少。

但事情从来不会这么简单，前住房事务部长应该知道这一点。

TL;DR

在GPU上，LLMs运行速度大约快20倍，但在CPU上它们仍然相当容易管理。

我在两台电脑上运行了以下大型语言模型：

以下是测试结果：

Model_Name_Version__________	GPU RAM	GPU duration	GPU Perfor-mance	Main RAM	CPU Duration	CPU Perfor-mance	Perfor-mance diffe-rence
llama3:8b-instruct-q4_0	5.8GB	2.1s	80t/s	4.7GB	49s	4.6t/s	17.4x
llama3:8b-instruct-q8_0	9.3GB	3.4s	56t/s	8.3GB	98s	2.7t/s	20.7x
phi3:3.8b	4.5GB	3.6s	98t/s	3.0GB	83s	7.2t/s	13.6x
phi3:3.8b-mini-4k-instruct-q8_0	6.0GB	6.9s	89t/s	4.6GB	79s	5.3t/s	16.8x
phi3:3.8b-mini-instruct-4k-fp16	9.3GB	4.2s	66t/s	7.9GB	130s	2.9t/s	22.8x
phi3:14b	9.6GB	4.2s	55t/s	7.9GB	96s	2.7t/s	21.2x
phi3:14b-medium-4k-instruct-q6_K	12.5GB	8.9s	42t/s	11.1GB	175s	1.9t/s	21.8x
mistral:7b-instruct-v0.3-q4_0	5.4GB	2.1s	87t/s	4.1GB	36s	4.9t/s	17.8x
mistral:7b-instruct-v0.3-q8_0	8.7GB	2.3s	61t/s	7.5GB	109s	2.9t/s	21.0x
gemma:7b-instruct-v1.1-q4_0	7.4GB	1.8s	82t/s	7.5GB	25s	4.4t/s	18.6x
gemma:7b-instruct-v1.1-q6_K	9.1GB	1.6s	66t/s	7.5GB	40s	3.0t/s	22.0x

模型性能在“GPU性能”和“CPU性能”列中。

从CPU迁移到GPU时的速度提升在“性能差异”列中。

我们不应该过多关注“持续时间”列，这个指标取决于模型性能和生成文本的长度。所有模型生成的文本长度不同。这些列仅提供参考等待时间。

GPU与CPU的速度差异并不像预期的那样大。

真的吗？所有这些军团（10,000+）的Ada Tensor & Cuda核心与4个Haswell战士相比，差距只有20倍。我以为会是100到1000倍。

来自PCCCaseGear网站：

带有RTX 4080super的电脑价格

来自eBay（你可能需要再添加8GB内存，使总内存达到16GB，所以大约算作200澳元）：

来自eBay的Dell 9020

你可能需要20台这样的旧电脑才能达到相同的吞吐量，所以200澳元 * 20 = 4000澳元。

摩尔定律表明，计算机的性能每两年翻一番。

英特尔于2014年开始生产i5-4460。 Nvidia于2022年开始生产RTX 4080之一。预期的性能提升应为约16倍。

我认为，摩尔定律仍然有效。

但请注意，DELL 9020在当时是一款基础工作站，而配备RTX 4080的电脑现在我认为是一款高级图形/游戏电脑。略有不同的重量等级。