大语言模型速度测试
让我们测试LLMs在GPU与CPU上的速度表现
比较几种大语言模型(LLMs)版本在CPU和GPU上的预测速度:llama3(Meta/Facebook)、phi3(Microsoft)、gemma(Google)、mistral(开源)。
我使用与之前测试相同的样本文本,其中我 比较了这些LLMs检测逻辑谬误的质量。
看,乍一听,一切都听起来非常合理: 人太多,房子太少。
但事情从来不会这么简单, 前住房事务部长应该知道这一点。
TL;DR
在GPU上,LLMs运行速度大约快20倍,但在CPU上它们仍然相当容易管理。
测试环境描述
我在两台电脑上运行了以下大型语言模型:
测试结果
以下是测试结果:
Model_Name_Version__________ | GPU RAM | GPU duration | GPU Perfor-mance | Main RAM | CPU Duration | CPU Perfor-mance | Perfor-mance diffe-rence |
---|---|---|---|---|---|---|---|
llama3:8b-instruct-q4_0 | 5.8GB | 2.1s | 80t/s | 4.7GB | 49s | 4.6t/s | 17.4x |
llama3:8b-instruct-q8_0 | 9.3GB | 3.4s | 56t/s | 8.3GB | 98s | 2.7t/s | 20.7x |
phi3:3.8b | 4.5GB | 3.6s | 98t/s | 3.0GB | 83s | 7.2t/s | 13.6x |
phi3:3.8b-mini-4k-instruct-q8_0 | 6.0GB | 6.9s | 89t/s | 4.6GB | 79s | 5.3t/s | 16.8x |
phi3:3.8b-mini-instruct-4k-fp16 | 9.3GB | 4.2s | 66t/s | 7.9GB | 130s | 2.9t/s | 22.8x |
phi3:14b | 9.6GB | 4.2s | 55t/s | 7.9GB | 96s | 2.7t/s | 21.2x |
phi3:14b-medium-4k-instruct-q6_K | 12.5GB | 8.9s | 42t/s | 11.1GB | 175s | 1.9t/s | 21.8x |
mistral:7b-instruct-v0.3-q4_0 | 5.4GB | 2.1s | 87t/s | 4.1GB | 36s | 4.9t/s | 17.8x |
mistral:7b-instruct-v0.3-q8_0 | 8.7GB | 2.3s | 61t/s | 7.5GB | 109s | 2.9t/s | 21.0x |
gemma:7b-instruct-v1.1-q4_0 | 7.4GB | 1.8s | 82t/s | 7.5GB | 25s | 4.4t/s | 18.6x |
gemma:7b-instruct-v1.1-q6_K | 9.1GB | 1.6s | 66t/s | 7.5GB | 40s | 3.0t/s | 22.0x |
模型性能在“GPU性能”和“CPU性能”列中。
从CPU迁移到GPU时的速度提升在“性能差异”列中。
我们不应该过多关注“持续时间”列,这个指标取决于模型性能和生成文本的长度。 所有模型生成的文本长度不同。 这些列仅提供参考等待时间。
结论1 - 性能差异
GPU与CPU的速度差异并不像预期的那样大。
真的吗? 所有这些军团(10,000+)的Ada Tensor & Cuda核心与4个Haswell战士相比,差距只有20倍。 我以为会是100到1000倍。
结论2 - 每次预测的成本几乎相同
- 这台新电脑的价格约为3500澳元
- 那台旧电脑现在大概价值200澳元
来自PCCCaseGear网站:
来自eBay(你可能需要再添加8GB内存,使总内存达到16GB,所以大约算作200澳元):
你可能需要20台这样的旧电脑才能达到相同的吞吐量,所以200澳元 * 20 = 4000澳元。
结论3 - 摩尔定律
摩尔定律表明,计算机的性能每两年翻一番。
英特尔于2014年开始生产i5-4460。 Nvidia于2022年开始生产RTX 4080之一。 预期的性能提升应为约16倍。
我认为,摩尔定律仍然有效。
但请注意,DELL 9020在当时是一款基础工作站,而配备RTX 4080的电脑现在我认为是一款高级图形/游戏电脑。 略有不同的重量等级。
有用的链接
- 使用LLMs进行逻辑谬误检测
- 逻辑谬误检测Android应用:https://www.logical-fallacy.com/articles/detector-android-app/
- 将Ollama模型移动到不同的驱动器或文件夹
- 使用Ollama自托管Perplexica
- Ollama如何处理并行请求
- 测试:Ollama如何使用Intel CPU性能和高效核心
- 云LLM提供商
- 英特尔第13代和第14代CPU的退化问题
- Quadro RTX 5880 Ada 48GB是否好用?