Тест скорости больших языковых моделей
Давайте протестируем скорость моделей крупных языков на GPU по сравнению с CPU.
Сравнение скорости предсказания нескольких версий LLM: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (открытый исходный код) на процессоре и видеокарте.
Я использую ту же самую тестовую текстовую выборку, что и в предыдущем тесте, где я сравнивал качество обнаружения логических ошибок этих LLM.
Смотрите, на первый взгляд, всё звучит совершенно разумно:
слишком много людей, недостаточно домов.
Но это никогда не так просто,
как должен знать бывший министр по делам жилищного строительства.
TL;DR
На видеокарте LLM работают примерно в 20 раз быстрее, но на процессоре они всё ещё вполне управляемы.
Описание тестовой системы
Я запускал следующие Крупные языковые модели на двух ПК:
- Старый с процессором 4-го поколения i5 с 4 ядрами (i5-4460 - выпущен в 2014 году) и
- Новый с видеокартой RTX 4080 (выпущен в 2022 году) с 9728 CUDA-ядрами и 304 тензорными ядрами.
Результаты теста
Ниже приведены результаты:
Model_Name_Version__________ | GPU RAM | GPU duration | GPU Perfor-mance | Main RAM | CPU Duration | CPU Perfor-mance | Perfor-mance diffe-rence |
---|---|---|---|---|---|---|---|
llama3:8b-instruct-q4_0 | 5.8GB | 2.1с | 80т/с | 4.7GB | 49с | 4.6т/с | 17.4x |
llama3:8b-instruct-q8_0 | 9.3GB | 3.4с | 56т/с | 8.3GB | 98с | 2.7т/с | 20.7x |
phi3:3.8b | 4.5GB | 3.6с | 98т/с | 3.0GB | 83с | 7.2т/с | 13.6x |
phi3:3.8b-mini-4k-instruct-q8_0 | 6.0GB | 6.9с | 89т/с | 4.6GB | 79с | 5.3т/с | 16.8x |
phi3:3.8b-mini-instruct-4k-fp16 | 9.3GB | 4.2с | 66т/с | 7.9GB | 130с | 2.9т/с | 22.8x |
phi3:14b | 9.6GB | 4.2с | 55т/с | 7.9GB | 96с | 2.7т/с | 21.2x |
phi3:14b-medium-4k-instruct-q6_K | 12.5GB | 8.9с | 42т/с | 11.1GB | 175с | 1.9т/с | 21.8x |
mistral:7b-instruct-v0.3-q4_0 | 5.4GB | 2.1с | 87т/с | 4.1GB | 36с | 4.9т/с | 17.8x |
mistral:7b-instruct-v0.3-q8_0 | 8.7GB | 2.3с | 61т/с | 7.5GB | 109с | 2.9т/с | 21.0x |
gemma:7b-instruct-v1.1-q4_0 | 7.4GB | 1.8с | 82т/с | 7.5GB | 25с | 4.4т/с | 18.6x |
gemma:7b-instruct-v1.1-q6_K | 9.1GB | 1.6с | 66т/с | 7.5GB | 40с | 3.0т/с | 22.0x |
Производительность модели указана в столбцах “GPU performance” и “CPU performance”.
Прирост скорости при переходе с процессора на видеокарту указан в столбце “Performance difference”.
Мы не должны уделять много внимания столбцам “duration” - этот показатель зависит от производительности модели и длины сгенерированного текста. Все модели генерируют текст разной длины. Эти столбцы просто дают ориентировочное время ожидания.
Вывод 1 - Разница в производительности
Разница в скорости между GPU и CPU не такая большая, как ожидалось.
Серьёзно? Все эти легионы (10к+) ядер Ada Tensor & Cuda против 4-х спартанцев Haswell, и всего лишь 20-кратная разница. Я думал, что это будет 100-1000 раз.
Вывод 2 - Стоимость на предсказание почти одинаковая
- цена этой новой ПК составляет около 3500 AUD
- та старая ПК сейчас, вероятно, стоит 200 AUD
С сайта PCCCaseGear:
С ebay (вы можете захотеть добавить дополнительные 8 ГБ ОЗУ, чтобы сделать их 16 ГБ в общей сложности - поэтому округлим до 200 AUD):
Возможно, вам понадобится 20 таких старых ПК, чтобы достичь той же пропускной способности, поэтому 200 AUD * 20 = 4000 AUD.
Вывод 3 - Закон Мура
Закон Мура предполагает, что производительность компьютеров удваивается каждые два года.
Intel начал производство i5-4460 в 2014 году. Nvidia начала производство одной из RTX 4080 в 2022 году. Ожидаемый рост производительности должен составить около 16 раз.
Я бы сказал, что закон Мура всё ещё работает.
Но имейте в виду, что DELL 9020 в своё время был базовым рабочим станком, а ПК с RTX 4080 сейчас, я бы сказал, является продвинутым графическим/игровым ПК. Слегка разные классы по весу.
Полезные ссылки
- Производительность LLM и линии PCIe: основные соображения
- Обнаружение логических ошибок с помощью LLM
- Приложение Android для обнаружения логических ошибок: https://www.logical-fallacy.com/articles/detector-android-app/
- Перемещение моделей Ollama в другую папку или диск
- Самохостинг Perplexica с использованием Ollama
- Как Ollama обрабатывает параллельные запросы
- Тест: как Ollama использует производительность и эффективные ядра процессора Intel
- Облачные поставщики LLM
- Проблемы с производительностью процессоров 13-го и 14-го поколений Intel
- Хорош ли Quadro RTX 5880 Ada 48GB?