Тест скорости больших языковых моделей

Давайте протестируем скорость моделей крупных языков на GPU по сравнению с CPU.

Содержимое страницы

Сравнение скорости предсказания нескольких версий LLM: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (открытый исходный код) на процессоре и видеокарте.

Тестирование скорости крупных языковых моделей при обнаружении логических ошибок - секундомер

Я использую ту же самую тестовую текстовую выборку, что и в предыдущем тесте, где я сравнивал качество обнаружения логических ошибок этих LLM.

Смотрите, на первый взгляд, всё звучит совершенно разумно:
слишком много людей, недостаточно домов.

Но это никогда не так просто,
как должен знать бывший министр по делам жилищного строительства.

TL;DR

На видеокарте LLM работают примерно в 20 раз быстрее, но на процессоре они всё ещё вполне управляемы.

Описание тестовой системы

Я запускал следующие Крупные языковые модели на двух ПК:

  • Старый с процессором 4-го поколения i5 с 4 ядрами (i5-4460 - выпущен в 2014 году) и
  • Новый с видеокартой RTX 4080 (выпущен в 2022 году) с 9728 CUDA-ядрами и 304 тензорными ядрами.

Результаты теста

Ниже приведены результаты:

Model_Name_Version__________ GPU RAM GPU duration GPU Perfor-mance Main RAM CPU Duration CPU Perfor-mance Perfor-mance diffe-rence
llama3:8b-instruct-q4_0 5.8GB 2.1с 80т/с 4.7GB 49с 4.6т/с 17.4x
llama3:8b-instruct-q8_0 9.3GB 3.4с 56т/с 8.3GB 98с 2.7т/с 20.7x
phi3:3.8b 4.5GB 3.6с 98т/с 3.0GB 83с 7.2т/с 13.6x
phi3:3.8b-mini-4k-instruct-q8_0 6.0GB 6.9с 89т/с 4.6GB 79с 5.3т/с 16.8x
phi3:3.8b-mini-instruct-4k-fp16 9.3GB 4.2с 66т/с 7.9GB 130с 2.9т/с 22.8x
phi3:14b 9.6GB 4.2с 55т/с 7.9GB 96с 2.7т/с 21.2x
phi3:14b-medium-4k-instruct-q6_K 12.5GB 8.9с 42т/с 11.1GB 175с 1.9т/с 21.8x
mistral:7b-instruct-v0.3-q4_0 5.4GB 2.1с 87т/с 4.1GB 36с 4.9т/с 17.8x
mistral:7b-instruct-v0.3-q8_0 8.7GB 2.3с 61т/с 7.5GB 109с 2.9т/с 21.0x
gemma:7b-instruct-v1.1-q4_0 7.4GB 1.8с 82т/с 7.5GB 25с 4.4т/с 18.6x
gemma:7b-instruct-v1.1-q6_K 9.1GB 1.6с 66т/с 7.5GB 40с 3.0т/с 22.0x

Производительность модели указана в столбцах “GPU performance” и “CPU performance”.

Прирост скорости при переходе с процессора на видеокарту указан в столбце “Performance difference”.

Мы не должны уделять много внимания столбцам “duration” - этот показатель зависит от производительности модели и длины сгенерированного текста. Все модели генерируют текст разной длины. Эти столбцы просто дают ориентировочное время ожидания.

Вывод 1 - Разница в производительности

Разница в скорости между GPU и CPU не такая большая, как ожидалось.

Серьёзно? Все эти легионы (10к+) ядер Ada Tensor & Cuda против 4-х спартанцев Haswell, и всего лишь 20-кратная разница. Я думал, что это будет 100-1000 раз.

Вывод 2 - Стоимость на предсказание почти одинаковая

  • цена этой новой ПК составляет около 3500 AUD
  • та старая ПК сейчас, вероятно, стоит 200 AUD

С сайта PCCCaseGear:

ПК с RTX 4080super цена

С ebay (вы можете захотеть добавить дополнительные 8 ГБ ОЗУ, чтобы сделать их 16 ГБ в общей сложности - поэтому округлим до 200 AUD):

Dell 9020 с ebay

Возможно, вам понадобится 20 таких старых ПК, чтобы достичь той же пропускной способности, поэтому 200 AUD * 20 = 4000 AUD.

Вывод 3 - Закон Мура

Закон Мура предполагает, что производительность компьютеров удваивается каждые два года.

Intel начал производство i5-4460 в 2014 году. Nvidia начала производство одной из RTX 4080 в 2022 году. Ожидаемый рост производительности должен составить около 16 раз.

Я бы сказал, что закон Мура всё ещё работает.

Но имейте в виду, что DELL 9020 в своё время был базовым рабочим станком, а ПК с RTX 4080 сейчас, я бы сказал, является продвинутым графическим/игровым ПК. Слегка разные классы по весу.

Полезные ссылки