대규모 언어 모델 속도 테스트

GPU 대 CPU에서 LLM의 속도를 테스트해 보겠습니다.

Page content

여러 버전의 LLM(llama3, phi3, gemma, mistral)이 CPU와 GPU에서 예측 속도를 비교합니다.

대규모 언어 모델의 논리적 오류 탐지 속도 테스트 - 스톱워치

이전 테스트에서 사용한 동일한 샘플 텍스트를 사용하고 있습니다. 이 LLM들이 논리적 오류 탐지 품질을 비교한 것

보기에는 모든 것이 완전히 합리적으로 들립니다:
인구가 너무 많고, 주택이 부족합니다.

하지만 이전 주택 관련 장관이 잘 알겠지만,
그것은 결코 간단하지 않습니다.

TL;DR

GPU에서는 LLM이 약 20배 더 빠르게 실행되지만, CPU에서는 여전히 관리 가능합니다.

테스트 장비 설명

다음의 대규모 언어 모델을 두 대의 PC에서 실행했습니다:

  • 오래된 PC: 4세대 i5 4코어 CPU (i5-4460 - 2014년 생산)와
  • 새로운 PC: RTX 4080 GPU (2022년 생산)와 9728개의 CUDA 코어 및 304개의 텐서 코어가 있는 GPU가 있습니다.

테스트 결과

다음은 테스트 결과입니다:

Model_Name_Version__________ GPU RAM GPU duration GPU Perfor-mance Main RAM CPU Duration CPU Perfor-mance Perfor-mance diffe-rence
llama3:8b-instruct-q4_0 5.8GB 2.1s 80t/s 4.7GB 49s 4.6t/s 17.4x
llama3:8b-instruct-q8_0 9.3GB 3.4s 56t/s 8.3GB 98s 2.7t/s 20.7x
phi3:3.8b 4.5GB 3.6s 98t/s 3.0GB 83s 7.2t/s 13.6x
phi3:3.8b-mini-4k-instruct-q8_0 6.0GB 6.9s 89t/s 4.6GB 79s 5.3t/s 16.8x
phi3:3.8b-mini-instruct-4k-fp16 9.3GB 4.2s 66t/s 7.9GB 130s 2.9t/s 22.8x
phi3:14b 9.6GB 4.2s 55t/s 7.9GB 96s 2.7t/s 21.2x
phi3:14b-medium-4k-instruct-q6_K 12.5GB 8.9s 42t/s 11.1GB 175s 1.9t/s 21.8x
mistral:7b-instruct-v0.3-q4_0 5.4GB 2.1s 87t/s 4.1GB 36s 4.9t/s 17.8x
mistral:7b-instruct-v0.3-q8_0 8.7GB 2.3s 61t/s 7.5GB 109s 2.9t/s 21.0x
gemma:7b-instruct-v1.1-q4_0 7.4GB 1.8s 82t/s 7.5GB 25s 4.4t/s 18.6x
gemma:7b-instruct-v1.1-q6_K 9.1GB 1.6s 66t/s 7.5GB 40s 3.0t/s 22.0x

모델 성능은 “GPU 성능” 및 “CPU 성능” 열에 나타나 있습니다.

CPU에서 GPU로 이동할 때의 속도 향상은 “성능 차이” 열에 나타나 있습니다.

“지속 시간” 열에 주의를 많이 기울일 필요는 없습니다 - 이 지표는 모델 성능과 생성된 텍스트의 길이에 따라 달라집니다. 모든 모델은 다른 길이의 텍스트를 생성합니다. 이 열은 단지 대략적인 대기 시간을 제공합니다.

결론 1 - 성능 차이

GPU와 CPU의 속도 차이는 예상보다 그렇게 크지 않습니다.

진짜로? Ada Tensor 및 Cuda 코어 수만 10,000개 이상인 것과 4개의 Haswell 스파르탄과 비교했을 뿐, 겨우 20배의 차이입니다. 100~1000배의 차이를 예상했었습니다.

결론 2 - 예측당 비용은 거의 비슷하다

  • 이 새로운 PC의 가격은 약 3500AUD입니다.
  • 그 오래된 PC는 지금 약 200AUD입니다.

PCCCaseGear의 사이트에서:

RTX 4080super가 있는 PC 가격

eBay에서 (16GB의 총 메모리가 되도록 추가 메모리가 필요할 수 있으므로 약 200AUD로 계산):

eBay의 Dell 9020

동일한 처리량을 얻기 위해 20대의 오래된 PC가 필요할 수 있으므로, 200AUD * 20 = 4000AUD입니다.

결론 3 - 모어의 법칙

모어의 법칙은 컴퓨터 성능이 2년마다 2배씩 증가한다고 말합니다.

Intel은 2014년에 i5-4460의 생산을 시작했습니다. Nvidia는 2022년에 RTX 4080의 생산을 시작했습니다. 예상되는 성능 향상은 약 16배입니다.

저는 모어의 법칙이 여전히 작동한다고 말할 수 있습니다.

하지만 DELL 9020은 당시 기본 워크스테이션이었고, RTX 4080이 있는 PC는 지금은 고급 그래픽/게임용 PC라고 볼 수 있습니다. 조금 다른 무게급입니다.

유용한 링크