대규모 언어 모델 속도 테스트
GPU 대 CPU에서 LLM의 속도를 테스트해 보겠습니다.
여러 버전의 LLM(llama3, phi3, gemma, mistral)이 CPU와 GPU에서 예측 속도를 비교합니다.
이전 테스트에서 사용한 동일한 샘플 텍스트를 사용하고 있습니다. 이 LLM들이 논리적 오류 탐지 품질을 비교한 것
보기에는 모든 것이 완전히 합리적으로 들립니다:
인구가 너무 많고, 주택이 부족합니다.
하지만 이전 주택 관련 장관이 잘 알겠지만,
그것은 결코 간단하지 않습니다.
TL;DR
GPU에서는 LLM이 약 20배 더 빠르게 실행되지만, CPU에서는 여전히 관리 가능합니다.
테스트 장비 설명
다음의 대규모 언어 모델을 두 대의 PC에서 실행했습니다:
- 오래된 PC: 4세대 i5 4코어 CPU (i5-4460 - 2014년 생산)와
- 새로운 PC: RTX 4080 GPU (2022년 생산)와 9728개의 CUDA 코어 및 304개의 텐서 코어가 있는 GPU가 있습니다.
테스트 결과
다음은 테스트 결과입니다:
Model_Name_Version__________ | GPU RAM | GPU duration | GPU Perfor-mance | Main RAM | CPU Duration | CPU Perfor-mance | Perfor-mance diffe-rence |
---|---|---|---|---|---|---|---|
llama3:8b-instruct-q4_0 | 5.8GB | 2.1s | 80t/s | 4.7GB | 49s | 4.6t/s | 17.4x |
llama3:8b-instruct-q8_0 | 9.3GB | 3.4s | 56t/s | 8.3GB | 98s | 2.7t/s | 20.7x |
phi3:3.8b | 4.5GB | 3.6s | 98t/s | 3.0GB | 83s | 7.2t/s | 13.6x |
phi3:3.8b-mini-4k-instruct-q8_0 | 6.0GB | 6.9s | 89t/s | 4.6GB | 79s | 5.3t/s | 16.8x |
phi3:3.8b-mini-instruct-4k-fp16 | 9.3GB | 4.2s | 66t/s | 7.9GB | 130s | 2.9t/s | 22.8x |
phi3:14b | 9.6GB | 4.2s | 55t/s | 7.9GB | 96s | 2.7t/s | 21.2x |
phi3:14b-medium-4k-instruct-q6_K | 12.5GB | 8.9s | 42t/s | 11.1GB | 175s | 1.9t/s | 21.8x |
mistral:7b-instruct-v0.3-q4_0 | 5.4GB | 2.1s | 87t/s | 4.1GB | 36s | 4.9t/s | 17.8x |
mistral:7b-instruct-v0.3-q8_0 | 8.7GB | 2.3s | 61t/s | 7.5GB | 109s | 2.9t/s | 21.0x |
gemma:7b-instruct-v1.1-q4_0 | 7.4GB | 1.8s | 82t/s | 7.5GB | 25s | 4.4t/s | 18.6x |
gemma:7b-instruct-v1.1-q6_K | 9.1GB | 1.6s | 66t/s | 7.5GB | 40s | 3.0t/s | 22.0x |
모델 성능은 “GPU 성능” 및 “CPU 성능” 열에 나타나 있습니다.
CPU에서 GPU로 이동할 때의 속도 향상은 “성능 차이” 열에 나타나 있습니다.
“지속 시간” 열에 주의를 많이 기울일 필요는 없습니다 - 이 지표는 모델 성능과 생성된 텍스트의 길이에 따라 달라집니다. 모든 모델은 다른 길이의 텍스트를 생성합니다. 이 열은 단지 대략적인 대기 시간을 제공합니다.
결론 1 - 성능 차이
GPU와 CPU의 속도 차이는 예상보다 그렇게 크지 않습니다.
진짜로? Ada Tensor 및 Cuda 코어 수만 10,000개 이상인 것과 4개의 Haswell 스파르탄과 비교했을 뿐, 겨우 20배의 차이입니다. 100~1000배의 차이를 예상했었습니다.
결론 2 - 예측당 비용은 거의 비슷하다
- 이 새로운 PC의 가격은 약 3500AUD입니다.
- 그 오래된 PC는 지금 약 200AUD입니다.
PCCCaseGear의 사이트에서:
eBay에서 (16GB의 총 메모리가 되도록 추가 메모리가 필요할 수 있으므로 약 200AUD로 계산):
동일한 처리량을 얻기 위해 20대의 오래된 PC가 필요할 수 있으므로, 200AUD * 20 = 4000AUD입니다.
결론 3 - 모어의 법칙
모어의 법칙은 컴퓨터 성능이 2년마다 2배씩 증가한다고 말합니다.
Intel은 2014년에 i5-4460의 생산을 시작했습니다. Nvidia는 2022년에 RTX 4080의 생산을 시작했습니다. 예상되는 성능 향상은 약 16배입니다.
저는 모어의 법칙이 여전히 작동한다고 말할 수 있습니다.
하지만 DELL 9020은 당시 기본 워크스테이션이었고, RTX 4080이 있는 PC는 지금은 고급 그래픽/게임용 PC라고 볼 수 있습니다. 조금 다른 무게급입니다.
유용한 링크
- LLM 성능과 PCIe 라인: 주요 고려사항
- LLM을 사용한 논리적 오류 탐지
- 논리적 오류 탐지 Android 앱: https://www.logical-fallacy.com/articles/detector-android-app/
- Ollama 모델을 다른 드라이브 또는 폴더로 이동
- Ollama와 함께 Perplexica를 자체 호스팅
- Ollama가 병렬 요청을 어떻게 처리하는지
- Ollama가 인텔 CPU 성능과 효율적인 코어를 어떻게 사용하는지 테스트
- 클라우드 LLM 제공업체
- 인텔 13세대 및 14세대 CPU의 성능 저하 문제
- Quadro RTX 5880 Ada 48GB이 어떤가요?