미스트럴 스몰, 게마 2, 퀵 2.5, 미스트럴 네모, LLama3 및 피 - LLM 테스트
LLM 테스트 다음 라운드
Page content
지난 시간에 새로운 버전이 출시되었습니다. 지금까지의 내용을 확인하고, 기타 LLM과 비교하여 Mistral Small의 성능을 테스트해보세요.
통과량, 지연 시간, VRAM, 그리고 런타임과 하드웨어에 걸쳐 벤치마크에 대한 더 많은 정보는 LLM 성능: 벤치마크, 병목 현상 및 최적화를 참조하세요.
이전에 이미 수행한 작업은 다음과 같습니다:

테스트 방법
여기서는 LLMS의 요약 능력을 테스트합니다:
- 40개의 샘플 텍스트를 가지고 있으며, 질문과 요약 프롬프트를 사용하여 LLM을 실행합니다 (Perplexica와 유사한 방식: perplexica)
- 임베딩 모델으로 재정렬된 요약
- 정답 수를 총 질문 수로 나누면 모델의 성능을 알 수 있습니다
테스트 결과
평균 정답 비율 상위 5위:
- 82%: phi3 - 14b-medium-128k-instruct-q4_0
- 81%: llama3.1 - 8b-instruct-q8_0
- 81%: mistral-small - 22b-instruct-2409-q4_0
- 79%: mistral-nemo - 12b-instruct-2407-q6_K
- 79%: llama3.2 - 3b-instruct-q8_0
이 모든 모델은 좋은 성능을 보였습니다.
Mistral 모델 그룹에 주목하는 것이 좋습니다. 언어의 질이 평균보다 약간 더 좋습니다.
또한, 3.2b 모델인 lama3.2:3b-instruct-q8_0은 크기 고려 시 매우 좋은 결과를 보였으며, 이 중 가장 빠른 모델입니다.
상세 테스트 결과
| 모델 이름, 파라미터, 양자화 | 크기 | 테스트 1 | 테스트 2 | 평균 |
|---|---|---|---|---|
| llama3.2:3b-instruct-q8_0 | 4GB | 80 | 79 | 79 |
| llama3.1:8b-instruct-q8_0 | 9GB | 76 | 86 | 81 |
| gemma2:27b-instruct-q3_K_S | 12GB | 76 | 72 | 74 |
| mistral-nemo:12b-instruct-2407-q6_K | 10GB | 76 | 82 | 79 |
| mistral-small:22b-instruct-2409-q4_0 | 12GB | 85 | 75 | 80 |
| phi3:14b-medium-128k-instruct-q4_0 | 9GB | 76 | 89 | 82 |
| qwen2.5:14b-instruct-q5_0 | 10GB | 66 | 75 | 70 |
| qwen2.5:32b-instruct-q3_K_S | 14GB | 80 | 75 | 77 |
| qwen2.5:32b-instruct-q4_0 | 18GB | 76 | 79 | 77 |
| llama3.1:70b-instruct-q3_K_M | 34GB | 76 | 75 | 75 |
| qwen2.5:72b-instruct-q4_1 | 45GB | 76 | 75 | 75 |
더 많은 벤치마크, 모델 선택, 성능 최적화에 대해서는 우리의 LLM 성능: 벤치마크, 병목 현상 및 최적화 허브를 참조하세요.