미스트럴 스몰, 게마 2, 퀵 2.5, 미스트럴 네모, LLama3 및 피 - LLM 테스트

LLM 테스트 다음 라운드

Page content

지난 시간에 새로운 버전이 출시되었습니다. 지금까지의 내용을 확인하고, 기타 LLM과 비교하여 Mistral Small의 성능을 테스트해보세요.

통과량, 지연 시간, VRAM, 그리고 런타임과 하드웨어에 걸쳐 벤치마크에 대한 더 많은 정보는 LLM 성능: 벤치마크, 병목 현상 및 최적화를 참조하세요.

이전에 이미 수행한 작업은 다음과 같습니다:

자동차가 속도를 내고 있습니다

테스트 방법

여기서는 LLMS의 요약 능력을 테스트합니다:

  • 40개의 샘플 텍스트를 가지고 있으며, 질문과 요약 프롬프트를 사용하여 LLM을 실행합니다 (Perplexica와 유사한 방식: perplexica)
  • 임베딩 모델으로 재정렬된 요약
  • 정답 수를 총 질문 수로 나누면 모델의 성능을 알 수 있습니다

테스트 결과

평균 정답 비율 상위 5위:

  1. 82%: phi3 - 14b-medium-128k-instruct-q4_0
  2. 81%: llama3.1 - 8b-instruct-q8_0
  3. 81%: mistral-small - 22b-instruct-2409-q4_0
  4. 79%: mistral-nemo - 12b-instruct-2407-q6_K
  5. 79%: llama3.2 - 3b-instruct-q8_0

이 모든 모델은 좋은 성능을 보였습니다.

Mistral 모델 그룹에 주목하는 것이 좋습니다. 언어의 질이 평균보다 약간 더 좋습니다.

또한, 3.2b 모델인 lama3.2:3b-instruct-q8_0은 크기 고려 시 매우 좋은 결과를 보였으며, 이 중 가장 빠른 모델입니다.

상세 테스트 결과

모델 이름, 파라미터, 양자화 크기 테스트 1 테스트 2 평균
llama3.2:3b-instruct-q8_0 4GB 80 79 79
llama3.1:8b-instruct-q8_0 9GB 76 86 81
gemma2:27b-instruct-q3_K_S 12GB 76 72 74
mistral-nemo:12b-instruct-2407-q6_K 10GB 76 82 79
mistral-small:22b-instruct-2409-q4_0 12GB 85 75 80
phi3:14b-medium-128k-instruct-q4_0 9GB 76 89 82
qwen2.5:14b-instruct-q5_0 10GB 66 75 70
qwen2.5:32b-instruct-q3_K_S 14GB 80 75 77
qwen2.5:32b-instruct-q4_0 18GB 76 79 77
llama3.1:70b-instruct-q3_K_M 34GB 76 75 75
qwen2.5:72b-instruct-q4_1 45GB 76 75 75

더 많은 벤치마크, 모델 선택, 성능 최적화에 대해서는 우리의 LLM 성능: 벤치마크, 병목 현상 및 최적화 허브를 참조하세요.

유용한 링크