요약 작업에서 어떤 LLM이 가장 잘 수행하나요?

40개의 샘플 텍스트에 대한 벤치마크에서 Phi3 14b, Llama3.1 8b, Mistral Small 22b, Mistral Nemo 12b, Llama3.2 3b 모델은 상위 범위(약 79~82% 정확도)에서 점수를 기록했습니다. 모델 크기와 양자화 모두 결과에 영향을 미칩니다.

미스트럴 스포츠는 요약에 적합한가?

예. Mistral Small 22b instruct (q4_0)는 요약 테스트에서 약 81%의 정확도를 달성했으며, 유사한 모델들 중 평균 이상의 언어 품질을 자주 인정받고 있습니다.

작은 LLM이 요약에 유용한가요?

네. 동일한 테스트에서 Llama3.2 3b instruct (q8_0)는 약 79%의 성능을 기록했으며 가장 빠른 처리 속도를 보여줘서, 속도나 자원 사용이 중요한 경우에 소형 모델이 좋은 선택이 될 수 있습니다.

LLM 요약 성능은 어떻게 측정되나요?

일반적인 접근 방법 중 하나는 요약 프롬프트를 사용하여 모델을 여러 샘플 텍스트에 적용한 후, 올바른 답변을 점수 매기기(예: 임베딩 재정렬을 통해)하고 올바른 답변의 비율이나 평균 점수를 보고하는 것입니다.

LLM 성능과 벤치마크에 대한 더 많은 정보는 어디에서 찾을 수 있나요?

우리의 LLM 성능 허브는 처리량 대 지연 시간, VRAM 제한, 병렬 요청 및 런타임과 하드웨어에 걸친 벤치마크를 다룹니다.

미스트럴 스몰, 게마 2, 퀵 2.5, 미스트럴 네모, LLama3 및 피 - LLM 테스트

LLM 테스트 다음 라운드

Page content

지난 시간에 새로운 버전이 출시되었습니다. 지금까지의 내용을 확인하고, 기타 LLM과 비교하여 Mistral Small의 성능을 테스트해보세요.

통과량, 지연 시간, VRAM, 그리고 런타임과 하드웨어에 걸쳐 벤치마크에 대한 더 많은 정보는 LLM 성능: 벤치마크, 병목 현상 및 최적화를 참조하세요.

이전에 이미 수행한 작업은 다음과 같습니다:

새로운 LLMs(gemma2, qwen2 및 mistralNemo)의 논리 오류 탐지 테스트

자동차가 속도를 내고 있습니다

테스트 방법

여기서는 LLMS의 요약 능력을 테스트합니다:

40개의 샘플 텍스트를 가지고 있으며, 질문과 요약 프롬프트를 사용하여 LLM을 실행합니다 (Perplexica와 유사한 방식: perplexica)
임베딩 모델으로 재정렬된 요약
정답 수를 총 질문 수로 나누면 모델의 성능을 알 수 있습니다

테스트 결과

평균 정답 비율 상위 5위:

82%: phi3 - 14b-medium-128k-instruct-q4_0
81%: llama3.1 - 8b-instruct-q8_0
81%: mistral-small - 22b-instruct-2409-q4_0
79%: mistral-nemo - 12b-instruct-2407-q6_K
79%: llama3.2 - 3b-instruct-q8_0

이 모든 모델은 좋은 성능을 보였습니다.

Mistral 모델 그룹에 주목하는 것이 좋습니다. 언어의 질이 평균보다 약간 더 좋습니다.

또한, 3.2b 모델인 lama3.2:3b-instruct-q8_0은 크기 고려 시 매우 좋은 결과를 보였으며, 이 중 가장 빠른 모델입니다.

상세 테스트 결과

모델 이름, 파라미터, 양자화	크기	테스트 1	테스트 2	평균
llama3.2:3b-instruct-q8_0	4GB	80	79	79
llama3.1:8b-instruct-q8_0	9GB	76	86	81
gemma2:27b-instruct-q3_K_S	12GB	76	72	74
mistral-nemo:12b-instruct-2407-q6_K	10GB	76	82	79
mistral-small:22b-instruct-2409-q4_0	12GB	85	75	80
phi3:14b-medium-128k-instruct-q4_0	9GB	76	89	82
qwen2.5:14b-instruct-q5_0	10GB	66	75	70
qwen2.5:32b-instruct-q3_K_S	14GB	80	75	77
qwen2.5:32b-instruct-q4_0	18GB	76	79	77
llama3.1:70b-instruct-q3_K_M	34GB	76	75	75
qwen2.5:72b-instruct-q4_1	45GB	76	75	75

더 많은 벤치마크, 모델 선택, 성능 최적화에 대해서는 우리의 LLM 성능: 벤치마크, 병목 현상 및 최적화 허브를 참조하세요.

테스트 방법

테스트 결과

상세 테스트 결과

유용한 링크