Ollama에서 Deepseek-R1 테스트
두 개의 deepseek-r1 모델을 두 개의 기본 모델과 비교합니다.
DeepSeek’s 첫 번째 세대의 추론 모델로, OpenAI-o1과 유사한 성능을 보입니다. 이 모델은 Llama와 Qwen을 기반으로 한 DeepSeek-R1에서 압축한 6개의 밀집 모델입니다.
Ollama 모델 라이브러리 은 최근 Llama 3.1 및 3.3과 Qwen 2를 기반으로 한 DeepSeek의 모델을 추가했습니다.
위 그림은 AI 생성 이미지 (Flux 1 dev 모델에 의해 생성됨)로, 런던 거리에 ‘deepseek-r1’ 간판 옆에 있는 Llama의 모습입니다.
이 글에서는 DeepSeek-r1 모델 두 가지를 그 기반 모델인 Llama 3.1과 Qwen2와 비교하고 있습니다.
TL;DR - 테스트 결과 요약
- 최고의 결과:
llama3.1:8b-instruct-q4_K_M
- DeepSeek-r1 모델 두 가지인
deepseek-r1:7b-qwen-distill-q4_K_M
및deepseek-r1:8b-llama-distill-q4_K_M
은 잘 작동하지 않았습니다.
모델 | 테스트 1 | 테스트 2 | 테스트 3 | 테스트 4 | 총합 |
---|---|---|---|---|---|
deepseek-r1:7b-qwen-distill-q4_K_M | 3 | 3 | 2 | 2 | 10 |
deepseek-r1:8b-llama-distill-q4_K_M | 3 | 2 | 4 | 1 | 10 |
llama3.1:8b-instruct-q4_K_M | 4 | 4 | 2 | 4 | 14 |
qwen2.5:7b-instruct-q4_K_M | 3 | 3 | 3 | 3 | 12 |
의견
- 테스트 1에서는 모든 모델이 잘 작동했지만,
Similarities
및Differences
섹션을 제공한llama3.1:8b-instruct-q4_K_M
은 추가 점수를 받았습니다. - 테스트 2에서는
deepseek-r1:8b-llama-distill-q4_K_M
이 너무 짧은 응답을 생성했고,Comparison Summary
를 제공한llama3.1:8b-instruct-q4_K_M
은 추가 점수를 받았습니다. - 테스트 3에서는
llama3.1:8b-instruct-q4_K_M
의 왼쪽 경향이 마음에 들지 않았고,deepseek-r1:8b-llama-distill-q4_K_M
은 균형 잡힌 구조가 잘 된 결과를 생성했습니다. - 테스트 4에서는
deepseek-r1:7b-qwen-distill-q4_K_M
: DEI~30%;deepseek-r1:8b-llama-distill-q4_K_M
- 성별 정체성, DEI 및 피해자화에서 모든 것이 사라졌습니다.llama3.1:8b-instruct-q4_K_M
- 잘 구성되고핵심에 집중된
응답을 제공했습니다.
Ollama 설치
https://ollama.com에서 Ollama 서버를 설치하십시오.
자세한 지침은 Ollama 설치 및 모델 위치 구성을 참조하십시오.
DeepSeek-r1 모델, Llama 3.1 및 Qwen 2 모델을 끌어오기
여기서 테스트하고 있는 DeepSeek 모델은 7b-qwen-distill-q4_K_M, 8b-llama-distill-q4_K_M, Llama 모델: llama3.1:8b-instruct-q4_K_M 및 Qwen 2.5 모델: qwen2.5:7b-instruct-q4_K_M입니다.
DeepSeek-r1, Llama3.1 및 Qwen2.5 모델을 다운로드합니다.
ollama pull deepseek-r1:7b-qwen-distill-q4_K_M
ollama pull deepseek-r1:8b-llama-distill-q4_K_M
ollama pull llama3.1:8b-instruct-q4_K_M
ollama pull qwen2.5:7b-instruct-q4_K_M
DeepSeek-r1 모델 실행
DeepSeek-r1 및 기타 LLM 모델 실행
ollama run deepseek-r1:7b-qwen-distill-q4_K_M
ollama run deepseek-r1:8b-llama-distill-q4_K_M
ollama run llama3.1:8b-instruct-q4_K_M
ollama run qwen2.5:7b-instruct-q4_K_M
Please see sample prompts and responses in the English version of this post. You can select the language on the right.
결론
Depseek-r1 모델들에서 더 나은 성능을 기대했지만, 기대만큼의 결과는 얻지 못했습니다.
기본 모델보다 더 잘 수행할 것이라고 예상했지만, 아마도 이 모델들이 너무 작거나, 혹은 r2 모델이 더 나을 수도 있습니다.
시간이 지나면 어떤 결과가 나올지 기다리고 보는 것이 좋겠습니다.