Ollama에서 Deepseek-R1 테스트

두 개의 deepseek-r1 모델을 두 개의 기본 모델과 비교합니다.

DeepSeek’s 첫 번째 세대의 추론 모델로, OpenAI-o1과 유사한 성능을 보입니다. 이 모델은 Llama와 Qwen을 기반으로 한 DeepSeek-R1에서 압축한 6개의 밀집 모델입니다.

Ollama 모델 라이브러리 은 최근 Llama 3.1 및 3.3과 Qwen 2를 기반으로 한 DeepSeek의 모델을 추가했습니다.

런던 거리에 서 있는 Llama는 ‘Deepseek-r1’이라는 간판 옆에 서 있습니다 위 그림은 AI 생성 이미지 (Flux 1 dev 모델에 의해 생성됨)로, 런던 거리에 ‘deepseek-r1’ 간판 옆에 있는 Llama의 모습입니다.

이 글에서는 DeepSeek-r1 모델 두 가지를 그 기반 모델인 Llama 3.1과 Qwen2와 비교하고 있습니다.

TL;DR - 테스트 결과 요약

  • 최고의 결과: llama3.1:8b-instruct-q4_K_M
  • DeepSeek-r1 모델 두 가지인 deepseek-r1:7b-qwen-distill-q4_K_Mdeepseek-r1:8b-llama-distill-q4_K_M은 잘 작동하지 않았습니다.
모델 테스트 1 테스트 2 테스트 3 테스트 4 총합
deepseek-r1:7b-qwen-distill-q4_K_M 3 3 2 2 10
deepseek-r1:8b-llama-distill-q4_K_M 3 2 4 1 10
llama3.1:8b-instruct-q4_K_M 4 4 2 4 14
qwen2.5:7b-instruct-q4_K_M 3 3 3 3 12

의견

  • 테스트 1에서는 모든 모델이 잘 작동했지만, SimilaritiesDifferences 섹션을 제공한 llama3.1:8b-instruct-q4_K_M은 추가 점수를 받았습니다.
  • 테스트 2에서는 deepseek-r1:8b-llama-distill-q4_K_M이 너무 짧은 응답을 생성했고, Comparison Summary를 제공한 llama3.1:8b-instruct-q4_K_M은 추가 점수를 받았습니다.
  • 테스트 3에서는 llama3.1:8b-instruct-q4_K_M의 왼쪽 경향이 마음에 들지 않았고, deepseek-r1:8b-llama-distill-q4_K_M은 균형 잡힌 구조가 잘 된 결과를 생성했습니다.
  • 테스트 4에서는 deepseek-r1:7b-qwen-distill-q4_K_M: DEI~30%; deepseek-r1:8b-llama-distill-q4_K_M - 성별 정체성, DEI 및 피해자화에서 모든 것이 사라졌습니다. llama3.1:8b-instruct-q4_K_M - 잘 구성되고 핵심에 집중된 응답을 제공했습니다.

Ollama 설치

https://ollama.com에서 Ollama 서버를 설치하십시오.

자세한 지침은 Ollama 설치 및 모델 위치 구성을 참조하십시오.

DeepSeek-r1 모델, Llama 3.1 및 Qwen 2 모델을 끌어오기

여기서 테스트하고 있는 DeepSeek 모델은 7b-qwen-distill-q4_K_M, 8b-llama-distill-q4_K_M, Llama 모델: llama3.1:8b-instruct-q4_K_M 및 Qwen 2.5 모델: qwen2.5:7b-instruct-q4_K_M입니다.

DeepSeek-r1, Llama3.1 및 Qwen2.5 모델을 다운로드합니다.

ollama pull deepseek-r1:7b-qwen-distill-q4_K_M
ollama pull deepseek-r1:8b-llama-distill-q4_K_M
ollama pull llama3.1:8b-instruct-q4_K_M
ollama pull qwen2.5:7b-instruct-q4_K_M

DeepSeek-r1 모델 실행

DeepSeek-r1 및 기타 LLM 모델 실행

ollama run deepseek-r1:7b-qwen-distill-q4_K_M
ollama run deepseek-r1:8b-llama-distill-q4_K_M
ollama run llama3.1:8b-instruct-q4_K_M
ollama run qwen2.5:7b-instruct-q4_K_M

Please see sample prompts and responses in the English version of this post. You can select the language on the right.

결론

Depseek-r1 모델들에서 더 나은 성능을 기대했지만, 기대만큼의 결과는 얻지 못했습니다.
기본 모델보다 더 잘 수행할 것이라고 예상했지만, 아마도 이 모델들이 너무 작거나, 혹은 r2 모델이 더 나을 수도 있습니다.
시간이 지나면 어떤 결과가 나올지 기다리고 보는 것이 좋겠습니다.

유용한 링크