Pruebas de Deepseek-R1 en Ollama

Comparando dos modelos deepseek-r1 con dos modelos base

El primer generación de modelos de razonamiento de DeepSeek con un rendimiento comparable al de OpenAI-o1, incluyendo seis modelos densos destilados de DeepSeek-R1 basados en Llama y Qwen.

La biblioteca de modelos de Ollama ha añadido recientemente un conjunto de modelos de DeepSeek basados en Llama 3.1 y 3.3 y Qwen 2.

Llama en la calle de Londres está junto al letrero Deepseek-r1 Arriba está una imagen generada por IA (por el modelo dev de Flux 1) de la Llama junto al letrero deepseek-r1 en la calle en Londres.

En este post estoy comparando dos modelos DeepSeek-r1 con sus contrapartes base Llama 3.1 y Qwen2

TL;DR - Resumen de los resultados del test

  • El mejor resultado: llama3.1:8b-instruct-q4_K_M
  • Ambos modelos DeepSeek-r1 deepseek-r1:7b-qwen-distill-q4_K_M y deepseek-r1:8b-llama-distill-q4_K_M - no realizaron bien.
Modelo Test 1 Test 2 Test 3 Test 4 Total
deepseek-r1:7b-qwen-distill-q4_K_M 3 3 2 2 10
deepseek-r1:8b-llama-distill-q4_K_M 3 2 4 1 10
llama3.1:8b-instruct-q4_K_M 4 4 2 4 14
qwen2.5:7b-instruct-q4_K_M 3 3 3 3 12

Comentarios

  • En Test 1 - todos los modelos realizaron bien, pero llama3.1:8b-instruct-q4_K_M obtuvo un punto extra por proporcionar las secciones Similitudes y Diferencias.
  • En Test 2 - deepseek-r1:8b-llama-distill-q4_K_M produjo una respuesta demasiado corta, llama3.1:8b-instruct-q4_K_M - punto extra por Resumen de Comparación
  • En Test 3 - no me gustó el sesgo izquierdista en llama3.1:8b-instruct-q4_K_M, deepseek-r1:8b-llama-distill-q4_K_M produjo un resultado equilibrado y bien estructurado.
  • En Test 4 - deepseek-r1:7b-qwen-distill-q4_K_M: DEI~30%; deepseek-r1:8b-llama-distill-q4_K_M - perdió todo en identidad de género, DEI y victimización. llama3.1:8b-instruct-q4_K_M - respuesta bien estructurada y al punto.

Instalando Ollama

Instale el servidor Ollama desde https://ollama.com .

Para instrucciones detalladas, consulte Instale Ollama y configure la ubicación de los modelos

Descargue los modelos DeepSeek-r1, Llama 3.1 y Qwen 2

Estoy probando aquí los modelos DeepSeek 7b-qwen-distill-q4_K_M, 8b-llama-distill-q4_K_M, modelo Llama: llama3.1:8b-instruct-q4_K_M y modelo Qwen 2.5: qwen2.5:7b-instruct-q4_K_M

Descargando modelos DeepSeek-r1, Llama3.1 y Qwen2.5

ollama pull deepseek-r1:7b-qwen-distill-q4_K_M
ollama pull deepseek-r1:8b-llama-distill-q4_K_M
ollama pull llama3.1:8b-instruct-q4_K_M
ollama pull qwen2.5:7b-instruct-q4_K_M

Ejecute modelos DeepSeek-r1

Ejecutando modelos DeepSeek-r1 y otros modelos LLM

ollama run deepseek-r1:7b-qwen-distill-q4_K_M
ollama run deepseek-r1:8b-llama-distill-q4_K_M
ollama run llama3.1:8b-instruct-q4_K_M
ollama run qwen2.5:7b-instruct-q4_K_M

Please see sample prompts and responses in the English version of this post. You can select the language on the right.

Conclusión

Realmente esperaba más de los modelos Depseek-r1.
Esperaba que realizaran mejor que los modelos base.
Pero quizás estos modelos son demasiado pequeños o probablemente el r2 lo hará mejor.
Esperemos y veremos.

Enlaces útiles