Pruebas de Deepseek-R1 en Ollama
Comparando dos modelos deepseek-r1 con dos modelos base
El primer generación de modelos de razonamiento de DeepSeek con un rendimiento comparable al de OpenAI-o1, incluyendo seis modelos densos destilados de DeepSeek-R1 basados en Llama y Qwen.
La biblioteca de modelos de Ollama ha añadido recientemente un conjunto de modelos de DeepSeek basados en Llama 3.1 y 3.3 y Qwen 2.
Arriba está una imagen generada por IA (por el modelo dev de Flux 1) de la Llama junto al letrero deepseek-r1 en la calle en Londres.
En este post estoy comparando dos modelos DeepSeek-r1 con sus contrapartes base Llama 3.1 y Qwen2
TL;DR - Resumen de los resultados del test
- El mejor resultado:
llama3.1:8b-instruct-q4_K_M
- Ambos modelos DeepSeek-r1
deepseek-r1:7b-qwen-distill-q4_K_M
ydeepseek-r1:8b-llama-distill-q4_K_M
- no realizaron bien.
Modelo | Test 1 | Test 2 | Test 3 | Test 4 | Total |
---|---|---|---|---|---|
deepseek-r1:7b-qwen-distill-q4_K_M | 3 | 3 | 2 | 2 | 10 |
deepseek-r1:8b-llama-distill-q4_K_M | 3 | 2 | 4 | 1 | 10 |
llama3.1:8b-instruct-q4_K_M | 4 | 4 | 2 | 4 | 14 |
qwen2.5:7b-instruct-q4_K_M | 3 | 3 | 3 | 3 | 12 |
Comentarios
- En Test 1 - todos los modelos realizaron bien, pero llama3.1:8b-instruct-q4_K_M obtuvo un punto extra por proporcionar las secciones
Similitudes
yDiferencias
. - En Test 2 - deepseek-r1:8b-llama-distill-q4_K_M produjo una respuesta demasiado corta, llama3.1:8b-instruct-q4_K_M - punto extra por
Resumen de Comparación
- En Test 3 - no me gustó el sesgo izquierdista en llama3.1:8b-instruct-q4_K_M, deepseek-r1:8b-llama-distill-q4_K_M produjo un resultado equilibrado y bien estructurado.
- En Test 4 - deepseek-r1:7b-qwen-distill-q4_K_M: DEI~30%; deepseek-r1:8b-llama-distill-q4_K_M - perdió todo en identidad de género, DEI y victimización. llama3.1:8b-instruct-q4_K_M - respuesta bien estructurada y
al punto
.
Instalando Ollama
Instale el servidor Ollama desde https://ollama.com .
Para instrucciones detalladas, consulte Instale Ollama y configure la ubicación de los modelos
Descargue los modelos DeepSeek-r1, Llama 3.1 y Qwen 2
Estoy probando aquí los modelos DeepSeek 7b-qwen-distill-q4_K_M, 8b-llama-distill-q4_K_M, modelo Llama: llama3.1:8b-instruct-q4_K_M y modelo Qwen 2.5: qwen2.5:7b-instruct-q4_K_M
Descargando modelos DeepSeek-r1, Llama3.1 y Qwen2.5
ollama pull deepseek-r1:7b-qwen-distill-q4_K_M
ollama pull deepseek-r1:8b-llama-distill-q4_K_M
ollama pull llama3.1:8b-instruct-q4_K_M
ollama pull qwen2.5:7b-instruct-q4_K_M
Ejecute modelos DeepSeek-r1
Ejecutando modelos DeepSeek-r1 y otros modelos LLM
ollama run deepseek-r1:7b-qwen-distill-q4_K_M
ollama run deepseek-r1:8b-llama-distill-q4_K_M
ollama run llama3.1:8b-instruct-q4_K_M
ollama run qwen2.5:7b-instruct-q4_K_M
Please see sample prompts and responses in the English version of this post. You can select the language on the right.
Conclusión
Realmente esperaba más de los modelos Depseek-r1.
Esperaba que realizaran mejor que los modelos base.
Pero quizás estos modelos son demasiado pequeños o probablemente el r2 lo hará mejor.
Esperemos y veremos.
Enlaces útiles
- Ollama cheatsheet
- Cómo Ollama maneja las solicitudes en paralelo
- Prueba: Cómo Ollama utiliza el rendimiento de los núcleos de CPU de Intel y núcleos eficientes
- Mover modelos de Ollama a un disco o carpeta diferente
- Comparación del rendimiento de velocidad de LLM
- Comparación de las habilidades de resumen de LLM
- Modelos de incrustación y reordenamiento de Qwen3 en Ollama: rendimiento de vanguardia
- Reordenamiento de documentos de texto con Ollama y modelo de incrustación Qwen3 - en Go
- Comparación de la calidad de traducción de páginas de Hugo - LLMs en Ollama