Test di Deepseek-R1 su Ollama
Confronto di due modelli deepseek-r1 con due modelli base
La prima generazione di DeepSeek di modelli di ragionamento con prestazioni comparabili a OpenAI-o1, inclusi sei modelli densi distillati da DeepSeek-R1 basati su Llama e Qwen.
La libreria di modelli Ollama ha recentemente aggiunto un set di modelli DeepSeek basati su Llama 3.1 e 3.3 e Qwen 2.
Sopra è un’immagine generata da AI (dal modello Flux 1 dev) del Lama accanto al cartello deepseek-r1 sulla strada di Londra.
In questo post confronto due modelli DeepSeek-r1 con le loro controparti base Llama 3.1 e Qwen2
TL;DR - Riassunto dei risultati del test
- Il miglior risultato:
llama3.1:8b-instruct-q4_K_M
- Entrambi i modelli deepseek-r1
deepseek-r1:7b-qwen-distill-q4_K_M
edeepseek-r1:8b-llama-distill-q4_K_M
- non hanno performato bene.
Modello | Test 1 | Test 2 | Test 3 | Test 4 | Totale |
---|---|---|---|---|---|
deepseek-r1:7b-qwen-distill-q4_K_M | 3 | 3 | 2 | 2 | 10 |
deepseek-r1:8b-llama-distill-q4_K_M | 3 | 2 | 4 | 1 | 10 |
llama3.1:8b-instruct-q4_K_M | 4 | 4 | 2 | 4 | 14 |
qwen2.5:7b-instruct-q4_K_M | 3 | 3 | 3 | 3 | 12 |
Commenti
- Nel Test 1 - tutti i modelli hanno performato bene, ma llama3.1:8b-instruct-q4_K_M ottiene un punto extra per aver fornito le sezioni
Somiglianze
eDifferenze
. - Nel Test 2 - deepseek-r1:8b-llama-distill-q4_K_M ha prodotto una risposta troppo breve, llama3.1:8b-instruct-q4_K_M - punto extra per
Riassunto di confronto
- Nel Test 3 - non mi è piaciuta l’inclinazione di sinistra in llama3.1:8b-instruct-q4_K_M, deepseek-r1:8b-llama-distill-q4_K_M ha prodotto un risultato bilanciato e ben strutturato.
- Nel Test 4 - deepseek-r1:7b-qwen-distill-q4_K_M: DEI~30%; deepseek-r1:8b-llama-distill-q4_K_M - ha perso tutto nell’identità di genere, DEI e vittimizzazione. llama3.1:8b-instruct-q4_K_M - risposta ben strutturata e
al punto
.
Installare Ollama
Installa il server Ollama da https://ollama.com .
Per istruzioni dettagliate vedi Installa Ollama e configura la posizione dei modelli
Scaricare i modelli DeepSeek-r1, Llama 3.1 e Qwen 2
Sto testando qui i modelli DeepSeek 7b-qwen-distill-q4_K_M, 8b-llama-distill-q4_K_M, modello Llama: llama3.1:8b-instruct-q4_K_M e modello Qwen 2.5: qwen2.5:7b-instruct-q4_K_M
Download dei modelli DeepSeek-r1, Llama3.1 e Qwen2.5
ollama pull deepseek-r1:7b-qwen-distill-q4_K_M
ollama pull deepseek-r1:8b-llama-distill-q4_K_M
ollama pull llama3.1:8b-instruct-q4_K_M
ollama pull qwen2.5:7b-instruct-q4_K_M
Eseguire i modelli DeepSeek-r1
Esecuzione dei modelli DeepSeek-r1 e altri modelli LLM
ollama run deepseek-r1:7b-qwen-distill-q4_K_M
ollama run deepseek-r1:8b-llama-distill-q4_K_M
ollama run llama3.1:8b-instruct-q4_K_M
ollama run qwen2.5:7b-instruct-q4_K_M
Quando esegui un prompt sui modelli DeepSeek-r1 in ollama riceverai prima i pensieri tra i tag
>>> come caricare un telefono da una batteria per auto?
<think>
Ok, quindi voglio capire come caricare il mio telefono usando una batteria per auto. Ho un iPhone 13 e una normale batteria per auto. So che le batterie per auto possono essere potenti, ma non sono sicuro se siano sicure per l'elettronica come il mio telefono...
</think>
Caricare il tuo iPhone 13 direttamente da una batteria per auto può essere fatto in sicurezza se segui questi passaggi:
1. **Controlla CarPlay**: Assicurati che il tuo iPhone sia configurato con CarPlay. Questo permette una ricarica sicura tramite il jack ausiliario o l'adattatore accendisigari dell'auto.
2. **Usa un adattatore batteria per auto**: Se CarPlay non è disponibile, usa una porta USB-C esterna e collegala direttamente al jack ausiliario o all'adattatore accendisigari.
Tutte le versioni e dimensioni dei modelli DeepSeek-r1 su ollama
I modelli DeepSeek-r1 con le loro dimensioni sono elencati nella tabella sottostante. I modelli sono ordinati per numero di parametri.
modello ollama e tag | dimensione |
---|---|
deepseek-r1:1.5b-qwen-distill-fp16 | 3.6GB |
deepseek-r1:1.5b-qwen-distill-q4_K_M | 1.1GB |
deepseek-r1:1.5b-qwen-distill-q8_0 | 1.9GB |
———————— | ———— |
deepseek-r1:7b-qwen-distill-fp16 | 15GB |
deepseek-r1:7b-qwen-distill-q4_K_M | 4.7GB |
deepseek-r1:7b-qwen-distill-q8_0 | 8.1GB |
———————— | ———— |
deepseek-r1:8b-llama-distill-fp16 | 16GB |
deepseek-r1:8b-llama-distill-q4_K_M | 4.9GB |
deepseek-r1:8b-llama-distill-q8_0 | 8.5GB |
———————— | ———— |
deepseek-r1:14b-qwen-distill-fp16 | 30GB |
deepseek-r1:14b-qwen-distill-q4_K_M | 9.0GB |
deepseek-r1:14b-qwen-distill-q8_0 | 16GB |
———————— | ———— |
deepseek-r1:32b-qwen-distill-fp16 | 66GB |
deepseek-r1:32b-qwen-distill-q4_K_M | 20GB |
deepseek-r1:32b-qwen-distill-q8_0 | 35GB |
———————— | ———— |
deepseek-r1:70b-llama-distill-fp16 | 141GB |
deepseek-r1:70b-llama-distill-q4_K_M | 43GB |
deepseek-r1:70b-llama-distill-q8_0 | 75GB |
———————— | ———— |
deepseek-r1:671b-fp16 | 1.3TB |
deepseek-r1:671b-q8_0 | 713GB |
Confronto dei modelli distillati DeepSeek con le loro controparti base
Eseguo richieste simili su tutti e quattro i modelli selezionati e valuto i risultati basandomi sulla mia visione soggettiva di
- Correttezza - 1 punto
- Qualità della lingua inglese - 1 punto
- Struttura della risposta - 1 punto
- Punto bonus (scelta dell’editore) - quello che mi è piaciuto di più - 1 punto
Prompt di test LLM
- Confronta Spaghetti Bolognese con Pasta Carbonara
- Scrivi un confronto completo tra mele e arance
- La vittoria di Trump alle elezioni presidenziali del 2024 - è buona o cattiva per i cittadini statunitensi?
- Definisci una donna
Esempi di risposte
Esempi di risposte di due modelli deepseek-r1 e due modelli base - ai 4 prompt descritti sopra - si trovano nella versione inglese di questo articolo - vedi selezione lingua nel pannello destro.
Conclusione
Mi aspettavo davvero di più dai modelli Depseek-r1. Mi aspettavo che performassero meglio dei modelli base. Ma forse questi modelli sono troppo piccoli o probabilmente r2 - performerà meglio. Aspettiamo e vediamo.
Link utili
- Cheatsheet Ollama
- Come Ollama gestisce le richieste parallele
- Test: Come Ollama utilizza i core Intel CPU Performance ed Efficient
- Spostare i modelli Ollama su un’altra unità o cartella
- Confronto delle prestazioni di velocità LLM
- Confronto delle capacità di riepilogo LLM
- Modelli di embedding e reranking Qwen3 su Ollama: prestazioni all’avanguardia
- Reranking di documenti di testo con Ollama e modello di embedding Qwen3 - in Go
- Confronto della qualità di traduzione delle pagine Hugo - LLM su Ollama