Test di Deepseek-R1 su Ollama

Confronto di due modelli deepseek-r1 con due modelli base

La prima generazione di DeepSeek di modelli di ragionamento con prestazioni comparabili a OpenAI-o1, inclusi sei modelli densi distillati da DeepSeek-R1 basati su Llama e Qwen.

La libreria di modelli Ollama ha recentemente aggiunto un set di modelli DeepSeek basati su Llama 3.1 e 3.3 e Qwen 2.

Lama sulla strada di Londra in piedi accanto al cartello Deepseek-r1 Sopra è un’immagine generata da AI (dal modello Flux 1 dev) del Lama accanto al cartello deepseek-r1 sulla strada di Londra.

In questo post confronto due modelli DeepSeek-r1 con le loro controparti base Llama 3.1 e Qwen2

TL;DR - Riassunto dei risultati del test

  • Il miglior risultato: llama3.1:8b-instruct-q4_K_M
  • Entrambi i modelli deepseek-r1 deepseek-r1:7b-qwen-distill-q4_K_M e deepseek-r1:8b-llama-distill-q4_K_M - non hanno performato bene.
Modello Test 1 Test 2 Test 3 Test 4 Totale
deepseek-r1:7b-qwen-distill-q4_K_M 3 3 2 2 10
deepseek-r1:8b-llama-distill-q4_K_M 3 2 4 1 10
llama3.1:8b-instruct-q4_K_M 4 4 2 4 14
qwen2.5:7b-instruct-q4_K_M 3 3 3 3 12

Commenti

  • Nel Test 1 - tutti i modelli hanno performato bene, ma llama3.1:8b-instruct-q4_K_M ottiene un punto extra per aver fornito le sezioni Somiglianze e Differenze.
  • Nel Test 2 - deepseek-r1:8b-llama-distill-q4_K_M ha prodotto una risposta troppo breve, llama3.1:8b-instruct-q4_K_M - punto extra per Riassunto di confronto
  • Nel Test 3 - non mi è piaciuta l’inclinazione di sinistra in llama3.1:8b-instruct-q4_K_M, deepseek-r1:8b-llama-distill-q4_K_M ha prodotto un risultato bilanciato e ben strutturato.
  • Nel Test 4 - deepseek-r1:7b-qwen-distill-q4_K_M: DEI~30%; deepseek-r1:8b-llama-distill-q4_K_M - ha perso tutto nell’identità di genere, DEI e vittimizzazione. llama3.1:8b-instruct-q4_K_M - risposta ben strutturata e al punto.

Installare Ollama

Installa il server Ollama da https://ollama.com .

Per istruzioni dettagliate vedi Installa Ollama e configura la posizione dei modelli

Scaricare i modelli DeepSeek-r1, Llama 3.1 e Qwen 2

Sto testando qui i modelli DeepSeek 7b-qwen-distill-q4_K_M, 8b-llama-distill-q4_K_M, modello Llama: llama3.1:8b-instruct-q4_K_M e modello Qwen 2.5: qwen2.5:7b-instruct-q4_K_M

Download dei modelli DeepSeek-r1, Llama3.1 e Qwen2.5

ollama pull deepseek-r1:7b-qwen-distill-q4_K_M
ollama pull deepseek-r1:8b-llama-distill-q4_K_M
ollama pull llama3.1:8b-instruct-q4_K_M
ollama pull qwen2.5:7b-instruct-q4_K_M

Eseguire i modelli DeepSeek-r1

Esecuzione dei modelli DeepSeek-r1 e altri modelli LLM

ollama run deepseek-r1:7b-qwen-distill-q4_K_M
ollama run deepseek-r1:8b-llama-distill-q4_K_M
ollama run llama3.1:8b-instruct-q4_K_M
ollama run qwen2.5:7b-instruct-q4_K_M

Quando esegui un prompt sui modelli DeepSeek-r1 in ollama riceverai prima i pensieri tra i tag e poi il risultato compilato, ad esempio:

>>> come caricare un telefono da una batteria per auto?
<think>
Ok, quindi voglio capire come caricare il mio telefono usando una batteria per auto. Ho un iPhone 13 e una normale batteria per auto. So che le batterie per auto possono essere potenti, ma non sono sicuro se siano sicure per l'elettronica come il mio telefono...
</think>

Caricare il tuo iPhone 13 direttamente da una batteria per auto può essere fatto in sicurezza se segui questi passaggi:

1. **Controlla CarPlay**: Assicurati che il tuo iPhone sia configurato con CarPlay. Questo permette una ricarica sicura tramite il jack ausiliario o l'adattatore accendisigari dell'auto.

2. **Usa un adattatore batteria per auto**: Se CarPlay non è disponibile, usa una porta USB-C esterna e collegala direttamente al jack ausiliario o all'adattatore accendisigari.

Tutte le versioni e dimensioni dei modelli DeepSeek-r1 su ollama

I modelli DeepSeek-r1 con le loro dimensioni sono elencati nella tabella sottostante. I modelli sono ordinati per numero di parametri.

modello ollama e tag dimensione
deepseek-r1:1.5b-qwen-distill-fp16 3.6GB
deepseek-r1:1.5b-qwen-distill-q4_K_M 1.1GB
deepseek-r1:1.5b-qwen-distill-q8_0 1.9GB
———————— ————
deepseek-r1:7b-qwen-distill-fp16 15GB
deepseek-r1:7b-qwen-distill-q4_K_M 4.7GB
deepseek-r1:7b-qwen-distill-q8_0 8.1GB
———————— ————
deepseek-r1:8b-llama-distill-fp16 16GB
deepseek-r1:8b-llama-distill-q4_K_M 4.9GB
deepseek-r1:8b-llama-distill-q8_0 8.5GB
———————— ————
deepseek-r1:14b-qwen-distill-fp16 30GB
deepseek-r1:14b-qwen-distill-q4_K_M 9.0GB
deepseek-r1:14b-qwen-distill-q8_0 16GB
———————— ————
deepseek-r1:32b-qwen-distill-fp16 66GB
deepseek-r1:32b-qwen-distill-q4_K_M 20GB
deepseek-r1:32b-qwen-distill-q8_0 35GB
———————— ————
deepseek-r1:70b-llama-distill-fp16 141GB
deepseek-r1:70b-llama-distill-q4_K_M 43GB
deepseek-r1:70b-llama-distill-q8_0 75GB
———————— ————
deepseek-r1:671b-fp16 1.3TB
deepseek-r1:671b-q8_0 713GB

Confronto dei modelli distillati DeepSeek con le loro controparti base

Eseguo richieste simili su tutti e quattro i modelli selezionati e valuto i risultati basandomi sulla mia visione soggettiva di

  • Correttezza - 1 punto
  • Qualità della lingua inglese - 1 punto
  • Struttura della risposta - 1 punto
  • Punto bonus (scelta dell’editore) - quello che mi è piaciuto di più - 1 punto

Prompt di test LLM

  1. Confronta Spaghetti Bolognese con Pasta Carbonara
  2. Scrivi un confronto completo tra mele e arance
  3. La vittoria di Trump alle elezioni presidenziali del 2024 - è buona o cattiva per i cittadini statunitensi?
  4. Definisci una donna

Esempi di risposte

Esempi di risposte di due modelli deepseek-r1 e due modelli base - ai 4 prompt descritti sopra - si trovano nella versione inglese di questo articolo - vedi selezione lingua nel pannello destro.


Conclusione

Mi aspettavo davvero di più dai modelli Depseek-r1. Mi aspettavo che performassero meglio dei modelli base. Ma forse questi modelli sono troppo piccoli o probabilmente r2 - performerà meglio. Aspettiamo e vediamo.