Quali sono i comandi più popolari in Ollama?

I comandi più popolari in Ollama sono: ollama list, ollama pull, ollama rm e ollama run.

Ollama Cheatsheet - comandi più utili

Compilato questa lista di comandi Ollama un po' di tempo fa...

Indice

Ecco l’elenco e gli esempi dei comandi più utili di Ollama (Ollama commands cheatsheet) Li ho compilati un po’ di tempo fa. Spero che siano utili anche per te useful to you.

ollama cheatsheet

Questo foglio di riferimento di Ollama si concentra sui comandi CLI, sulla gestione dei modelli e sulla personalizzazione, Ma qui abbiamo anche alcuni curl richiami.

Installazione

Opzione 1: Scarica dal sito web
- Visita ollama.com e scarica l’installer per il tuo sistema operativo (Mac, Linux o Windows).
Opzione 2: Installa tramite riga di comando
- Per gli utenti Mac e Linux, utilizza il comando:

curl https://ollama.ai/install.sh | sh

Segui le istruzioni visualizzate a schermo e inserisci la tua password se richiesto.

Requisiti del sistema

Sistema operativo: Mac o Linux (versione Windows in sviluppo)
Memoria (RAM): Minimo 8 GB, consigliati 16 GB o più
Archiviazione: Almeno ~10 GB di spazio libero (i file dei modelli possono essere molto grandi, vedi qui di più Move Ollama Models to Different Drive )
Processore: Un processore relativamente moderno (degli ultimi 5 anni).

Comandi CLI di base di Ollama

Comando	Descrizione
`ollama serve`	Avvia Ollama sul tuo sistema locale.
`ollama create <new_model>`	Crea un nuovo modello da uno esistente per la personalizzazione o l’addestramento.
`ollama show <model>`	Mostra i dettagli su un modello specifico, ad esempio la sua configurazione e la data di rilascio.
`ollama run <model>`	Esegue il modello specificato, rendendolo pronto per l’interazione.
`ollama pull <model>`	Scarica il modello specificato sul tuo sistema.
`ollama list`	Elenca tutti i modelli scaricati. Lo stesso di `ollama ls`
`ollama ps`	Mostra i modelli in esecuzione correnti.
`ollama stop <model>`	Ferma il modello specifico in esecuzione.
`ollama rm <model>`	Rimuove il modello specifico dal tuo sistema.
`ollama help`	Fornisce aiuto su qualsiasi comando.

Gestione dei modelli

Scarica un modello:
```
ollama pull mistral-nemo:12b-instruct-2407-q6_K
```
Questo comando scarica il modello specificato (ad esempio, Gemma 2B, o mistral-nemo:12b-instruct-2407-q6_K) sul tuo sistema. I file del modello potrebbero essere molto grandi, quindi tieni d’occhio lo spazio utilizzato dai modelli sull’hard disk o sull’SSD. Potresti anche voler spostare tutti i modelli Ollama dalla tua directory home su un altro disco più grande e migliore
Esegui un modello:
```
ollama run qwen2.5:32b-instruct-q3_K_S
```
Questo comando avvia il modello specificato e apre un REPL interattivo per l’interazione.

Elenca i modelli:

ollama list

lo stesso di:

ollama ls

Questo comando elenca tutti i modelli scaricati sul tuo sistema, ad esempio

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 settimane fa     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 settimane fa     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 settimane fa     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 settimane fa     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 settimane fa     
qwen3:8b                                                500a1f067a9f    5.2 GB    5 settimane fa     
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 settimane fa     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 settimane fa     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 settimane fa

Ferma un modello:
```
ollama stop llama3.1:8b-instruct-q8_0
```
Questo comando ferma il modello specifico in esecuzione.

Rilascio del modello da VRAM

Quando un modello viene caricato in VRAM (memoria GPU), rimane lì anche dopo che hai finito di utilizzarlo. Per rilasciare esplicitamente un modello da VRAM e liberare la memoria GPU, puoi inviare una richiesta all’API Ollama con keep_alive: 0.

Rilascia il modello da VRAM utilizzando curl:

curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Sostituisci MODELNAME con il nome effettivo del tuo modello, ad esempio:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'

Rilascia il modello da VRAM utilizzando Python:

import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Questo è particolarmente utile quando:

Hai bisogno di liberare la memoria GPU per altre applicazioni
Stai eseguendo diversi modelli e vuoi gestire l’utilizzo della VRAM
Hai finito di utilizzare un modello grande e vuoi rilasciare le risorse immediatamente

Nota: Il parametro keep_alive controlla per quanto tempo (in secondi) un modello rimane caricato in memoria dopo l’ultima richiesta. Impostandolo su 0 lo scarica immediatamente da VRAM.

Personalizzazione dei modelli

Imposta il prompt del sistema: All’interno del REPL di Ollama, puoi impostare un prompt del sistema per personalizzare il comportamento del modello:
```
>>> /set system Per tutte le domande rispondi in inglese semplice evitando il più possibile il gergo tecnico
>>> /save ipe
>>> /bye
```
Poi, esegui il modello personalizzato:
```
ollama run ipe
```
Questo imposta un prompt del sistema e salva il modello per un uso futuro.
Crea un file del modello personalizzato: Crea un file di testo (ad esempio, custom_model.txt) con la seguente struttura:
```
FROM llama3.1
SYSTEM [Le tue istruzioni personalizzate qui]
```
Poi, esegui:
```
ollama create mymodel -f custom_model.txt
ollama run mymodel
```
Questo crea un modello personalizzato basato sulle istruzioni nel file.

Utilizzo di Ollama con i file

Riassunto del testo da un file:
```
ollama run llama3.2 "Riassumi il contenuto di questo file in 50 parole." < input.txt
```
Questo comando riassume il contenuto di input.txt utilizzando il modello specificato.
Registra le risposte del modello in un file:
```
ollama run llama3.2 "Dimmi qualcosa sull'energia rinnovabile." > output.txt
```
Questo comando salva la risposta del modello in output.txt.

Caso d’uso comune

Generazione di testo:

Riassumere un grande file di testo:

ollama run llama3.2 "Riassumi il seguente testo:" < long-document.txt

Generare contenuti:

ollama run llama3.2 "Scrivi un breve articolo sui benefici dell'utilizzo dell'AI nella sanità." > article.txt

Rispondere a domande specifiche:

ollama run llama3.2 "Quali sono le ultime tendenze nell'AI e come influenzeranno la sanità?"

Elaborazione e analisi dei dati:
- Classificare il testo in sentimenti positivi, negativi o neutri:
```
ollama run llama3.2 "Analizza il sentiment di questa recensione del cliente: 'Il prodotto è fantastico, ma la consegna è stata lenta.'"
```
- Categorizzare il testo in categorie predefinite: Utilizza comandi simili per classificare o categorizzare il testo in base a criteri predefiniti.

Utilizzo di Ollama con Python

Installa la libreria Python di Ollama:
```
pip install ollama
```

Genera testo utilizzando Python:

import ollama

response = ollama.generate(model='gemma:2b', prompt='cosa è un qubit?')
print(response['response'])

Questo frammento di codice genera testo utilizzando il modello e il prompt specificati.