¿Cuáles son los comandos más populares en Ollama?

Los comandos más populares en Ollama son: ollama list, ollama pull, ollama rm y ollama run.

Hoja de referencia de Ollama - comandos más útiles

Compilé esta lista de comandos de Ollama hace algún tiempo...

Índice

Aquí está la lista y ejemplos de los comandos más útiles de Ollama (cheat sheet de comandos de Ollama) Los compilé hace algún tiempo. Espero que también sea útil para ti aquí.

ollama cheat sheet

Este cheat sheet de Ollama se centra en comandos de CLI, gestión de modelos y personalización, pero también tenemos aquí algunos llamados curl también.

Instalación

Opción 1: Descargar desde el sitio web
- Visita ollama.com y descarga el instalador para tu sistema operativo (Mac, Linux o Windows).
Opción 2: Instalar desde la línea de comandos
- Para usuarios de Mac y Linux, usa el siguiente comando:

curl https://ollama.ai/install.sh | sh

Sigue las instrucciones en pantalla y introduce tu contraseña si se te solicita.

Requisitos del sistema

Sistema operativo: Mac o Linux (versión para Windows en desarrollo)
Memoria (RAM): Mínimo 8 GB, se recomienda 16 GB o más
Almacenamiento: Al menos ~10 GB de espacio libre (los archivos de modelos pueden ser muy grandes, consulta aquí más Mover modelos de Ollama a un disco diferente)
Procesador: Un CPU relativamente moderno (de los últimos 5 años).

Comandos básicos de CLI de Ollama

Comando	Descripción
`ollama serve`	Inicia Ollama en tu sistema local.
`ollama create <new_model>`	Crea un nuevo modelo a partir de uno existente para personalización o entrenamiento.
`ollama show <model>`	Muestra detalles sobre un modelo específico, como su configuración y fecha de lanzamiento.
`ollama run <model>`	Ejecuta el modelo especificado, preparándolo para la interacción.
`ollama pull <model>`	Descarga el modelo especificado a tu sistema.
`ollama list`	Lista todos los modelos descargados. El mismo que `ollama ls`
`ollama ps`	Muestra los modelos que están actualmente en ejecución.
`ollama stop <model>`	Detiene el modelo especificado que está en ejecución.
`ollama rm <model>`	Elimina el modelo especificado de tu sistema.
`ollama help`	Proporciona ayuda sobre cualquier comando.

Gestión de modelos

Descargar un modelo:
```
ollama pull mistral-nemo:12b-instruct-2407-q6_K
```
Este comando descarga el modelo especificado (por ejemplo, Gemma 2B o mistral-nemo:12b-instruct-2407-q6_K) a tu sistema. Los archivos del modelo pueden ser bastante grandes, así que mantén un ojo en el espacio utilizado por los modelos en el disco duro o SSD. Incluso podrías querer mover todos los modelos de Ollama desde tu directorio de inicio a otro disco más grande y mejor
Ejecutar un modelo:
```
ollama run qwen2.5:32b-instruct-q3_K_S
```
Este comando inicia el modelo especificado y abre un REPL interactivo para la interacción.

Listar modelos:

ollama list

lo mismo que:

ollama ls

Este comando lista todos los modelos que han sido descargados a tu sistema, como

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 semanas atrás     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 semanas atrás     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 semanas atrás     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 semanas atrás     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 semanas atrás     
qwen3:8b                                                500a1f067a9f    5.2 GB    5 semanas atrás     
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 semanas atrás     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 semanas atrás     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 semanas atrás

Detener un modelo:
```
ollama stop llama3.1:8b-instruct-q8_0
```
Este comando detiene el modelo especificado que está en ejecución.

Liberar modelos de la VRAM

Cuando un modelo se carga en la VRAM (memoria de la GPU), permanece allí incluso después de que termines de usarlo. Para liberar explícitamente un modelo de la VRAM y liberar la memoria de la GPU, puedes enviar una solicitud al API de Ollama con keep_alive: 0.

Liberar modelo de la VRAM usando curl:

curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Reemplaza MODELNAME con el nombre real de tu modelo, por ejemplo:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'

Liberar modelo de la VRAM usando Python:

import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Esto es especialmente útil cuando:

Necesitas liberar la memoria de la GPU para otras aplicaciones
Estás ejecutando múltiples modelos y quieres gestionar el uso de la VRAM
Has terminado de usar un modelo grande y quieres liberar los recursos inmediatamente

Nota: El parámetro keep_alive controla cuánto tiempo (en segundos) un modelo permanece cargado en la memoria después de la última solicitud. Establecerlo a 0 descarga inmediatamente el modelo de la VRAM.

Personalización de modelos

Establecer un prompt del sistema: Dentro del REPL de Ollama, puedes establecer un prompt del sistema para personalizar el comportamiento del modelo:
```
>>> /set system Para todas las preguntas respondas en inglés simple evitando el lenguaje técnico tanto como sea posible
>>> /save ipe
>>> /bye
```
Luego, ejecuta el modelo personalizado:
```
ollama run ipe
```
Esto establece un prompt del sistema y guarda el modelo para su uso futuro.
Crear un archivo de modelo personalizado: Crea un archivo de texto (por ejemplo, custom_model.txt) con la siguiente estructura:
```
FROM llama3.1
SYSTEM [Tus instrucciones personalizadas aquí]
```
Luego, ejecuta:
```
ollama create mymodel -f custom_model.txt
ollama run mymodel
```
Esto crea un modelo personalizado basado en las instrucciones del archivo.

Usar Ollama con archivos

Resumir texto de un archivo:
```
ollama run llama3.2 "Resuma el contenido de este archivo en 50 palabras." < input.txt
```
Este comando resume el contenido de input.txt usando el modelo especificado.
Grabar las respuestas del modelo en un archivo:
```
ollama run llama3.2 "Háblame sobre las energías renovables." > output.txt
```
Este comando guarda la respuesta del modelo en output.txt.

Casos de uso comunes

Generación de texto:

Resumir un archivo de texto grande:

ollama run llama3.2 "Resuma el siguiente texto:" < long-document.txt

Generar contenido:

ollama run llama3.2 "Escribe un artículo corto sobre los beneficios del uso de la IA en la salud." > article.txt

Contestar preguntas específicas:

ollama run llama3.2 "¿Cuáles son las últimas tendencias en IA y cómo afectarán la salud?"

Procesamiento y análisis de datos:
- Clasificar texto en positivo, negativo o neutro:
```
ollama run llama3.2 "Analiza el sentimiento de esta reseña del cliente: 'El producto es fantástico, pero el envío fue lento.'"
```
- Categorizar texto en categorías predefinidas: Usa comandos similares para clasificar o categorizar texto según criterios predefinidos.

Usar Ollama con Python

Instalar la biblioteca de Python de Ollama:
```
pip install ollama
```

Generar texto usando Python:

import ollama

response = ollama.generate(model='gemma:2b', prompt='¿Qué es un qubit?')
print(response['response'])

Este fragmento de código genera texto usando el modelo y el prompt especificado.