Hoja de referencia de Ollama - comandos más útiles
Compilé esta lista de comandos de Ollama hace algún tiempo...
Aquí está la lista y ejemplos de los comandos más útiles de Ollama (cheat sheet de comandos de Ollama) Los compilé hace algún tiempo. Espero que también sea útil para ti aquí.

Este cheat sheet de Ollama se centra en comandos de CLI, gestión de modelos y personalización, pero también tenemos aquí algunos llamados curl también.
Instalación
- Opción 1: Descargar desde el sitio web
- Visita ollama.com y descarga el instalador para tu sistema operativo (Mac, Linux o Windows).
- Opción 2: Instalar desde la línea de comandos
- Para usuarios de Mac y Linux, usa el siguiente comando:
curl https://ollama.ai/install.sh | sh
- Sigue las instrucciones en pantalla y introduce tu contraseña si se te solicita.
Requisitos del sistema
- Sistema operativo: Mac o Linux (versión para Windows en desarrollo)
- Memoria (RAM): Mínimo 8 GB, se recomienda 16 GB o más
- Almacenamiento: Al menos ~10 GB de espacio libre (los archivos de modelos pueden ser muy grandes, consulta aquí más Mover modelos de Ollama a un disco diferente)
- Procesador: Un CPU relativamente moderno (de los últimos 5 años).
Comandos básicos de CLI de Ollama
| Comando | Descripción |
|---|---|
ollama serve |
Inicia Ollama en tu sistema local. |
ollama create <new_model> |
Crea un nuevo modelo a partir de uno existente para personalización o entrenamiento. |
ollama show <model> |
Muestra detalles sobre un modelo específico, como su configuración y fecha de lanzamiento. |
ollama run <model> |
Ejecuta el modelo especificado, preparándolo para la interacción. |
ollama pull <model> |
Descarga el modelo especificado a tu sistema. |
ollama list |
Lista todos los modelos descargados. El mismo que ollama ls |
ollama ps |
Muestra los modelos que están actualmente en ejecución. |
ollama stop <model> |
Detiene el modelo especificado que está en ejecución. |
ollama rm <model> |
Elimina el modelo especificado de tu sistema. |
ollama help |
Proporciona ayuda sobre cualquier comando. |
Gestión de modelos
-
Descargar un modelo:
ollama pull mistral-nemo:12b-instruct-2407-q6_KEste comando descarga el modelo especificado (por ejemplo, Gemma 2B o mistral-nemo:12b-instruct-2407-q6_K) a tu sistema. Los archivos del modelo pueden ser bastante grandes, así que mantén un ojo en el espacio utilizado por los modelos en el disco duro o SSD. Incluso podrías querer mover todos los modelos de Ollama desde tu directorio de inicio a otro disco más grande y mejor
-
Ejecutar un modelo:
ollama run qwen2.5:32b-instruct-q3_K_SEste comando inicia el modelo especificado y abre un REPL interactivo para la interacción.
-
Listar modelos:
ollama listlo mismo que:
ollama lsEste comando lista todos los modelos que han sido descargados a tu sistema, como
$ ollama ls NAME ID SIZE MODIFIED deepseek-r1:8b 6995872bfe4c 5.2 GB 2 semanas atrás gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 semanas atrás LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 semanas atrás dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 semanas atrás dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 semanas atrás qwen3:8b 500a1f067a9f 5.2 GB 5 semanas atrás qwen3:14b bdbd181c33f2 9.3 GB 5 semanas atrás qwen3:30b-a3b 0b28110b7a33 18 GB 5 semanas atrás devstral:24b c4b2fa0c33d7 14 GB 5 semanas atrás -
Detener un modelo:
ollama stop llama3.1:8b-instruct-q8_0Este comando detiene el modelo especificado que está en ejecución.
Liberar modelos de la VRAM
Cuando un modelo se carga en la VRAM (memoria de la GPU), permanece allí incluso después de que termines de usarlo. Para liberar explícitamente un modelo de la VRAM y liberar la memoria de la GPU, puedes enviar una solicitud al API de Ollama con keep_alive: 0.
- Liberar modelo de la VRAM usando curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Reemplaza MODELNAME con el nombre real de tu modelo, por ejemplo:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Liberar modelo de la VRAM usando Python:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Esto es especialmente útil cuando:
- Necesitas liberar la memoria de la GPU para otras aplicaciones
- Estás ejecutando múltiples modelos y quieres gestionar el uso de la VRAM
- Has terminado de usar un modelo grande y quieres liberar los recursos inmediatamente
Nota: El parámetro keep_alive controla cuánto tiempo (en segundos) un modelo permanece cargado en la memoria después de la última solicitud. Establecerlo a 0 descarga inmediatamente el modelo de la VRAM.
Personalización de modelos
-
Establecer un prompt del sistema: Dentro del REPL de Ollama, puedes establecer un prompt del sistema para personalizar el comportamiento del modelo:
>>> /set system Para todas las preguntas respondas en inglés simple evitando el lenguaje técnico tanto como sea posible >>> /save ipe >>> /byeLuego, ejecuta el modelo personalizado:
ollama run ipeEsto establece un prompt del sistema y guarda el modelo para su uso futuro.
-
Crear un archivo de modelo personalizado: Crea un archivo de texto (por ejemplo,
custom_model.txt) con la siguiente estructura:FROM llama3.1 SYSTEM [Tus instrucciones personalizadas aquí]Luego, ejecuta:
ollama create mymodel -f custom_model.txt ollama run mymodelEsto crea un modelo personalizado basado en las instrucciones del archivo.
Usar Ollama con archivos
-
Resumir texto de un archivo:
ollama run llama3.2 "Resuma el contenido de este archivo en 50 palabras." < input.txtEste comando resume el contenido de
input.txtusando el modelo especificado. -
Grabar las respuestas del modelo en un archivo:
ollama run llama3.2 "Háblame sobre las energías renovables." > output.txtEste comando guarda la respuesta del modelo en
output.txt.
Casos de uso comunes
-
Generación de texto:
- Resumir un archivo de texto grande:
ollama run llama3.2 "Resuma el siguiente texto:" < long-document.txt - Generar contenido:
ollama run llama3.2 "Escribe un artículo corto sobre los beneficios del uso de la IA en la salud." > article.txt - Contestar preguntas específicas:
ollama run llama3.2 "¿Cuáles son las últimas tendencias en IA y cómo afectarán la salud?"
.
- Resumir un archivo de texto grande:
-
Procesamiento y análisis de datos:
- Clasificar texto en positivo, negativo o neutro:
ollama run llama3.2 "Analiza el sentimiento de esta reseña del cliente: 'El producto es fantástico, pero el envío fue lento.'" - Categorizar texto en categorías predefinidas: Usa comandos similares para clasificar o categorizar texto según criterios predefinidos.
- Clasificar texto en positivo, negativo o neutro:
Usar Ollama con Python
- Instalar la biblioteca de Python de Ollama:
pip install ollama - Generar texto usando Python:
Este fragmento de código genera texto usando el modelo y el prompt especificado.
import ollama response = ollama.generate(model='gemma:2b', prompt='¿Qué es un qubit?') print(response['response'])
Enlaces útiles
- Comparación de asistentes de codificación de IA
- Mover modelos de Ollama a un disco o carpeta diferente
- Cómo maneja Ollama las solicitudes en paralelo
- Cómo Ollama utiliza el rendimiento de los núcleos de CPU de Intel y núcleos eficientes
- Prueba de Deepseek-r1 en Ollama
- Cheatsheet de Bash
- Modelos Qwen3 Embedding & Reranker en Ollama: Rendimiento de vanguardia