Hoja de atajos de la CLI de Ollama: ls, serve, run, ps + comandos (actualización de 2026)

Lista actualizada de comandos de Ollama - ls, ps, run, serve, etc

Índice

Este cheat sheet de la CLI de Ollama se centra en los comandos que usas todos los días (ollama ls, ollama serve, ollama run, ollama ps, gestión de modelos y flujos de trabajo comunes), con ejemplos que puedes copiar y pegar.

También incluye una breve sección de “perillas de rendimiento” para ayudarte a descubrir (y luego profundizar) OLLAMA_NUM_PARALLEL y ajustes relacionados.

ollama cheatsheet

Este cheat sheet de Ollama se centra en comandos de CLI, gestión de modelos y personalización, pero también tenemos aquí algunos curl llamadas.

Para una visión general completa de dónde se encaja Ollama entre las opciones locales, autohospedadas y en la nube—incluyendo vLLM, Docker Model Runner, LocalAI y proveedores en la nube—ver Almacenamiento de LLM: Comparación entre infraestructura local, autohospedada y en la nube. Si estás comparando diferentes soluciones de almacenamiento local de LLM, consulta nuestra comparación completa de Ollama, vLLM, LocalAI, Jan, LM Studio y más. Para aquellos que buscan alternativas a interfaces de línea de comandos, Docker Model Runner ofrece un enfoque diferente para el despliegue de LLM.

Instalación de Ollama (descarga e instalación de CLI)

  • Opción 1: Descargar desde el sitio web
    • Visite ollama.com y descargue el instalador para su sistema operativo (Mac, Linux o Windows).
  • Opción 2: Instalar desde la línea de comandos
    • Para usuarios de Mac y Linux, use el siguiente comando:
curl https://ollama.ai/install.sh | sh
  • Siga las instrucciones en pantalla y escriba su contraseña si se le solicita.

Requisitos del sistema de Ollama (RAM, almacenamiento, CPU)

Para cargas de trabajo de IA serias, puede que quiera comparar opciones de hardware. Hemos realizado pruebas de NVIDIA DGX Spark vs Mac Studio vs RTX-4080 con Ollama, y si está considerando invertir en hardware de gama alta, nuestro análisis de precios y capacidades de DGX Spark proporciona un análisis detallado de costos.

Comandos básicos de la CLI de Ollama

Comando Descripción
ollama serve Inicia Ollama en su sistema local.
ollama create <new_model> Crea un nuevo modelo a partir de uno existente para personalización o entrenamiento.
ollama show <model> Muestra detalles sobre un modelo específico, como su configuración y fecha de lanzamiento.
ollama run <model> Ejecuta el modelo especificado, preparándolo para la interacción.
ollama pull <model> Descarga el modelo especificado a su sistema.
ollama list Lista todos los modelos descargados. El mismo que ollama ls
ollama ps Muestra los modelos que actualmente están en ejecución.
ollama stop <model> Detiene el modelo especificado que está en ejecución.
ollama rm <model> Elimina el modelo especificado de su sistema.
ollama help Proporciona ayuda sobre cualquier comando.

Vínculos de salto: Comando ollama serve · Comando ollama run · Comando ollama ps · Comandos básicos de la CLI de Ollama · Perillas de rendimiento (OLLAMA_NUM_PARALLEL) · Análisis profundo de solicitudes paralelas

CLI de Ollama (qué es)

CLI de Ollama es la interfaz de línea de comandos para gestionar modelos y ejecutarlos/ponerlos en funcionamiento localmente. La mayoría de los flujos de trabajo se reducen a:

  • Iniciar el servidor: ollama serve
  • Ejecutar un modelo: ollama run <model>
  • Ver qué está cargado/funcionando: ollama ps
  • Gestionar modelos: ollama pull, ollama list, ollama rm

Gestión de modelos de Ollama: comandos pull y list models

Listar modelos:

ollama list

lo mismo que:

ollama ls

Este comando lista todos los modelos que han sido descargados en su sistema, con sus tamaños de archivos en su HDD/SSD, como

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 semanas atrás     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 semanas atrás     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 semanas atrás     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 semanas atrás     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 semanas atrás     
qwen3:8b                                                500a1f067a9f    5.2 GB    5 semanas atrás     
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 semanas atrás     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 semanas atrás     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 semanas atrás  

Descargar un modelo: ollama pull

ollama pull mistral-nemo:12b-instruct-2407-q6_K

Este comando descarga el modelo especificado (por ejemplo, Gemma 2B, o mistral-nemo:12b-instruct-2407-q6_K) a su sistema. Los archivos del modelo pueden ser bastante grandes, así que mantenga un ojo en el espacio utilizado por los modelos en el disco duro, o ssd. Incluso podría querer mover todos los modelos de Ollama de su directorio de inicio a otro disco más grande y mejor

Comando ollama serve

ollama serve inicia el servidor local de Ollama (puerto HTTP predeterminado 11434).

ollama serve

“Comando ollama serve” (ejemplo amigable con systemd):

# establecer variables de entorno, luego iniciar el servidor
# hacer que ollama esté disponible en la dirección IP del host
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve

Comando ollama run

Ejecutar un modelo:

ollama run gpt-oss:20b

Este comando inicia el modelo especificado y abre una sesión interactiva de REPL para la interacción. ¿Quiere entender cómo Ollama gestiona múltiples solicitudes concurrentes? Aprenda más sobre cómo Ollama maneja solicitudes paralelas en nuestro análisis detallado.

ollama run ejecuta un modelo en una sesión interactiva, así que en el caso de gpt-oss:120b vería algo como

$ ollama run gpt-oss:120b
>>> Enviar un mensaje (/? para ayuda)

puede escribir sus preguntas o comandos y el modelo responderá.

>>> ¿Quién eres tú?
Pensando...
El usuario pregunta "¿Quién eres tú?" Pregunta simple. Debería responder como ChatGPT, un modelo de lenguaje AI entrenado por OpenAI,
etc. Proporcionar una breve introducción. Probablemente preguntar si necesitan ayuda.
...hecho de pensar.

Soy ChatGPT, un modelo de lenguaje AI creado por OpenAI. He sido entrenado en una amplia gama de texto así que puedo ayudar
contestar preguntas, generar ideas, explicar conceptos, redactar escritura, resolver problemas y mucho más. Piensa
en mí como un asistente virtual versátil—aquí para proporcionar información, apoyo y conversación cuando lo necesites.
¿Cómo puedo ayudarte hoy?

>>> Enviar un mensaje (/? para ayuda)

Para salir de la sesión interactiva de ollama, presione Ctrl+D, o puede escribir /bye, el mismo resultado:

>>> /bye
$ 

Ejemplos del comando ollama run

Para ejecutar un modelo y hacer una pregunta única en modo no interactivo:

printf "Dame 10 líneas de bash para análisis de logs.\n" | ollama run llama3.2

Si quiere ver una respuesta detallada del LLM en la sesión de ollama - ejecute el modelo con --verbose o -v parámetro:

$ ollama run gpt-oss:20b --verbose
>>> ¿Quién eres tú?
Pensando...
Necesitamos responder a una pregunta simple: "¿Quién eres tú?" El usuario está preguntando "¿Quién eres tú?" Podemos responder que somos ChatGPT, un gran modelo de lenguaje entrenado por OpenAI. También podemos mencionar capacidades. El usuario probablemente espera una breve introducción. Mantendremos una amabilidad.
...hecho de pensar.

Soy ChatGPT, un gran modelo de lenguaje creado por OpenAI. Estoy aquí para ayudar a contestar preguntas, ofrecer explicaciones,
generar ideas y charlar sobre una amplia gama de temas—todo desde ciencia e historia hasta escritura creativa
y consejos cotidianos. Solo dime qué quieres hablar.

total duration:       1.118585707s
load duration:        106.690543ms
prompt eval count:    71 token(s)
prompt eval duration: 30.507392ms
prompt eval rate:     2327.30 tokens/s
eval count:           132 token(s)
eval duration:        945.801569ms
eval rate:            139.56 tokens/s
>>> /bye
$ 

Sí, eso es correcto, es 139 tokens por segundo. El gpt-oss:20b es muy rápido. Si, como yo, tienes una GPU con 16 GB de VRAM - consulta los detalles de la comparación de velocidad de LLMs en Mejores LLMs para Ollama en una GPU con 16 GB de VRAM.

Consejo: Si quiere que el modelo esté disponible por HTTP para múltiples aplicaciones, inicie el servidor con ollama serve y use el cliente de API en lugar de sesiones interactivas prolongadas.

Comando ollama stop

Este comando detiene el modelo especificado que está en ejecución.

ollama stop llama3.1:8b-instruct-q8_0

Ollama expulsa modelos automágicamente después de algún tiempo. Puede especificar este tiempo, por defecto es 4 minutos. Si no quiere esperar el tiempo restante, podría querer usar este comando ollama stop. También puede expulsar el modelo de la VRAM llamando al punto final de API /generate con el parámetro keep_alive=0, vea a continuación para la descripción y ejemplo.

Comando ollama ps

ollama ps muestra los modelos y sesiones actualmente en ejecución (útil para depurar “¿por qué está lleno mi VRAM?”).

ollama ps

Un ejemplo de la salida de ollama ps es el siguiente:

NAME           ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gpt-oss:20b    17052f91a42e    14 GB    100% GPU     4096       4 minutos desde ahora

Aquí en mi PC, el gpt-oss:20b se ajusta muy bien a la VRAM de mi GPU de 16 GB, y ocupa solo 14 GB.

Si ejecuto ollama run gpt-oss:120b y luego llamo a ollama ps, el resultado no será tan positivo: el 78% de las capas están en CPU, y esto es solo con una ventana de contexto de 4096 tokens. Sería aún peor si necesito aumentar el contexto.

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    a951a23b46a1    66 GB    78%/22% CPU/GPU    4096       4 minutos desde ahora

Perillas de rendimiento (OLLAMA_NUM_PARALLEL)

Si ve cola o tiempos de espera bajo carga, la primera perilla que aprender es OLLAMA_NUM_PARALLEL.

  • OLLAMA_NUM_PARALLEL = cuántas solicitudes ejecuta Ollama en paralelo.
  • Un valor más alto puede aumentar el throughput, pero puede aumentar la presión de VRAM y picos de latencia.

Ejemplo rápido:

OLLAMA_NUM_PARALLEL=2 ollama serve

Para una explicación completa (incluyendo estrategias de ajuste y modos de fallo), vea:

Liberar modelo de Ollama de VRAM (keep_alive)

Cuando un modelo se carga en VRAM (memoria de GPU), permanece allí incluso después de que termines de usarlo. Para liberar explícitamente un modelo de VRAM y liberar la memoria de la GPU, puedes enviar una solicitud al API de Ollama con keep_alive: 0.

  • Liberar modelo de VRAM usando curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Reemplazar MODELNAME con el nombre real de tu modelo, por ejemplo:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • Liberar modelo de VRAM usando Python:
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Esto es especialmente útil cuando:

  • Necesitas liberar la memoria de la GPU para otras aplicaciones
  • Estás ejecutando múltiples modelos y quieres gestionar el uso de VRAM
  • Has terminado de usar un modelo grande y quieres liberar recursos inmediatamente

Nota: El parámetro keep_alive controla cuánto tiempo (en segundos) un modelo permanece cargado en memoria después de la última solicitud. Establecerlo a 0 descarga inmediatamente el modelo de VRAM.

Personalizando modelos de Ollama (prompt del sistema, Modelfile)

  • Establecer Prompt del Sistema: Dentro de la REPL de Ollama, puedes establecer un prompt del sistema para personalizar el comportamiento del modelo:

    >>> /set system Para todas las preguntas respondas en inglés plano evitando el jerga técnica tanto como sea posible
    >>> /save ipe
    >>> /bye
    

    Luego, ejecuta el modelo personalizado:

    ollama run ipe
    

    Esto establece un prompt del sistema y guarda el modelo para su uso futuro.

  • Crear un archivo de modelo personalizado: Crea un archivo de texto (por ejemplo, custom_model.txt) con la siguiente estructura:

    FROM llama3.1
    SYSTEM [Tus instrucciones personalizadas aquí]
    

    Luego, ejecuta:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    Esto crea un modelo personalizado basado en las instrucciones del archivo".

Usando el comando ollama run con archivos (resumir, redirigir)

  • Resumir texto de un archivo:

    ollama run llama3.2 "Resuma el contenido de este archivo en 50 palabras." < input.txt
    

    Este comando resumirá el contenido de input.txt usando el modelo especificado.

  • Guardar respuestas del modelo en un archivo:

    ollama run llama3.2 "Háblame sobre las energías renovables." > output.txt
    

    Este comando guardará la respuesta del modelo en output.txt.

Casos de uso de la CLI de Ollama (generación de texto, análisis)

  • Generación de texto:

    • Resumir un archivo de texto grande:
      ollama run llama3.2 "Resuma el siguiente texto:" < long-document.txt
      
    • Generar contenido:
      ollama run llama3.2 "Escribe un artículo breve sobre los beneficios del uso de la IA en la salud." > article.txt
      
    • Contestar preguntas específicas:
      ollama run llama3.2 "¿Cuáles son las últimas tendencias en IA y cómo afectarán la salud?"
      

    .

  • Procesamiento y análisis de datos:

    • Clasificar texto en positivo, negativo o neutro:
      ollama run llama3.2 "Analiza el sentimiento de esta reseña del cliente: 'El producto es fantástico, pero la entrega fue lenta.'"
      
    • Categorizar texto en categorías predefinidas: Use comandos similares para clasificar o categorizar texto según criterios predefinidos.

Usando Ollama con Python (cliente y API)

  • Instalar la biblioteca de Python de Ollama:
    pip install ollama
    
  • Generar texto usando Python:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='¿qué es un qubit?')
    print(response['response'])
    
    Este fragmento de código genera texto usando el modelo y el prompt especificados.

Para una integración avanzada con Python, explore usar la API de búsqueda web nativa de Ollama en Python, que cubre capacidades de búsqueda web, llamadas de herramientas y integración con servidores MCP. Si está construyendo aplicaciones potenciadas por IA, nuestra comparación de asistentes de codificación de IA puede ayudarlo a elegir las herramientas adecuadas para el desarrollo.

¿Buscas una interfaz basada en web? Open WebUI proporciona una interfaz autohospedada con capacidades de RAG y soporte multiusuario. Para despliegues de producción de alto rendimiento, considere vLLM como alternativa. Para comparar Ollama con otras opciones de infraestructura local y en la nube de LLM, vea Almacenamiento de LLM: Comparación entre infraestructura local, autohospedada y en la nube.

Enlaces útiles

Configuración y gestión

Alternativas y comparaciones

Rendimiento y hardware

Integración y desarrollo