Hoja de referencia de Ollama - comandos más útiles

Compilé esta lista de comandos de Ollama hace algún tiempo...

Índice

Aquí está la lista y ejemplos de los comandos más útiles de Ollama (cheat sheet de comandos de Ollama) Los compilé hace algún tiempo. Espero que también sea útil para ti aquí.

ollama cheat sheet

Este cheat sheet de Ollama se centra en comandos de CLI, gestión de modelos y personalización, pero también tenemos aquí algunos llamados curl también.

Instalación

  • Opción 1: Descargar desde el sitio web
    • Visita ollama.com y descarga el instalador para tu sistema operativo (Mac, Linux o Windows).
  • Opción 2: Instalar desde la línea de comandos
    • Para usuarios de Mac y Linux, usa el siguiente comando:
curl https://ollama.ai/install.sh | sh
  • Sigue las instrucciones en pantalla y introduce tu contraseña si se te solicita.

Requisitos del sistema

  • Sistema operativo: Mac o Linux (versión para Windows en desarrollo)
  • Memoria (RAM): Mínimo 8 GB, se recomienda 16 GB o más
  • Almacenamiento: Al menos ~10 GB de espacio libre (los archivos de modelos pueden ser muy grandes, consulta aquí más Mover modelos de Ollama a un disco diferente)
  • Procesador: Un CPU relativamente moderno (de los últimos 5 años).

Comandos básicos de CLI de Ollama

Comando Descripción
ollama serve Inicia Ollama en tu sistema local.
ollama create <new_model> Crea un nuevo modelo a partir de uno existente para personalización o entrenamiento.
ollama show <model> Muestra detalles sobre un modelo específico, como su configuración y fecha de lanzamiento.
ollama run <model> Ejecuta el modelo especificado, preparándolo para la interacción.
ollama pull <model> Descarga el modelo especificado a tu sistema.
ollama list Lista todos los modelos descargados. El mismo que ollama ls
ollama ps Muestra los modelos que están actualmente en ejecución.
ollama stop <model> Detiene el modelo especificado que está en ejecución.
ollama rm <model> Elimina el modelo especificado de tu sistema.
ollama help Proporciona ayuda sobre cualquier comando.

Gestión de modelos

  • Descargar un modelo:

    ollama pull mistral-nemo:12b-instruct-2407-q6_K
    

    Este comando descarga el modelo especificado (por ejemplo, Gemma 2B o mistral-nemo:12b-instruct-2407-q6_K) a tu sistema. Los archivos del modelo pueden ser bastante grandes, así que mantén un ojo en el espacio utilizado por los modelos en el disco duro o SSD. Incluso podrías querer mover todos los modelos de Ollama desde tu directorio de inicio a otro disco más grande y mejor

  • Ejecutar un modelo:

    ollama run qwen2.5:32b-instruct-q3_K_S
    

    Este comando inicia el modelo especificado y abre un REPL interactivo para la interacción.

  • Listar modelos:

    ollama list
    

    lo mismo que:

    ollama ls
    

    Este comando lista todos los modelos que han sido descargados a tu sistema, como

    $ ollama ls
    NAME                                                    ID              SIZE      MODIFIED     
    deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 semanas atrás     
    gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 semanas atrás     
    LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 semanas atrás     
    dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 semanas atrás     
    dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 semanas atrás     
    qwen3:8b                                                500a1f067a9f    5.2 GB    5 semanas atrás     
    qwen3:14b                                               bdbd181c33f2    9.3 GB    5 semanas atrás     
    qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 semanas atrás     
    devstral:24b                                            c4b2fa0c33d7    14 GB     5 semanas atrás  
    
  • Detener un modelo:

    ollama stop llama3.1:8b-instruct-q8_0
    

    Este comando detiene el modelo especificado que está en ejecución.

Liberar modelos de la VRAM

Cuando un modelo se carga en la VRAM (memoria de la GPU), permanece allí incluso después de que termines de usarlo. Para liberar explícitamente un modelo de la VRAM y liberar la memoria de la GPU, puedes enviar una solicitud al API de Ollama con keep_alive: 0.

  • Liberar modelo de la VRAM usando curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Reemplaza MODELNAME con el nombre real de tu modelo, por ejemplo:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • Liberar modelo de la VRAM usando Python:
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Esto es especialmente útil cuando:

  • Necesitas liberar la memoria de la GPU para otras aplicaciones
  • Estás ejecutando múltiples modelos y quieres gestionar el uso de la VRAM
  • Has terminado de usar un modelo grande y quieres liberar los recursos inmediatamente

Nota: El parámetro keep_alive controla cuánto tiempo (en segundos) un modelo permanece cargado en la memoria después de la última solicitud. Establecerlo a 0 descarga inmediatamente el modelo de la VRAM.

Personalización de modelos

  • Establecer un prompt del sistema: Dentro del REPL de Ollama, puedes establecer un prompt del sistema para personalizar el comportamiento del modelo:

    >>> /set system Para todas las preguntas respondas en inglés simple evitando el lenguaje técnico tanto como sea posible
    >>> /save ipe
    >>> /bye
    

    Luego, ejecuta el modelo personalizado:

    ollama run ipe
    

    Esto establece un prompt del sistema y guarda el modelo para su uso futuro.

  • Crear un archivo de modelo personalizado: Crea un archivo de texto (por ejemplo, custom_model.txt) con la siguiente estructura:

    FROM llama3.1
    SYSTEM [Tus instrucciones personalizadas aquí]
    

    Luego, ejecuta:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    Esto crea un modelo personalizado basado en las instrucciones del archivo.

Usar Ollama con archivos

  • Resumir texto de un archivo:

    ollama run llama3.2 "Resuma el contenido de este archivo en 50 palabras." < input.txt
    

    Este comando resume el contenido de input.txt usando el modelo especificado.

  • Grabar las respuestas del modelo en un archivo:

    ollama run llama3.2 "Háblame sobre las energías renovables." > output.txt
    

    Este comando guarda la respuesta del modelo en output.txt.

Casos de uso comunes

  • Generación de texto:

    • Resumir un archivo de texto grande:
      ollama run llama3.2 "Resuma el siguiente texto:" < long-document.txt
      
    • Generar contenido:
      ollama run llama3.2 "Escribe un artículo corto sobre los beneficios del uso de la IA en la salud." > article.txt
      
    • Contestar preguntas específicas:
      ollama run llama3.2 "¿Cuáles son las últimas tendencias en IA y cómo afectarán la salud?"
      

    .

  • Procesamiento y análisis de datos:

    • Clasificar texto en positivo, negativo o neutro:
      ollama run llama3.2 "Analiza el sentimiento de esta reseña del cliente: 'El producto es fantástico, pero el envío fue lento.'"
      
    • Categorizar texto en categorías predefinidas: Usa comandos similares para clasificar o categorizar texto según criterios predefinidos.

Usar Ollama con Python

  • Instalar la biblioteca de Python de Ollama:
    pip install ollama
    
  • Generar texto usando Python:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='¿Qué es un qubit?')
    print(response['response'])
    
    Este fragmento de código genera texto usando el modelo y el prompt especificado.

Enlaces útiles