Folha de Dicas da CLI do Ollama: ls, serve, run, ps + comandos (atualização de 2026)

Lista atualizada de comandos do Ollama - ls, ps, run, serve, etc

Conteúdo da página

Este Guia de Atalhos do CLI do Ollama se concentra nos comandos que você usa todos os dias (ollama ls, ollama serve, ollama run, ollama ps, gerenciamento de modelos e fluxos de trabalho comuns), com exemplos que você pode copiar e colar.

Ele também inclui uma breve seção de “parafusos de desempenho” para ajudá-lo a descobrir (e depois mergulhar profundamente) OLLAMA_NUM_PARALLEL e configurações relacionadas.

ollama cheatsheet

Este guia de atalhos do Ollama se concentra em comandos do CLI, gerenciamento de modelos e personalização, mas também tem aqui alguns curl chamadas.

Para uma visão completa de onde o Ollama se encaixa entre opções locais, auto-hospedadas e em nuvem — incluindo vLLM, Docker Model Runner, LocalAI e provedores de nuvem — veja Hostagem de LLM: Local, Auto-Hospedado & Infraestrutura em Nuvem Comparada. Se você está comparando diferentes soluções locais de hostagem de LLM, consulte nossa comparação abrangente de Ollama, vLLM, LocalAI, Jan, LM Studio e mais. Para aqueles que buscam alternativas a interfaces de linha de comando, Docker Model Runner oferece uma abordagem diferente para a implantação de LLM.

Instalação do Ollama (download e instalação do CLI)

  • Opção 1: Faça o download do site
    • Visite ollama.com e faça o download do instalador para seu sistema operacional (Mac, Linux ou Windows).
  • Opção 2: Instale via Linha de Comando
    • Para usuários de Mac e Linux, use o comando:
curl https://ollama.ai/install.sh | sh
  • Siga as instruções na tela e insira sua senha se solicitado.

Requisitos do sistema do Ollama (RAM, armazenamento, CPU)

Para cargas de trabalho de IA sérias, você pode querer comparar opções de hardware. Nós benchmarkamos NVIDIA DGX Spark vs Mac Studio vs RTX-4080 desempenho com Ollama, e se você estiver considerando investir em hardware de alta gama, nossa comparação de preços e capacidades do DGX Spark fornece uma análise detalhada de custos.

Comandos Básicos do CLI do Ollama

Comando Descrição
ollama serve Inicia o Ollama no seu sistema local.
ollama create <new_model> Cria um novo modelo a partir de um existente para personalização ou treinamento.
ollama show <model> Exibe detalhes sobre um modelo específico, como sua configuração e data de liberação.
ollama run <model> Executa o modelo especificado, tornando-o pronto para interação.
ollama pull <model> Baixa o modelo especificado para seu sistema.
ollama list Lista todos os modelos baixados. O mesmo que ollama ls
ollama ps Mostra os modelos atualmente em execução.
ollama stop <model> Para o modelo especificado em execução.
ollama rm <model> Remove o modelo especificado do seu sistema.
ollama help Fornece ajuda sobre qualquer comando.

Links de Salto: Comando Ollama serve · Comando Ollama run · Comando Ollama ps · Básicos do CLI do Ollama · Parafusos de desempenho (OLLAMA_NUM_PARALLEL) · Análise profunda de solicitações paralelas

CLI do Ollama (o que é)

CLI do Ollama é a interface de linha de comando para gerenciar modelos e executá-los localmente. A maioria dos fluxos de trabalho se resume a:

  • Iniciar o servidor: ollama serve
  • Executar um modelo: ollama run <model>
  • Ver o que está carregado/executando: ollama ps
  • Gerenciar modelos: ollama pull, ollama list, ollama rm

Gerenciamento de modelos do Ollama: comandos pull e list models

Listar Modelos:

ollama list

o mesmo que:

ollama ls

Este comando lista todos os modelos que foram baixados para seu sistema, com seus tamanhos de arquivo em seu HDD/SSD, como

$ ollama ls
NOME                                                    ID              TAMANHO      MODIFICADO     
deepseek-r1:8b                                          6995872bfe4c    5,2 GB    2 semanas atrás     
gemma3:12b-it-qat                                       5d4fa005e7bb    8,9 GB    2 semanas atrás     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 semanas atrás     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4,7 GB    4 semanas atrás     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2,9 GB    4 semanas atrás     
qwen3:8b                                                500a1f067a9f    5,2 GB    5 semanas atrás     
qwen3:14b                                               bdbd181c33f2    9,3 GB    5 semanas atrás     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 semanas atrás     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 semanas atrás  

Baixar um Modelo: ollama pull

ollama pull mistral-nemo:12b-instruct-2407-q6_K

Este comando baixa o modelo especificado (por exemplo, Gemma 2B, ou mistral-nemo:12b-instruct-2407-q6_K) para seu sistema. Os arquivos do modelo podem ser muito grandes, então fique atento ao espaço usado pelos modelos no disco rígido, ou ssd. Você pode até mesmo querer mover todos os modelos do Ollama do seu diretório home para outro disco maior e melhor

Comando Ollama serve

ollama serve inicia o servidor local do Ollama (porta HTTP padrão 11434).

ollama serve

“Comando ollama serve” (exemplo amigável para systemd):

# defina variáveis de ambiente, depois inicie o servidor
# faça o ollama disponível no endereço IP do host
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve

Comando Ollama run

Executar um Modelo:

ollama run gpt-oss:20b

Este comando inicia o modelo especificado e abre uma sessão interativa REPL para interação. Quer entender como o Ollama gerencia múltiplas solicitações simultâneas? Aprenda mais sobre como o Ollama lida com solicitações paralelas em nossa análise detalhada.

ollama run executa um modelo em uma sessão interativa, então, no caso de gpt-oss:120b, você veria algo como

$ ollama run gpt-oss:120b
>>> Envie uma mensagem (/? para ajuda)

você pode digitar suas perguntas ou comandos e o modelo responderá.

>>> quem é você?
Pensando...
O usuário pergunta "quem é você?" Pergunta simples. Deveria responder como ChatGPT, um modelo de linguagem de IA, treinado pela OpenAI, 
etc. Forneça uma breve introdução. Provavelmente pergunte se eles precisam de ajuda.
...feito de pensar.

Sou o ChatGPT, um modelo de linguagem de IA criado pela OpenAI. Fui treinado em uma ampla gama de texto, então posso ajudar 
responder perguntas, brainstorm ideias, explicar conceitos, redigir escrita, resolver problemas e muito mais. Pense 
em mim como um assistente virtual versátil — aqui para fornecer informações, suporte e conversas sempre que você precisar 
deles. Como posso ajudar você hoje?

>>> Envie uma mensagem (/? para ajuda)

Para sair da sessão interativa do ollama, pressione Ctrl+D, ou você pode digitar /bye, o mesmo resultado:

>>> /bye
$ 

Exemplos do comando Ollama run

Para executar um modelo e fazer uma pergunta única em modo não interativo:

printf "Dê-me 10 one-liners de bash para análise de log.\n" | ollama run llama3.2

Se você quiser ver uma resposta detalhada do LLM na sessão do ollama - execute o modelo com --verbose ou -v parâmetro:

$ ollama run gpt-oss:20b --verbose
>>> quem é você?
Pensando...
Precisamos responder a uma pergunta simples: "quem é você?" O usuário está perguntando "quem é você?" Podemos responder que somos o ChatGPT, um grande modelo de linguagem treinado pela OpenAI. Podemos também mencionar capacidades. O usuário provavelmente espera uma breve introdução. Manteremos amigável.
...feito de pensar.

Sou o ChatGPT, um grande modelo de linguagem criado pela OpenAI. Estou aqui para ajudar a responder perguntas, oferecer explicações, 
brainstorm ideias e conversar sobre uma ampla gama de tópicos — tudo desde ciência e história até escrita criativa 
e conselhos cotidianos. Basta me dizer sobre o que você gostaria de conversar!

duração total:       1,118585707s
duração de carregamento:        106,690543ms
contagem de tokens de avaliação do prompt:    71 token(s)
duração de avaliação do prompt: 30,507392ms
taxa de avaliação do prompt:     2327,30 tokens/s
contagem de avaliação:           132 token(s)
duração de avaliação:        945,801569ms
taxa de avaliação:            139,56 tokens/s
>>> /bye
$ 

Sim, está certo, é 139 tokens por segundo. O gpt-oss:20b é muito rápido. Se você, como eu, tem um GPU com 16GB de VRAM - veja os detalhes da comparação de velocidade de LLMs em Melhores LLMs para Ollama em GPU com 16GB de VRAM.

Dica: Se você quiser que o modelo esteja disponível via HTTP para múltiplos apps, inicie o servidor com ollama serve e use o cliente de API em vez de sessões interativas longas.

Comando Ollama stop

Este comando para o modelo especificado em execução.

ollama stop llama3.1:8b-instruct-q8_0

Ollama evita modelos automagicamente após algum tempo. Você pode especificar este tempo, o padrão é 4 minutos. Se você não quiser esperar o tempo restante, talvez queira usar este comando ollama stop. Você também pode expulsar o modelo da VRAM chamando o ponto de extremidade da API /generate com o parâmetro keep_alive=0, veja abaixo para a descrição e exemplo.

Comando Ollama ps

ollama ps mostra modelos e sessões atualmente em execução (útil para depurar “por que minha VRAM está cheia?”).

ollama ps

Um exemplo da saída do ollama ps está abaixo:

NOME           ID              TAMANHO     PROCESSADOR    CONTEXTO    ATÉ
gpt-oss:20b    17052f91a42e    14 GB    100% GPU     4096       4 minutos a partir de agora

Você vê aqui no meu PC o gpt-oss:20b se encaixa muito bem no meu GPU de 16GB de VRAM, e ocupou apenas 14GB.

Se eu executar ollama run gpt-oss:120b e depois chamar o ollama ps, o resultado não será tão bom: 78% das camadas estão no CPU, e isso é apenas com a janela de contexto de 4096 tokens. Seria pior se eu precisasse aumentar o contexto.

NOME            ID              TAMANHO     PROCESSADOR          CONTEXTO    ATÉ
gpt-oss:120b    a951a23b46a1    66 GB    78%/22% CPU/GPU    4096       4 minutos a partir de agora

Parafusos de desempenho (OLLAMA_NUM_PARALLEL)

Se você vir filas ou timeout sob carga, o primeiro parafuso a aprender é OLLAMA_NUM_PARALLEL.

  • OLLAMA_NUM_PARALLEL = quantas solicitações o Ollama executa em paralelo.
  • Um valor mais alto pode aumentar a taxa de transferência, mas pode aumentar a pressão de VRAM e picos de latência.

Exemplo rápido:

OLLAMA_NUM_PARALLEL=2 ollama serve

Para uma explicação completa (incluindo estratégias de ajuste e modos de falha), veja:

Liberando o modelo do Ollama da VRAM (keep_alive)

Quando um modelo é carregado na VRAM (memória da GPU), ele fica lá mesmo após você terminar de usá-lo. Para liberar explicitamente um modelo da VRAM e liberar a memória da GPU, você pode enviar uma solicitação para a API do Ollama com keep_alive: 0.

  • Liberar Modelo da VRAM usando curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Substitua MODELNAME pelo nome real do seu modelo, por exemplo:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • Liberar Modelo da VRAM usando Python:
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Isso é particularmente útil quando:

  • Você precisa liberar a memória da GPU para outras aplicações
  • Você está executando múltiplos modelos e quer gerenciar o uso da VRAM
  • Você terminou de usar um modelo grande e quer liberar os recursos imediatamente

Nota: O parâmetro keep_alive controla por quanto tempo (em segundos) um modelo permanece carregado na memória após a última solicitação. Definir como 0 descarrega imediatamente o modelo da VRAM.

Personalizando modelos do Ollama (prompt do sistema, Modelfile)

  • Definir Prompt do Sistema: Dentro do REPL do Ollama, você pode definir um prompt do sistema para personalizar o comportamento do modelo:

    >>> /set system Para todas as perguntas feitas, responda em inglês simples evitando o jargão técnico tanto quanto possível
    >>> /save ipe
    >>> /bye
    

    Depois, execute o modelo personalizado:

    ollama run ipe
    

    Isso define um prompt do sistema e salva o modelo para uso futuro.

  • Criar Arquivo de Modelo Personalizado: Crie um arquivo de texto (por exemplo, custom_model.txt) com a seguinte estrutura:

    FROM llama3.1
    SYSTEM [Suas instruções personalizadas aqui]
    

    Depois, execute:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    Isso cria um modelo personalizado com base nas instruções no arquivo.

Usando o comando Ollama run com arquivos (resumir, redirecionar)

  • Resumir texto de um arquivo:

    ollama run llama3.2 "Resuma o conteúdo deste arquivo em 50 palavras." < input.txt
    

    Este comando resumirá o conteúdo de input.txt usando o modelo especificado.

  • Registrar respostas do modelo em um arquivo:

    ollama run llama3.2 "Me conte sobre energia renovável." > output.txt
    

    Este comando salva a resposta do modelo em output.txt.

Casos de uso do CLI do Ollama (geração de texto, análise)

  • Geração de Texto:

    • Resumir um grande arquivo de texto:
      ollama run llama3.2 "Resuma o seguinte texto:" < long-document.txt
      
    • Gerar conteúdo:
      ollama run llama3.2 "Escreva um artigo curto sobre os benefícios do uso de IA na saúde." > article.txt
      
    • Responder a perguntas específicas:
      ollama run llama3.2 "Quais são as últimas tendências em IA e como elas afetarão a saúde?"
      

    .

  • Processamento e Análise de Dados:

    • Classificar texto em sentimentos positivos, negativos ou neutros:
      ollama run llama3.2 "Analise o sentimento desta avaliação do cliente: 'O produto é fantástico, mas a entrega foi lenta.'"
      
    • Categorizar texto em categorias pré-definidas: Use comandos semelhantes para classificar ou categorizar texto com base em critérios pré-definidos.

Usando Ollama com Python (cliente e API)

  • Instalar a biblioteca Python do Ollama:
    pip install ollama
    
  • Gerar texto usando Python:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='o que é um qubit?')
    print(response['response'])
    
    Este snippet de código gera texto usando o modelo e o prompt especificado.

Para integração avançada com Python, explore usar a API de busca da Web do Ollama em Python, que abrange capacidades de busca na web, chamada de ferramentas e integração com servidores MCP. Se você está construindo aplicações com IA, nossa comparação de assistentes de codificação de IA pode ajudá-lo a escolher as ferramentas certas para o desenvolvimento.

Procurando uma interface baseada em web? Open WebUI fornece uma interface auto-hospedada com capacidades de RAG e suporte a múltiplos usuários. Para implantações de produção de alto desempenho, considere vLLM como alternativa. Para comparar Ollama com outras opções de infraestrutura de LLM local e em nuvem, veja Hostagem de LLM: Local, Auto-Hospedado & Infraestrutura em Nuvem Comparada.

Configuração e Gerenciamento

Alternativas e Comparações

Desempenho e Hardware

Integração e Desenvolvimento