Quais são os comandos mais populares no Ollama?

Os comandos mais populares no Ollama são: ollama list, ollama pull, ollama rm e ollama run.

Guia Rápido do Ollama - comandos mais úteis

Compilei esta lista de comandos do Ollama há algum tempo...

Conteúdo da página

Aqui está a lista e exemplos dos comandos mais úteis do Ollama (folha de dicas dos comandos do Ollama) Compilei há algum tempo. Espero que também seja útil para você useful to you.

ollama cheatsheet

Esta folha de dicas do Ollama se concentra em comandos da linha de comando, gerenciamento de modelos e personalização, Mas também temos aqui alguns curl chamadas também.

Instalação

Opção 1: Baixar do site
- Visite ollama.com e baixe o instalador para seu sistema operacional (Mac, Linux ou Windows).
Opção 2: Instalar via linha de comando
- Para usuários de Mac e Linux, use o comando:

curl https://ollama.ai/install.sh | sh

Siga as instruções na tela e insira sua senha se solicitado.

Requisitos do sistema

Sistema operacional: Mac ou Linux (versão para Windows em desenvolvimento)
Memória (RAM): Mínimo 8 GB, recomendado 16 GB ou mais
Armazenamento: Pelo menos ~10 GB de espaço livre (os arquivos dos modelos podem ser realmente grandes, veja mais Mover modelos do Ollama para um disco diferente)
Processador: Um CPU relativamente moderno (dos últimos 5 anos).

Comandos básicos da CLI do Ollama

Comando	Descrição
`ollama serve`	Inicia o Ollama no seu sistema local.
`ollama create <new_model>`	Cria um novo modelo a partir de um existente para personalização ou treinamento.
`ollama show <model>`	Exibe detalhes sobre um modelo específico, como sua configuração e data de liberação.
`ollama run <model>`	Executa o modelo especificado, tornando-o pronto para interação.
`ollama pull <model>`	Baixa o modelo especificado para seu sistema.
`ollama list`	Lista todos os modelos baixados. O mesmo que `ollama ls`
`ollama ps`	Mostra os modelos que estão sendo executados no momento.
`ollama stop <model>`	Para o modelo especificado que está sendo executado.
`ollama rm <model>`	Remove o modelo especificado do seu sistema.
`ollama help`	Fornece ajuda sobre qualquer comando.

Gerenciamento de Modelos

Baixar um Modelo:
```
ollama pull mistral-nemo:12b-instruct-2407-q6_K
```
Este comando baixa o modelo especificado (por exemplo, Gemma 2B, ou mistral-nemo:12b-instruct-2407-q6_K) para seu sistema. Os arquivos do modelo podem ser bastante grandes, então fique atento ao espaço usado pelos modelos no disco rígido, ou SSD. Você pode até mesmo querer mover todos os modelos do Ollama do seu diretório de casa para outro disco maior e melhor
Executar um Modelo:
```
ollama run qwen2.5:32b-instruct-q3_K_S
```
Este comando inicia o modelo especificado e abre um REPL interativo para interação.

Listar Modelos:

ollama list

O mesmo que:

ollama ls

Este comando lista todos os modelos que foram baixados para seu sistema, como

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 semanas atrás     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 semanas atrás     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 semanas atrás     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 semanas atrás     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 semanas atrás     
qwen3:8b                                                500a1f067a9f    5.2 GB    5 semanas atrás     
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 semanas atrás     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 semanas atrás     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 semanas atrás

Parar um Modelo:
```
ollama stop llama3.1:8b-instruct-q8_0
```
Este comando para o modelo especificado que está sendo executado.

Liberar Modelo da VRAM

Quando um modelo é carregado na VRAM (memória da GPU), ele permanece lá mesmo após você terminar de usá-lo. Para liberar explicitamente um modelo da VRAM e liberar a memória da GPU, você pode enviar uma solicitação para a API do Ollama com keep_alive: 0.

Liberar Modelo da VRAM usando curl:

curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Substitua MODELNAME pelo nome real do seu modelo, por exemplo:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'

Liberar Modelo da VRAM usando Python:

import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Isso é particularmente útil quando:

Você precisa liberar a memória da GPU para outras aplicações
Você está executando múltiplos modelos e quer gerenciar o uso da VRAM
Você terminou de usar um modelo grande e quer liberar os recursos imediatamente

Nota: O parâmetro keep_alive controla por quanto tempo (em segundos) um modelo permanece carregado na memória após a última solicitação. Defini-lo como 0 descarrega o modelo da VRAM imediatamente.

Personalizando Modelos

Definir Prompt do Sistema: Dentro do REPL do Ollama, você pode definir um prompt do sistema para personalizar o comportamento do modelo:
```
>>> /set system Para todas as perguntas feitas, responda em inglês simples evitando o jargão técnico tanto quanto possível
>>> /save ipe
>>> /bye
```
Em seguida, execute o modelo personalizado:
```
ollama run ipe
```
Isso define um prompt do sistema e salva o modelo para uso futuro.
Criar Arquivo de Modelo Personalizado: Crie um arquivo de texto (por exemplo, custom_model.txt) com a seguinte estrutura:
```
FROM llama3.1
SYSTEM [Suas instruções personalizadas aqui]
```
Em seguida, execute:
```
ollama create mymodel -f custom_model.txt
ollama run mymodel
```
Isso cria um modelo personalizado com base nas instruções no arquivo.

Usando Ollama com Arquivos

Resumir Texto de um Arquivo:
```
ollama run llama3.2 "Resuma o conteúdo deste arquivo em 50 palavras." < input.txt
```
Este comando resumirá o conteúdo de input.txt usando o modelo especificado.
Registrar Respostas do Modelo em um Arquivo:
```
ollama run llama3.2 "Me conte sobre energia renovável." > output.txt
```
Este comando salva a resposta do modelo em output.txt.

Casos de uso comuns

Geração de texto:

Resumir um grande arquivo de texto:

ollama run llama3.2 "Resuma o seguinte texto:" < long-document.txt

Gerar conteúdo:

ollama run llama3.2 "Escreva um artigo curto sobre os benefícios do uso de IA na saúde." > article.txt

Responder perguntas específicas:

ollama run llama3.2 "Quais são as últimas tendências em IA e como elas afetarão a saúde?"

Processamento e análise de dados:
- Classificar texto em sentimentos positivos, negativos ou neutros:
```
ollama run llama3.2 "Analise o sentimento desta avaliação do cliente: 'O produto é fantástico, mas a entrega foi lenta.'"
```
- Categorizar texto em categorias pré-definidas: Use comandos semelhantes para classificar ou categorizar texto com base em critérios pré-definidos.

Usando Ollama com Python

Instalar a biblioteca Python do Ollama:
```
pip install ollama
```

Gerar texto usando Python:

import ollama

response = ollama.generate(model='gemma:2b', prompt='o que é um qubit?')
print(response['response'])

Este trecho de código gera texto usando o modelo e o prompt especificados.