Minimanual da Ollama CLI: ls, serve, run, ps + comandos (atualização 2026)
Lista de comandos do Ollama atualizada - ls, ps, run, serve, etc.
Esta folha de referência da CLI do Ollama concentra-se nos comandos que você usa todos os dias (ollama ls, ollama serve, ollama run, ollama ps, gerenciamento de modelos e fluxos de trabalho comuns), com exemplos que você pode copiar/colar.
Ela também inclui uma breve seção de “ajustes de desempenho” para ajudar você a descobrir (e depois investigar a fundo) OLLAMA_NUM_PARALLEL e configurações relacionadas.

Esta folha de referência do Ollama foca em comandos de CLI, gerenciamento de modelos e personalização, mas aqui também temos algumas chamadas curl.
Para uma visão completa de onde o Ollama se encaixa entre opções locais, auto-hospedadas e em nuvem — incluindo vLLM, Docker Model Runner, LocalAI e provedores de nuvem — veja Hospedagem de LLM: Comparação de Infraestrutura Local, Auto-Hospedada e em Nuvem. Se você está comparando diferentes soluções de hospedagem de LLM locais, confira nossa comparação abrangente do Ollama, vLLM, LocalAI, Jan, LM Studio e mais. Para aqueles que buscam alternativas a interfaces de linha de comando, o Docker Model Runner oferece uma abordagem diferente para a implantação de LLM.
Instalação do Ollama (download e instalação da CLI)
- Opção 1: Download do Site
- Visite ollama.com e baixe o instalador para o seu sistema operacional (Mac, Linux ou Windows).
- Opção 2: Instalação via Linha de Comando
- Para usuários de Mac e Linux, use o comando:
curl -fsSL https://ollama.com/install.sh | sh
- Siga as instruções na tela e insira sua senha se solicitado.
Requisitos do sistema Ollama (RAM, armazenamento, CPU)
- Sistema Operacional: Mac, Linux ou Windows
- Memória (RAM): 8GB mínimo, 16GB ou mais recomendado
- Armazenamento: Pelo menos ~10GB de espaço livre (os arquivos de modelo podem ser realmente grandes, veja mais aqui Mover Modelos do Ollama para Outra Unidade )
- Processador: Uma CPU relativamente moderna (dos últimos 5 anos). Se você está curioso sobre como o Ollama utiliza diferentes arquiteturas de CPU, veja nossa análise de como o Ollama usa Núcleos de Desempenho e Eficientes da Intel CPU.
Para cargas de trabalho de IA sérias, você pode querer comparar opções de hardware. Testamos desempenho NVIDIA DGX Spark vs Mac Studio vs RTX-4080 com Ollama, e se você está considerando investir em hardware de ponta, nossa comparação de preços e capacidades do DGX Spark fornece uma análise detalhada de custos.
Comandos Básicos da CLI do Ollama
| Comando | Descrição |
|---|---|
ollama serve |
Inicia o servidor Ollama (porta padrão 11434). |
ollama run <modelo> |
Executa o modelo especificado em um REPL interativo. |
ollama pull <modelo> |
Baixa o modelo especificado para o seu sistema. |
ollama push <modelo> |
Envia um modelo para o registro do Ollama. |
ollama list |
Lista todos os modelos baixados. O mesmo que ollama ls. |
ollama ps |
Mostra os modelos atualmente em execução (carregados). |
ollama stop <modelo> |
Para (descarrega) um modelo em execução. |
ollama rm <modelo> |
Remove um modelo do seu sistema. |
ollama cp <origem> <destino> |
Copia um modelo com um novo nome localmente. |
ollama show <modelo> |
Exibe detalhes sobre um modelo (arquitetura, parâmetros, template, etc.). |
ollama create <modelo> |
Cria um novo modelo a partir de um Modelfile. |
ollama launch [integração] |
Lançamento sem configuração de assistentes de codificação de IA (Claude Code, Codex, Droid, OpenCode). |
ollama signin |
Autentica com o registro do Ollama (habilita modelos privados e modelos em nuvem). |
ollama signout |
Desconecta do registro do Ollama. |
ollama help |
Fornece ajuda sobre qualquer comando. |
Links de acesso rápido: comando Ollama serve · comando Ollama launch · comando Ollama run · bandeiras Ollama run · comando Ollama ps · comando Ollama show · Ollama signin · Básicos da CLI Ollama · Ajustes de desempenho (OLLAMA_NUM_PARALLEL) · Análise aprofundada de solicitações paralelas
CLI Ollama (o que é)
CLI Ollama é a interface de linha de comando para gerenciar modelos e executá-los/serví-los localmente. A maioria dos fluxos de trabalho resume-se a:
- Iniciar o servidor:
ollama serve - Executar um modelo:
ollama run <modelo> - Ver o que está carregado/em execução:
ollama ps - Gerenciar modelos:
ollama pull,ollama list,ollama rm
Gerenciamento de modelos Ollama: comandos pull e list
Listar Modelos:
ollama list
o mesmo que:
ollama ls
Este comando lista todos os modelos que foram baixados para o seu sistema, com seus tamanhos de arquivo no seu hdd/ssd, como:
$ ollama ls
NAME ID SIZE MODIFIED
deepseek-r1:8b 6995872bfe4c 5.2 GB 2 semanas atrás
gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 semanas atrás
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 semanas atrás
dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 semanas atrás
dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 semanas atrás
qwen3:8b 500a1f067a9f 5.2 GB 5 semanas atrás
qwen3:14b bdbd181c33f2 9.3 GB 5 semanas atrás
qwen3:30b-a3b 0b28110b7a33 18 GB 5 semanas atrás
devstral:24b c4b2fa0c33d7 14 GB 5 semanas atrás
Baixar um Modelo: ollama pull
ollama pull mistral-nemo:12b-instruct-2407-q6_K
Este comando baixa o modelo especificado (por exemplo, Gemma 2B, ou mistral-nemo:12b-instruct-2407-q6_K) para o seu sistema. Os arquivos do modelo podem ser bastante grandes, então fique de olho no espaço usado pelos modelos no disco rígido ou ssd. Você pode até querer mover todos os modelos do Ollama do seu diretório home para outra unidade maior e melhor
Enviar um Modelo: ollama push
ollama push my-custom-model
Envia um modelo local para o registro do Ollama para que outros possam baixá-lo.
Você precisa estar logado primeiro (ollama signin) e o nome do modelo deve ser prefixado com seu nome de usuário do Ollama, por exemplo, meuusuario/meu-modelo.
Use --insecure se estiver enviando para um registro privado via HTTP:
ollama push meuusuario/meu-modelo --insecure
Copiar um Modelo: ollama cp
ollama cp llama3.2 minha-variante-llama3
Cria uma cópia local de um modelo com um novo nome sem rebaixar nada. Isso é útil antes de editar um Modelfile — copie primeiro, personalize a cópia e mantenha o original intacto:
ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile
Comando Ollama show
ollama show imprime informações sobre um modelo baixado.
ollama show qwen3:14b
Por padrão, ele imprime o cartão do modelo (arquitetura, comprimento de contexto, comprimento de embedding, quantização, etc.). Existem três bandeiras úteis:
| Bandeira | O que mostra |
|---|---|
--modelfile |
O Modelfile completo usado para criar o modelo (linhas FROM, SYSTEM, TEMPLATE, PARAMETER) |
--parameters |
Apenas o bloco de parâmetros (por exemplo, num_ctx, temperature, tokens stop) |
--verbose |
Metadados estendidos incluindo formas de tensor e contagem de camadas |
# Veja exatamente qual prompt de sistema e template um modelo foi construído
ollama show deepseek-r1:8b --modelfile
# Verifique o tamanho da janela de contexto e outros parâmetros de inferência
ollama show qwen3:14b --parameters
# Detalhe completo de nível de tensor (útil ao depurar quantização)
ollama show llama3.2 --verbose
A saída --modelfile é especialmente útil antes de personalizar um modelo: você pode copiar o Modelfile base e editar a partir dele, em vez de escrever um do zero.
Comando Ollama serve
ollama serve inicia o servidor local Ollama (porta HTTP padrão 11434).
ollama serve
Comando “ollama serve” (exemplo amigável para systemd):
# defina variáveis de ambiente, então inicie o servidor
# torne o ollama disponível no endereço IP do host
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve
Comando Ollama run
Executar um Modelo:
ollama run gpt-oss:20b
Este comando inicia o modelo especificado e abre um REPL interativo para interação. Quer entender como o Ollama gerencia múltiplas solicitações simultâneas? Saiba mais sobre como o Ollama lida com solicitações paralelas em nossa análise detalhada.
ollama run executa um modelo em uma sessão interativa,
então, no caso de gpt-oss:120b, você veria algo como:
$ ollama run gpt-oss:120b
>>> Envie uma mensagem (/? para ajuda)
você pode digitar suas perguntas ou comandos e o modelo responderá.
>>> quem é você?
Pensando...
O usuário pergunta "quem é você?". Pergunta simples. Deve responder como ChatGPT, um modelo de linguagem de IA, treinado pela OpenAI,
etc. Forneça uma breve introdução. Provavelmente pergunte se precisam de ajuda.
...pensamento concluído.
Sou o ChatGPT, um modelo de linguagem de IA criado pela OpenAI. Treinei em uma ampla gama de textos para que possa ajudar a
responder perguntas, brainstorm de ideias, explicar conceitos, rascunhos de escrita, solucionar problemas e muito mais. Pense
em mim como um assistente virtual versátil — aqui para fornecer informações, suporte e conversação sempre que precisar. Como posso ajudar você hoje?
>>> Envie uma mensagem (/? para ajuda)
Para sair da sessão interativa do ollama, pressione Ctrl+D, ou você pode digitar /bye, o mesmo resultado:
>>> /bye
$
Exemplos de comando Ollama run
Para executar um modelo e fazer uma única pergunta em modo não interativo:
printf "Me dê 10 one-liners bash para análise de log.\n" | ollama run llama3.2
Se você quiser ver a resposta detalhada e verbosa do LLM na sessão do ollama - execute o modelo com o parâmetro --verbose ou -v:
$ ollama run gpt-oss:20b --verbose
>>> quem é você?
Pensando...
Precisamos responder a uma pergunta simples: "quem é você?". O usuário está perguntando "quem é você?". Podemos responder que
somos o ChatGPT, um grande modelo de linguagem treinado pela OpenAI. Também podemos mencionar capacidades. O usuário provavelmente espera
uma breve introdução. Vamos manter amigável.
...pensamento concluído.
Sou o ChatGPT, um grande modelo de linguagem criado pela OpenAI. Estou aqui para ajudar a responder perguntas, oferecer explicações,
brainstorm de ideias e conversar sobre uma ampla gama de tópicos — desde ciência e história até escrita criativa
e conselhos do dia a dia. Apenas me diga sobre o que você gostaria de conversar!
total duration: 1.118585707s
load duration: 106.690543ms
prompt eval count: 71 token(s)
prompt eval duration: 30.507392ms
prompt eval rate: 2327.30 tokens/s
eval count: 132 token(s)
eval duration: 945.801569ms
eval rate: 139.56 tokens/s
>>> /bye
$
Sim, é isso mesmo, são 139 tokens por segundo. O gpt-oss:20b é muito rápido. Se você, como eu, tem GPU com 16GB VRAM - veja os detalhes da comparação de velocidade dos LLMs em Melhores LLMs para Ollama em GPU com 16GB VRAM.
Dica: Se você quiser o modelo disponível via HTTP para múltiplos aplicativos, inicie o servidor com ollama serve e use o cliente de API em vez de longas sessões interativas.
Bandeiras Ollama run (referência completa)
| Bandeira | Descrição |
|---|---|
--verbose / -v |
Imprimir estatísticas de tempo (tokens/s, tempo de carga, etc.) após cada resposta |
-p, --parameters |
Passar parâmetros do modelo inline sem um Modelfile (veja abaixo) |
--format string |
Forçar um formato de saída específico, por exemplo, json |
--nowordwrap |
Desativar quebra de linha automática — útil ao encaminhar saída para scripts |
--insecure |
Permitir conexão a um registro via HTTP (para registros privados/auto-hospedados) |
Substituir parâmetros do modelo sem um Modelfile (-p / –parameters)
A bandeira -p permite alterar parâmetros de inferência em tempo de execução sem criar um Modelfile.
Você pode empilhar múltiplas bandeiras -p:
# Aumente a janela de contexto e diminua a temperatura
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5
# Execute uma tarefa de codificação com saída determinística
ollama run devstral:24b -p temperature=0 -p num_ctx=65536
Parâmetros comuns que você pode definir dessa forma:
| Parâmetro | Efeito |
|---|---|
num_ctx |
Tamanho da janela de contexto em tokens (padrão depende do modelo, frequentemente 2048–4096) |
temperature |
Aleatoriedade: 0 = determinístico, 1 = criativo |
top_p |
Limiar de amostragem de núcleo |
top_k |
Limita o vocabulário aos top-K tokens |
num_predict |
Máximo de tokens a gerar (-1 = ilimitado) |
repeat_penalty |
Penalidade para repetição de tokens |
Entrada de várias linhas no REPL
Encapsule texto em três aspas (""") para inserir um prompt de várias linhas sem enviar antes da hora:
>>> """Resuma isso em uma frase:
... O raposo marrom rápido pula sobre o cão preguiçoso.
... Aconteceu numa terça-feira.
... """
Modelos multimodais (imagens)
Para modelos com capacidade de visão (por exemplo, gemma3, llava), passe o caminho de uma imagem diretamente no prompt:
ollama run gemma3 "O que há nesta imagem? /home/user/screenshot.png"
Gerando embeddings via CLI
Modelos de embedding saem um array JSON em vez de texto. Encaminhe texto diretamente para embeddings rápidos:
echo "Olá mundo" | ollama run nomic-embed-text
Para cargas de trabalho de embedding em produção, use o endpoint REST /api/embeddings ou o cliente Python.
Forçar saída JSON (–format)
ollama run llama3.2 --format json "Liste 5 capitais em JSON"
O modelo é instruído a retornar JSON válido. Útil ao encaminhar saída para jq ou um script que espera dados estruturados.
Comando Ollama stop
Este comando para o modelo especificado em execução.
ollama stop llama3.1:8b-instruct-q8_0
O Ollama expulsa modelos automaticamente após algum tempo.
Você pode especificar este tempo, o padrão é 4 minutos.
Se você não quiser esperar o tempo restante, pode querer usar este comando ollama stop.
Você também pode expulsar o modelo da VRAM chamando o endpoint de API /generate com o parâmetro keep_alive=0, veja abaixo a descrição e exemplo.
Comando Ollama ps
ollama ps mostra os modelos e sessões atualmente em execução (útil para depurar “por que minha VRAM está cheia?”).
ollama ps
O exemplo da saída do ollama ps está abaixo:
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b 17052f91a42e 14 GB 100% GPU 4096 4 minutos a partir de agora
Você vê aqui no meu PC o gpt-oss:20b se encaixa muito bem na VRAM de 16GB da minha GPU, e ocupou apenas 14GB.
Se eu executar ollama run gpt-oss:120b e então chamar o ollama ps, o resultado não será tão brilhante:
78% das camadas estão na CPU, e isso é apenas com a janela de contexto de 4096 tokens. Será mais se eu precisar aumentar o contexto.
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b a951a23b46a1 66 GB 78%/22% CPU/GPU 4096 4 minutos a partir de agora
Comando Ollama launch (integrações de codificação de IA)
ollama launch é um comando introduzido no Ollama v0.15 (Janeiro de 2026) que oferece configuração zero-config, em uma linha, para assistentes de codificação de IA populares executando contra seu servidor local Ollama.
Por que usar ollama launch?
Antes do ollama launch, configurar um agente de codificação como Claude Code ou Codex para um backend local Ollama significava definir manualmente variáveis de ambiente, apontar a ferramenta para o endpoint de API correto e escolher um modelo compatível. ollama launch cuida de tudo isso para você de forma interativa.
Se você já executa o Ollama localmente e quer um assistente de codificação agente sem pagar chamadas de API ou enviar código para a nuvem, ollama launch é o caminho mais rápido.
Integrações suportadas
| Integração | O que é |
|---|---|
claude |
Claude Code da Anthropic — assistente de codificação agente |
codex |
Assistente de codificação CLI Codex da OpenAI |
droid |
Agente de codificação de IA da Factory |
opencode |
Assistente de codificação de código aberto |
Uso básico
# Seleção interativa — escolha uma integração de um menu
ollama launch
# Lançar uma integração específica diretamente
ollama launch claude
# Lançar com um modelo específico
ollama launch claude --model qwen3-coder
# Configure a integração sem lançá-la (útil para inspecionar configurações)
ollama launch droid --config
Modelos recomendados
Agentes de codificação precisam de uma janela de contexto longa para manter o contexto de arquivos inteiros e histórico de conversas multi-turno. O Ollama recomenda modelos com pelo menos 64 000 tokens de contexto:
| Modelo | Notas |
|---|---|
qwen3-coder |
Forte desempenho de codificação, contexto longo, executa localmente |
glm-4.7-flash |
Opção local rápida |
devstral:24b |
Modelo focado em codificação da Mistral |
Se sua GPU não conseguir caber o modelo, o Ollama também oferece variantes hospedadas na nuvem (por exemplo, qwen3-coder:480b-cloud) que integram da mesma forma, mas encaminham a inferência para a camada de nuvem do Ollama — requerendo ollama signin.
Exemplo: executando Claude Code localmente com Ollama
# 1. Certifique-se de que o modelo está disponível
ollama pull qwen3-coder
# 2. Lance o Claude Code contra ele
ollama launch claude --model qwen3-coder
O Ollama define as variáveis de ambiente necessárias e inicia o Claude Code apontando para http://localhost:11434 automaticamente.
Você pode então usar o Claude Code exatamente como normalmente faria — a única diferença é que a inferência acontece no seu próprio hardware.
Ajustes de desempenho (OLLAMA_NUM_PARALLEL)
Se você vir filas ou tempos de espera sob carga, o primeiro ajuste a aprender é OLLAMA_NUM_PARALLEL.
OLLAMA_NUM_PARALLEL= quantas solicitações o Ollama executa em paralelo.- Um valor mais alto pode aumentar a vazão, mas pode aumentar a pressão na VRAM e picos de latência.
Exemplo rápido:
OLLAMA_NUM_PARALLEL=2 ollama serve
Para uma explicação completa (incluindo estratégias de ajuste e modos de falha), veja:
Liberando modelo Ollama da VRAM (keep_alive)
Quando um modelo é carregado na VRAM (memória GPU), ele permanece lá mesmo após você terminar de usá-lo. Para liberar explicitamente um modelo da VRAM e liberar memória GPU, você pode enviar uma solicitação à API do Ollama com keep_alive: 0.
- Liberar Modelo da VRAM usando curl:
curl http://localhost:11434/api/generate -d '{"model": "NOMEDOMODELO", "keep_alive": 0}'
Substitua NOMEDOMODELO pelo nome real do seu modelo, por exemplo:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Liberar Modelo da VRAM usando Python:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Isso é particularmente útil quando:
- Você precisa liberar memória GPU para outros aplicativos
- Você está executando múltiplos modelos e quer gerenciar o uso de VRAM
- Você terminou de usar um modelo grande e quer liberar recursos imediatamente
Nota: O parâmetro keep_alive controla por quanto tempo (em segundos) um modelo permanece carregado na memória após a última solicitação. Definir para 0 descarrega imediatamente o modelo da VRAM.
Personalizando modelos Ollama (prompt de sistema, Modelfile)
-
Definir Prompt de Sistema: Dentro do REPL do Ollama, você pode definir um prompt de sistema para personalizar o comportamento do modelo:
>>> /set system Para todas as perguntas respondidas em inglês simples, evitando jargão técnico o máximo possível >>> /save ipe >>> /byeEntão, execute o modelo personalizado:
ollama run ipeIsso define um prompt de sistema e salva o modelo para uso futuro.
-
Criar Arquivo de Modelo Personalizado: Crie um arquivo de texto (por exemplo,
custom_model.txt) com a seguinte estrutura:FROM llama3.1 SYSTEM [Suas instruções personalizadas aqui]Então, execute:
ollama create meuModelo -f custom_model.txt ollama run meuModeloIsso cria um modelo personalizado baseado nas instruções no arquivo".
Ollama signin e signout (autenticação de registro)
ollama signin
ollama signout
ollama signin autentica sua instalação local do Ollama com o registro do Ollama em ollama.com. Uma vez logado, o cliente armazena credenciais localmente e as reutiliza automaticamente para comandos subsequentes.
O que signin desbloqueia:
- Baixar e enviar modelos privados da sua conta ou organização.
- Usar modelos hospedados na nuvem (por exemplo,
qwen3-coder:480b-cloud) que são grandes demais para rodar localmente. - Publicar modelos no registro com
ollama push.
Alternativa: autenticação por chave de API
Se você estiver executando o Ollama em um pipeline de CI ou um servidor headless onde ollama signin interativo não é prático, crie uma chave de API nas configurações da sua conta do Ollama e exponha-a como uma variável de ambiente:
export OLLAMA_API_KEY=ollama_...
ollama pull meuorg/private-model
A variável OLLAMA_API_KEY é captada automaticamente por cada comando do Ollama e solicitação de API — sem necessidade de executar ollama signin em cada máquina.
Usando o comando Ollama run com arquivos (resumo, redirecionamento)
-
Resumir Texto de um Arquivo:
ollama run llama3.2 "Resuma o conteúdo deste arquivo em 50 palavras." < input.txtEste comando resume o conteúdo de
input.txtusando o modelo especificado. -
Registrar Respostas do Modelo em um Arquivo:
ollama run llama3.2 "Fale-me sobre energia renovável." > output.txtEste comando salva a resposta do modelo em
output.txt.
Casos de uso da CLI Ollama (geração de texto, análise)
-
Geração de Texto:
- Resumindo um arquivo de texto grande:
ollama run llama3.2 "Resuma o seguinte texto:" < long-document.txt - Gerando conteúdo:
ollama run llama3.2 "Escreva um artigo curto sobre os benefícios de usar IA na saúde." > article.txt - Responder perguntas específicas:
ollama run llama3.2 "Quais são as últimas tendências em IA e como elas afetarão a saúde?"
.
- Resumindo um arquivo de texto grande:
-
Processamento e Análise de Dados:
- Classificando texto em sentimento positivo, negativo ou neutro:
ollama run llama3.2 "Analise o sentimento desta avaliação de cliente: 'O produto é fantástico, mas a entrega foi lenta.'" - Categorizando texto em categorias predefinidas: Use comandos semelhantes para classificar ou categorizar texto com base em critérios predefinidos.
- Classificando texto em sentimento positivo, negativo ou neutro:
Usando Ollama com Python (cliente e API)
- Instalar Biblioteca Python Ollama:
pip install ollama - Gerar Texto Usando Python:
Este trecho de código gera texto usando o modelo e prompt especificados.
import ollama response = ollama.generate(model='gemma:2b', prompt='o que é um qubit?') print(response['response'])
Para integração avançada em Python, explore [usando a API de Pesquisa Web do Ollama em Python](https://www.glukhov.org/pt/llm-hosting/ollama/ollama-web-search-in-python/ “Domine a API nativa de Pesquisa Web do Ollama com Python. Aprenda a usar funções web_search e web_fetch, construa agentes de busca inteligentes com chamada de ferramentas e integre com servidores MCP para Cline e Codex. Inclui exemplos completos de código.), que cobre capacidades de pesquisa na web, chamada de ferramentas e integração com servidores MCP. Se você está construindo aplicativos alimentados por IA, nossa comparação de assistentes de codificação de IA pode ajudá-lo a escolher as ferramentas certas para o desenvolvimento.
Procurando uma interface baseada na web? Open WebUI fornece uma interface auto-hospedada com capacidades RAG e suporte multi-usuário. Para implantações de produção de alto desempenho, considere vLLM como uma alternativa. Para comparar Ollama com outras escolhas de infraestrutura de LLM local e em nuvem, veja Hospedagem de LLM: Comparação de Infraestrutura Local, Auto-Hospedada e em Nuvem.
Links úteis
Configuração e Gerenciamento
Alternativas e Comparações
- Hospedagem de LLM Local: Guia Completo 2026 - Ollama, vLLM, LocalAI, Jan, LM Studio & Mais
- vLLM Quickstart: Servindo LLM de Alto Desempenho
- Docker Model Runner vs Ollama: Qual Escolher?
- Primeiros Sinais de Enshittification do Ollama
Desempenho e Hardware
- Como o Ollama Lida com Solicitações Paralelas
- Como o Ollama está usando Núcleos de Desempenho e Eficientes da Intel CPU
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Comparação de Desempenho Ollama
- DGX Spark vs. Mac Studio: Uma Olhada Prática e Verificada de Preço na Supercomputador Pessoal de IA da NVIDIA
Integração e Desenvolvimento
- Usando API de Pesquisa Web do Ollama em Python
- Comparação de Assistentes de Codificação de IA
- Open WebUI: Interface LLM Auto-Hospedada
- Interfaces de Chat de Código Aberto para LLMs em Instâncias Locais do Ollama
- Restringindo LLMs com Saída Estruturada: Ollama, Qwen3 & Python ou Go
- Integrando Ollama com Python: Exemplos de API REST e Cliente Python
- SDKs Go para Ollama - comparação com exemplos