LLM Hosting

TGI – Text Generation Inference – Instalação, Configuração e Solução de Problemas

A Inferência de Geração de Texto (TGI) tem uma energia muito específica. Não é o mais novo na rua da inferência, mas é aquele que já aprendeu como a produção quebra -

Acesso remoto ao Ollama via Tailscale ou WireGuard, sem portas públicas.

Ollama está em seu melhor quando é tratado como um daemon local: a CLI e seus aplicativos se comunicam com uma API HTTP em loopback, e o resto da rede nunca fica sabendo que ele existe.

Ollama no Docker Compose com GPU e Armazenamento Persistente de Modelos

Ollama funciona muito bem em metal nu. Torna-se ainda mais interessante quando tratado como um serviço: um endpoint estável, versões fixas, armazenamento persistente e uma GPU que está disponível ou não.

Ollama atrás de um proxy reverso com Caddy ou Nginx para streaming HTTPS

Executar o Ollama atrás de um proxy reverso é a maneira mais simples de obter HTTPS, controle de acesso opcional e comportamento de streaming previsível.

SGLang QuickStart: Instale, Configure e Execute LLMs via API OpenAI

O SGLang é um framework de serviço de alto desempenho para grandes modelos de linguagem e modelos multimodais, construído para fornecer inferência de baixa latência e alto throughput, desde uma única GPU até clusters distribuídos.

llama.swap: Guia Rápido do Alternador de Modelos para LLMs Locais Compatíveis com OpenAI

Em breve você estará equilibrando vLLM, llama.cpp e mais — cada pilha em sua própria porta. Tudo a jusante ainda deseja uma URL base única /v1; caso contrário, você continua mudando portas, perfis e scripts pontuais. llama-swap é o proxy /v1 antes dessas pilhas.

Início Rápido do LocalAI: Execute LLMs Compatíveis com OpenAI Localmente

O LocalAI é um servidor de inferência de auto-hospedagem, com prioridade local, projetado para funcionar como uma API OpenAI plug-and-play para executar cargas de trabalho de IA no seu próprio hardware (laptop, estação de trabalho ou servidor local).

Início Rápido do llama.cpp com CLI e Servidor

Volto sempre ao llama.cpp para inferência local — ele oferece controle que o Ollama e outros abstraem, e simplesmente funciona. É fácil executar modelos GGUF interativamente com llama-cli ou expor uma API HTTP compatível com OpenAI com llama-server.

Autohospedagem de LLMs e Soberania de IA

A auto-hospedagem de LLMs mantém dados, modelos e inferência sob o seu controle – um caminho prático para soberania da IA para equipes, empresas e nações.

Open WebUI: Interface Autohospedada para LLMs

Open WebUI é uma interface web auto-hospedada poderosa, extensível e repleta de recursos para interação com grandes modelos de linguagem.

vLLM é um motor de inferência e serviço de alto rendimento e eficiente em memória para Grandes Modelos de Linguagem (LLMs), desenvolvido pelo Laboratório de Computação Sky da UC Berkeley.

Escolhendo o LLM Ideal para o Cognee: Configuração Local com Ollama

Escolher o Melhor LLM para o Cognee exige equilibrar a qualidade da construção de grafos, as taxas de alucinação e as restrições de hardware. O Cognee desempenha-se melhor com modelos maiores e de baixa alucinação (32B+) através do Ollama, mas opções de tamanho médio funcionam para configurações mais leves.

Ollama vs vLLM vs LM Studio: A Melhor Maneira de Executar LLMs Localmente em 2026?

Executar LLMs localmente agora é prático para desenvolvedores, startups e até equipes empresariais. Mas escolher a ferramenta certa — Ollama, vLLM, LM Studio, LocalAI ou outras — depende dos seus objetivos:

Docker Model Runner: Guia de Configuração do Tamanho do Contexto

A configuração de tamanhos de contexto no Docker Model Runner é mais complexa do que deveria.

Adicionando Suporte a GPU NVIDIA ao Docker Model Runner

Docker Model Runner é a ferramenta oficial da Docker para executar modelos de IA localmente, mas habilitar a aceleração de GPU da NVidia no Docker Model Runner requer configuração específica.

Apostila do Docker Model Runner: Comandos e Exemplos

Docker Model Runner (DMR) é a solução oficial do Docker para executar modelos de IA localmente, introduzida em abril de 2025. Esta lista de comandos essenciais fornece uma referência rápida para todos os comandos, configurações e melhores práticas.