LLM - Page 2 - Rost Glukhov | Site pessoal e blog técnico

Reduza os Custos de LLM: Estratégias de Otimização de Tokens

A otimização de tokens é a habilidade crítica que separa as aplicações de LLM custo-efetivas das experiências que consomem orçamento.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Comparação de Desempenho do Ollama

Fui atrás de alguns testes de desempenho interessantes do GPT-OSS 120b em execução no Ollama em três plataformas diferentes: NVIDIA DGX Spark, Mac Studio e RTX 4080. O modelo GPT-OSS 120b da biblioteca Ollama tem 65GB, o que significa que ele não cabe na VRAM de 16GB de um RTX 4080 (ou no mais novo RTX 5080).

Construindo Servidores MCP em Python: Guia de Pesquisa na Web e Raspagem

O Protocolo de Contexto do Modelo (MCP) está revolucionando a forma como os assistentes de IA interagem com fontes de dados externas e ferramentas. Neste guia, exploraremos como construir servidores MCP em Python, com exemplos focados nas capacidades de busca na web e raspagem.

Convertendo HTML para Markdown com Python: Um Guia Abrangente

Conversão de HTML para Markdown é uma tarefa fundamental nos fluxos de trabalho modernos de desenvolvimento, especialmente ao preparar conteúdo web para Grandes Modelos de Linguagem (LLMs), sistemas de documentação ou geradores de sites estáticos como o Hugo.

Docker Model Runner Cheatsheet: Comandos e Exemplos

Docker Model Runner (DMR) é a solução oficial do Docker para executar modelos de IA localmente, introduzida em abril de 2025. Este guia rápido fornece uma referência rápida para todos os comandos essenciais, configurações e melhores práticas.

Docker Model Runner vs Ollama: Qual Escolher?

Executar modelos de linguagem grandes (LLMs) localmente tornou-se cada vez mais popular por motivos de privacidade, controle de custos e capacidades offline. O cenário mudou significativamente em abril de 2025, quando o Docker introduziu Docker Model Runner (DMR), sua solução oficial para implantação de modelos de IA.

O Surgimento de ASICs para LLM: Por que o Hardware de Inferência Importa

O futuro do IA não é apenas sobre modelos mais inteligentes modelos — é sobre silício mais inteligente.
Hardware especializado para inferência de LLM está impulsionando uma revolução semelhante à mudança do mineração de Bitcoin para ASICs.

DGX Spark vs. Mac Studio: Análise de Preços da Supercomputação Pessoal da NVIDIA

NVIDIA DGX Spark é real, disponível para venda a partir de 15 de outubro de 2025, e direcionado a desenvolvedores de CUDA que precisam de trabalho local com LLM com uma pilha integrada de IA da NVIDIA. Preço de venda sugerido nos EUA $3.999; o preço retalhista em UK/DE/JP é mais alto devido ao imposto sobre o valor agregado e ao canal. Preços públicos em AUD/KRW ainda não estão amplamente divulgados.

Aqui está uma comparação entre Qwen3:30b e GPT-OSS:20b
focando em seguir instruções e parâmetros de desempenho, especificações e velocidade:

Integração do Ollama com Python: Exemplos de API REST e Cliente Python

Neste post, vamos explorar duas maneiras de conectar sua aplicação Python ao Ollama: 1. Via API REST HTTP; 2. Via a biblioteca oficial do Ollama para Python.

Problemas de Saída Estruturada do Ollama GPT-OSS

Modelos GPT-OSS do Ollama têm problemas recorrentes ao lidar com saídas estruturadas, especialmente quando usados com frameworks como LangChain, OpenAI SDK, vllm e outros.

Comparação de saída estruturada entre provedores populares de LLM - OpenAI, Gemini, Anthropic, Mistral e AWS Bedrock

Aqui está uma comparação lado a lado de suporte para saída estruturada (obter JSON confiável de volta) entre provedores populares de LLM, juntamente com exemplos mínimos de Python

Limitando LLMs com Saída Estruturada: Ollama, Qwen3 & Python ou Go

Grandes Modelos de Linguagem (LLMs) são poderosos, mas, em produção, raramente queremos parágrafos livres. Em vez disso, queremos dados previsíveis: atributos, fatos ou objetos estruturados que você pode alimentar em um aplicativo. Isso é Saída Estruturada de LLM.

Modelo de escalonamento de alocação de memória na nova versão do Ollama - v0.12.1

Aqui estou comparando quanto de VRAM a nova versão do Ollama alocando para o modelo com a versão anterior do Ollama. A nova versão é pior.

Enshittificação do Ollama - Os Primeiros Sinais

Ollama tornou-se rapidamente uma das ferramentas mais populares para executar LLMs localmente.
Sua CLI simples e gestão de modelos aprimorada tornaram-na uma opção preferida para desenvolvedores que desejam trabalhar com modelos de IA fora da nuvem.
Mas, assim como com muitas plataformas promissoras, já existem sinais de Enshittification:

Chat UIs para Instâncias Locais do Ollama

O Ollama hospedado localmente permite executar modelos de linguagem grandes em sua própria máquina, mas usá-lo via linha de comando não é amigável para o usuário.
Aqui estão vários projetos de código aberto que fornecem interfaces do estilo ChatGPT que se conectam a um Ollama local.