Performance

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Estratégias de Cache do Hugo para Desempenho

Estratégias de cache no Hugo são essenciais para maximizar o desempenho do seu gerador de sites estáticos. Embora o Hugo gere arquivos estáticos que são naturalmente rápidos, a implementação de um cache adequado em múltiplas camadas pode melhorar drasticamente os tempos de construção, reduzir a carga do servidor e melhorar a experiência do usuário.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Comparação de Desempenho do Ollama

Fiz uma pesquisa sobre alguns interessantes testes de desempenho do GPT-OSS 120b em execução no Ollama em três diferentes plataformas: NVIDIA DGX Spark, Mac Studio e RTX 4080. O modelo GPT-OSS 120b da biblioteca Ollama tem 65GB, o que significa que não cabe na VRAM de 16GB de um RTX 4080 (ou no mais recente RTX 5080).

Problemas de Saída Estruturada do Ollama GPT-OSS

Modelos GPT-OSS do Ollama têm problemas recorrentes ao lidar com saídas estruturadas, especialmente quando usados com frameworks como LangChain, OpenAI SDK, vllm e outros.

Alocação de memória e agendamento do modelo na nova versão do Ollama - v0.12.1

Aqui estou comparando quanto de VRAM a nova versão do Ollama aloca para o modelo com a versão anterior do Ollama. A nova versão é pior.

Desempenho de LLM e Canais PCIe: Considerações Importantes

Como os canais PCIe afetam o desempenho dos LLM? Dependendo da tarefa. Para treinamento e inferência com múltiplos GPUs - a perda de desempenho é significativa.

Teste: Como a Ollama está utilizando o desempenho da CPU Intel e os núcleos eficientes

Tenho uma teoria para testar - se utilizar todos os núcleos em uma CPU Intel aumentaria a velocidade dos LLMs? Estou incomodado com o fato de que o novo modelo gemma3 27 bit (gemma3:27b, 17GB no ollama) não está cabendo na VRAM de 16GB da minha GPU, e está rodando parcialmente na CPU.

Como o Ollama trata solicitações paralelas

Quando o servidor Ollama recebe duas solicitações ao mesmo tempo, seu comportamento depende de sua configuração e dos recursos do sistema disponíveis.

Há pouco tempo foi lançado. Vamos nos atualizar e
testar como o Mistral Small se compara a outros LLMs.

Comparando a velocidade de previsão de várias versões de LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) em CPU e GPU.