Performance
Estratégias de Cache do Hugo para Desempenho
Otimize o desenvolvimento e a execução de sites Hugo
Estratégias de cache no Hugo são essenciais para maximizar o desempenho do seu gerador de sites estáticos. Embora o Hugo gere arquivos estáticos que são naturalmente rápidos, a implementação de um cache adequado em múltiplas camadas pode melhorar drasticamente os tempos de construção, reduzir a carga do servidor e melhorar a experiência do usuário.
NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Comparação de Desempenho do Ollama
Benchmark do GPT-OSS 120b em três plataformas de IA
Fiz uma pesquisa sobre alguns interessantes testes de desempenho do GPT-OSS 120b em execução no Ollama em três diferentes plataformas: NVIDIA DGX Spark, Mac Studio e RTX 4080. O modelo GPT-OSS 120b da biblioteca Ollama tem 65GB, o que significa que não cabe na VRAM de 16GB de um RTX 4080 (ou no mais recente RTX 5080).
Problemas de Saída Estruturada do Ollama GPT-OSS
Não muito agradável.
Modelos GPT-OSS do Ollama têm problemas recorrentes ao lidar com saídas estruturadas, especialmente quando usados com frameworks como LangChain, OpenAI SDK, vllm e outros.
Alocação de memória e agendamento do modelo na nova versão do Ollama - v0.12.1
Meu próprio teste de escalonamento do modelo ollama
Aqui estou comparando quanto de VRAM a nova versão do Ollama aloca para o modelo com a versão anterior do Ollama. A nova versão é pior.
Desempenho de LLM e Canais PCIe: Considerações Importantes
Pensando em instalar uma segunda GPU para LLMs?
Como os canais PCIe afetam o desempenho dos LLM? Dependendo da tarefa. Para treinamento e inferência com múltiplos GPUs - a perda de desempenho é significativa.
Teste: Como a Ollama está utilizando o desempenho da CPU Intel e os núcleos eficientes
Ollama no processador Intel CPU Eficiente vs. núcleos de Desempenho
Tenho uma teoria para testar - se utilizar todos os núcleos em uma CPU Intel aumentaria a velocidade dos LLMs? Estou incomodado com o fato de que o novo modelo gemma3 27 bit (gemma3:27b, 17GB no ollama) não está cabendo na VRAM de 16GB da minha GPU, e está rodando parcialmente na CPU.
Como o Ollama trata solicitações paralelas
Configurando ollama para execução de solicitações em paralelo.
Quando o servidor Ollama recebe duas solicitações ao mesmo tempo, seu comportamento depende de sua configuração e dos recursos do sistema disponíveis.
Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 e Phi - Teste de LLM
Próxima rodada de testes de LLM
Há pouco tempo foi lançado. Vamos nos atualizar e
testar como o Mistral Small se compara a outros LLMs.
Teste de Velocidade de Modelos de Linguagem Grandes
Vamos testar a velocidade dos LLMs na GPU versus a CPU
Comparando a velocidade de previsão de várias versões de LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) em CPU e GPU.