LLM Performance

Benchmarks de LLM com 16 GB de VRAM usando llama.cpp (velocidade e contexto)

Aqui estou comparando a velocidade de vários LLMs executados em uma GPU com 16 GB de VRAM, escolhendo o melhor para auto-hospedagem.

Comparando o desempenho de LLMs no Ollama em uma GPU com 16 GB de VRAM

Executar grandes modelos de linguagem (LLMs) localmente oferece privacidade, capacidade offline e zero custo de API. Este teste revela exatamente o que se pode esperar de 14 LLMs populares LLMs no Ollama em uma RTX 4080.

NVIDIA DGX Spark vs. Mac Studio vs. RTX-4080: Comparação de Desempenho do Ollama

Descobri alguns testes de desempenho interessantes do GPT-OSS 120b rodando no Ollama em três plataformas diferentes: NVIDIA DGX Spark, Mac Studio e RTX 4080. O modelo GPT-OSS 120b da biblioteca Ollama pesa 65 GB, o que significa que ele não cabe na VRAM de 16 GB de uma RTX 4080 (ou na mais recente RTX 5080).

O Surgimento dos ASICs para LLM: Por que o Hardware de Inferência Importa

O futuro da IA não se trata apenas de modelos mais inteligentes, mas de silício mais inteligente. Hardware especializado para inferência de LLM está impulsionando uma revolução semelhante à mudança para ASICs na mineração de Bitcoin.

Aqui está uma comparação entre Qwen3:30b e GPT-OSS:20b, focando na seguir instruções e parâmetros de desempenho, especificações e velocidade.

Problemas de Saída Estruturada no Ollama GPT-OSS

Os modelos GPT-OSS da Ollama apresentam problemas recorrentes no manuseio de saída estruturada, especialmente quando utilizados com frameworks como LangChain, SDK da OpenAI, vllm e outros.

Alocação de memória e agendamento de modelos na nova versão do Ollama - v0.12.1

Aqui estou comparando quanto VRAM a nova versão do Ollama alocava para o modelo em relação à versão anterior do Ollama. A nova versão é pior.

Desempenho de LLM e Faixas PCIe: Considerações Essenciais

Como as Pistas PCIe Afetam o Desempenho de LLM? Depende da tarefa. Para treinamento e inferência multi-GPU, a queda de desempenho é significativa.

Teste: Como o Ollama está utilizando os núcleos de desempenho e eficientes da CPU Intel

Tenho uma teoria para testar: se utilizar todos os núcleos de uma CPU Intel aumentaria a velocidade dos LLMs? Isso tem me incomodado: o novo modelo gemma3 de 27 bilhões (gemma3:27b, 17GB no Ollama) não cabe nos 16GB de VRAM da minha GPU e está rodando parcialmente na CPU.

Comparando a adequação das GPUs da NVidia para IA

No meio da agitação do mundo moderno, estou comparando as especificações técnicas de diferentes placas adequadas para tarefas de IA (Aprendizado Profundo, Detecção de Objetos e LLMs). No entanto, todas elas são incrivelmente caras.

Como o Ollama Lida com Solicitações Paralelas

Este guia explica como o Ollama gerencia solicitações paralelas (concorrência, filas e limites de recursos) e como ajustá-lo usando a variável de ambiente OLLAMA_NUM_PARALLEL (e configurações relacionadas).

Não foi muito tempo atrás que foi lançado. Vamos dar uma olhada e testar como o Mistral Small se compara a outros LLMs.

Recentemente, vimos o lançamento de vários novos LLMs. Tempos emocionantes. Vamos testar e ver como eles se comportam na detecção de falácias lógicas.

Comparando as Capacidades de Resumo dos LLMs

Testando como modelos com diferentes números de parâmetros e quantização estão se comportando.

Comparando a velocidade de predição de várias versões de LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (código aberto) em CPU e GPU.

LLM Performance

Benchmarks de LLM com 16 GB de VRAM usando llama.cpp (velocidade e contexto)

Comparando o desempenho de LLMs no Ollama em uma GPU com 16 GB de VRAM

NVIDIA DGX Spark vs. Mac Studio vs. RTX-4080: Comparação de Desempenho do Ollama

O Surgimento dos ASICs para LLM: Por que o Hardware de Inferência Importa

Comparação: Qwen3:30b vs GPT-OSS:20b

Problemas de Saída Estruturada no Ollama GPT-OSS

Alocação de memória e agendamento de modelos na nova versão do Ollama - v0.12.1

Desempenho de LLM e Faixas PCIe: Considerações Essenciais

Teste: Como o Ollama está utilizando os núcleos de desempenho e eficientes da CPU Intel

Comparando a adequação das GPUs da NVidia para IA

Como o Ollama Lida com Solicitações Paralelas

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 e Phi - Teste de LLM

Gemma2 x Qwen2 x Mistral Nemo x...

Comparando as Capacidades de Resumo dos LLMs

Teste de Velocidade de Grandes Modelos de Linguagem