LLM Performance

Como o Ollama Lida com Solicitações Paralelas

Como o Ollama Lida com Solicitações Paralelas

Compreenda a concorrência e a fila do Ollama e aprenda como ajustar o OLLAMA_NUM_PARALLEL para solicitações paralelas estáveis.

Este guia explica como o Ollama gerencia solicitações paralelas (concorrência, filas e limites de recursos) e como ajustá-lo usando a variável de ambiente OLLAMA_NUM_PARALLEL (e configurações relacionadas).

Gemma2 x Qwen2 x Mistral Nemo x...

Gemma2 x Qwen2 x Mistral Nemo x...

Teste de detecção de falácias lógicas

Recentemente, vimos o lançamento de vários novos LLMs. Tempos emocionantes. Vamos testar e ver como eles se comportam na detecção de falácias lógicas.

Teste de Velocidade de Grandes Modelos de Linguagem

Teste de Velocidade de Grandes Modelos de Linguagem

Vamos testar a velocidade dos LLMs em GPU versus CPU.

Comparando a velocidade de predição de várias versões de LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (código aberto) em CPU e GPU.