Ollama

Este pequeno Exemplo de código Go para reranking que chama o Ollama para gerar embeddings é usado para a consulta e para cada documento candidato, ordenando em ordem decrescente por similaridade cosseno.

Modelos de Incorporação e Reordenamento Qwen3 no Ollama: Desempenho de Ponta

Os modelos Qwen3 de Embedding e Reranker são os lançamentos mais recentes da família Qwen, projetados especificamente para tarefas avançadas de incorporação (embedding), recuperação e reclassificação de texto.

Desempenho de LLM e Faixas PCIe: Considerações Essenciais

Como as Pistas PCIe Afetam o Desempenho de LLM? Depende da tarefa. Para treinamento e inferência multi-GPU, a queda de desempenho é significativa.

Converta conteúdo HTML para Markdown usando LLM e Ollama.

Na biblioteca de modelos do Ollama, existem modelos capazes de converter conteúdo HTML para Markdown, o que é útil para tarefas de conversão de conteúdo.

Comparação de Assistentes de Codificação com IA

Aqui, listarei algumas ferramentas de codificação assistidas por IA e Assistentes de Codificação com IA, bem como seus pontos positivos.

Teste: Como o Ollama está utilizando os núcleos de desempenho e eficientes da CPU Intel

Tenho uma teoria para testar: se utilizar todos os núcleos de uma CPU Intel aumentaria a velocidade dos LLMs? Isso tem me incomodado: o novo modelo gemma3 de 27 bilhões (gemma3:27b, 17GB no Ollama) não cabe nos 16GB de VRAM da minha GPU e está rodando parcialmente na CPU.

Como o Ollama Lida com Solicitações Paralelas

Este guia explica como o Ollama gerencia solicitações paralelas (concorrência, filas e limites de recursos) e como ajustá-lo usando a variável de ambiente OLLAMA_NUM_PARALLEL (e configurações relacionadas).

A primeira geração de modelos de raciocínio da DeepSeek com desempenho comparável ao OpenAI-o1, incluindo seis modelos densos destilados do DeepSeek-R1 com base em Llama e Qwen.

Este resumo de comandos da CLI do Ollama foca nos comandos que você usa todos os dias (ollama ls, ollama serve, ollama run, ollama ps, gerenciamento de modelos e fluxos de trabalho comuns), com exemplos que você pode copiar e colar.

Não foi muito tempo atrás que foi lançado. Vamos dar uma olhada e testar como o Mistral Small se compara a outros LLMs.

Reranking é uma segunda etapa na Geração Aumentada por Recuperação (RAG) sistemas, situada exatamente entre a Recuperação e a Geração.

Comida incrível é um prazer também para os seus olhos. Mas, neste post, compararemos dois sistemas de busca baseados em IA, Farfalle e Perplexica.

Isso é muito emocionante! Em vez de chamar o Copilot ou o Perplexity.ai e contar a todos o que você busca, agora você pode hospedar um serviço similar no seu próprio PC ou laptop!

Recentemente, vimos o lançamento de vários novos LLMs. Tempos emocionantes. Vamos testar e ver como eles se comportam na detecção de falácias lógicas.

Ainda assim, existem algumas abordagens comuns sobre como escrever bons prompts para que os LLMs não fiquem confusos ao tentar entender o que se espera deles.

Comparando as Capacidades de Resumo dos LLMs

Testando como modelos com diferentes números de parâmetros e quantização estão se comportando.

Ollama

Reranking de textos com Ollama e Qwen3 Embedding LLM - em Go

Modelos de Incorporação e Reordenamento Qwen3 no Ollama: Desempenho de Ponta

Desempenho de LLM e Faixas PCIe: Considerações Essenciais

Converta conteúdo HTML para Markdown usando LLM e Ollama.

Comparação de Assistentes de Codificação com IA

Teste: Como o Ollama está utilizando os núcleos de desempenho e eficientes da CPU Intel

Como o Ollama Lida com Solicitações Paralelas

Testando o Deepseek-R1 no Ollama

Resumo de Comandos do Ollama CLI: ls, serve, run, ps + comandos (atualização de 2026)

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 e Phi - Teste de LLM

Reclassificação com modelos de embedding

Farfalle x Perplexica

Hospedagem própria do Perplexica - com Ollama

Gemma2 x Qwen2 x Mistral Nemo x...

Escrever prompts eficazes para LLMs

Comparando as Capacidades de Resumo dos LLMs