Comparação da qualidade da tradução de páginas do Hugo - LLMs no Ollama
Qwen3 8B, 14B e 30B, Devstral 24B e Mistral Small 24B
Neste teste, estou comparando como diferentes LLMs hospedados no Ollama traduzem páginas do Hugo de inglês para alemão.
Qwen3 8B, 14B e 30B, Devstral 24B e Mistral Small 24B
Neste teste, estou comparando como diferentes LLMs hospedados no Ollama traduzem páginas do Hugo de inglês para alemão.
Implementando RAG? Aqui estão alguns snippets de código em Golang.
Este pequeno Exemplo de código Go para reranking que chama o Ollama para gerar embeddings é usado para a consulta e para cada documento candidato, ordenando em ordem decrescente por similaridade cosseno.
Novos e incríveis LLMs disponíveis no Ollama
Os modelos Qwen3 de Embedding e Reranker são os lançamentos mais recentes da família Qwen, projetados especificamente para tarefas avançadas de incorporação (embedding), recuperação e reclassificação de texto.
Pensando em instalar uma segunda GPU para LLMs?
Como as Pistas PCIe Afetam o Desempenho de LLM? Depende da tarefa. Para treinamento e inferência multi-GPU, a queda de desempenho é significativa.
LLM para extrair texto de HTML...
Na biblioteca de modelos do Ollama, existem modelos capazes de converter conteúdo HTML para Markdown, o que é útil para tarefas de conversão de conteúdo.
Qual modo de pesquisa de IA se adequa à sua tarefa?
Cursor AI vs GitHub Copilot vs Cline AI vs...
Aqui, listarei algumas ferramentas de codificação assistidas por IA e Assistentes de Codificação com IA, bem como seus pontos positivos.
Lista curta de provedores de LLM
Usar LLMs não é muito caro; pode ser que não haja necessidade de comprar uma nova GPU incrível. Abaixo está uma lista de provedores de LLM na nuvem com os LLMs que hospedam.
Ollama em CPUs Intel: núcleos eficientes versus núcleos de desempenho
Tenho uma teoria para testar: se utilizar todos os núcleos de uma CPU Intel aumentaria a velocidade dos LLMs? Isso tem me incomodado: o novo modelo gemma3 de 27 bilhões (gemma3:27b, 17GB no Ollama) não cabe nos 16GB de VRAM da minha GPU e está rodando parcialmente na CPU.
A IA exige muita energia...
No meio da agitação do mundo moderno, estou comparando as especificações técnicas de diferentes placas adequadas para tarefas de IA (Aprendizado Profundo, Detecção de Objetos e LLMs). No entanto, todas elas são incrivelmente caras.
Compreenda a concorrência e a fila do Ollama e aprenda como ajustar o OLLAMA_NUM_PARALLEL para solicitações paralelas estáveis.
Este guia explica como o Ollama gerencia solicitações paralelas (concorrência, filas e limites de recursos) e como ajustá-lo usando a variável de ambiente OLLAMA_NUM_PARALLEL (e configurações relacionadas).
Programação assistida por IA onde você descreve, não digita.
Vibe coding é uma abordagem de programação orientada por IA, onde os desenvolvedores descrevem a funcionalidade desejada em linguagem natural e permitem que ferramentas de IA gerem o código automaticamente — com escrita direta mínima.
Comparando dois modelos deepseek-r1 com dois modelos base
A primeira geração de modelos de raciocínio da DeepSeek com desempenho comparável ao OpenAI-o1, incluindo seis modelos densos destilados do DeepSeek-R1 com base em Llama e Qwen.
Lista de comandos Ollama atualizada — ls, ps, run, serve, etc.
Este resumo de comandos da CLI do Ollama foca nos comandos que você usa todos os dias (ollama ls, ollama serve, ollama run, ollama ps, gerenciamento de modelos e fluxos de trabalho comuns), com exemplos que você pode copiar e colar.
Próxima rodada de testes de LLM
Não foi muito tempo atrás que foi lançado. Vamos dar uma olhada e testar como o Mistral Small se compara a outros LLMs.
Um código Python para o reranking de RAG