Escolhendo o LLM certo para o Cognee: Configuração local do Ollama

Reflexões sobre LLMs para o Cognee auto-hospedado

Conteúdo da página

Escolher o Melhor LLM para Cognee exige equilibrar a qualidade da construção de gráficos, as taxas de alucinação e as restrições de hardware.
Cognee se destaca com modelos maiores e de baixa alucinação (32B+) via Ollama, mas opções de tamanho médio funcionam para configurações mais leves.

lecture-in-the-library

Requisitos Principais do Cognee

O Cognee depende do LLM para extração de entidades, inferência de relações e geração de metadados. Modelos com menos de 32B frequentemente produzem gráficos ruidosos, enquanto uma alta alucinação (por exemplo, 90%+) polui os nós/arestas, prejudicando a recuperação. Os documentos oficiais recomendam deepseek-r1:32b ou llama3.3-70b-instruct-q3_K_M combinados com embeddings do Mistral.

Tabela de Comparação de Modelos

Modelo Parâmetros Alucinação (SimpleQA/est.) VRAM (quantizado) Pontos Fortes do Cognee Fraquezas
gpt-oss:20b 20B 91,4% ~16GB Inferência rápida, chamada de ferramentas Ruído grave nos gráficos
Qwen3:14b 14B ~40-45% ~12-14GB Eficiente em hardware modesto Profundidade limitada para gráficos
Devstral Small 2 24B ~8-10% ~18-20GB Foco em programação, entidades limpas Maior VRAM que o Qwen3
Llama3.3-70b 70B ~30-40% ~40GB+ Qualidade ótima dos gráficos Necessidades pesadas de recursos
Deepseek-r1:32b 32B Baixa (recomendado) ~24-32GB Melhor para raciocínio/gráficos Mais lento em GPUs de consumo

Dados sintetizados dos documentos do Cognee, cartões de modelos e benchmarks. Os níveis de alucinação, apesar de parecerem desencontrados, podem estar próximos da realidade…

Recomendações por Hardware

  • Alto rendimento (32GB+ VRAM): Deepseek-r1:32b ou Llama3.3-70b. Esses modelos produzem os gráficos mais limpos conforme orientações do Cognee.
  • Médio (16-24GB VRAM): Devstral Small 2. Baixa alucinação e habilidades de programação adequam-se a tarefas de memória estruturada.
  • Orçamento (12-16GB VRAM): Qwen3:14b em vez de gpt-oss:20b – evite os perigos de alucinação de 91%.
  • Pense em evitar gpt-oss:20b para o Cognee; há notas de que seus erros se amplificam na construção de gráficos não filtrados. Mas a velocidade de inferência na minha GPU é 2+ vezes mais rápida….

Configuração Rápida de Ollama + Cognee

# 1. Puxe o modelo (por exemplo, Devstral)
ollama pull devstral-small-2:24b  # ou qwen3:14b, etc.

# 2. Instale o Cognee
pip install "cognee[ollama]"

# 3. Variáveis de ambiente
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 dimensões
export EMBEDDING_DIMENSIONS=768

# 4. Teste o gráfico
cognee add --file "your_data.txt" --name "test_graph"

Certifique-se de que as dimensões de embedding (por exemplo, 768, 1024) sejam iguais entre a configuração e o armazenamento de vetores. Embeddings Qwen3 (ainda não testados no Cognee) podem funcionar com dimensões de 1024-4096 se suportados pelo Ollama.

Priorize modelos com baixa alucinação para pipelines de produção do Cognee – seus gráficos agradecerão.
Teste em seu hardware e monitore a coerência dos gráficos.

Modelos de embedding

Não pensei muito nisso, mas aqui está uma tabela que juntei, para referência futura

Modelo do Ollama Tamanho, GB Dimensões de Embedding Comprimento do Contexto
nomic-embed-text:latest 0,274 768 2k
jina-embeddings-v2-base-en:latest 0,274 768 8k
nomic-embed-text-v2-moe 0,958 768 512
qwen3-embedding:0.6b 0,639 1024 32K
qwen3-embedding:4b 2,5 2560 32K
qwen3-embedding:8b 4,7 4096 32K
avr/sfr-embedding-mistral:latest 4,4 4096 32K