Escolhendo o LLM Ideal para o Cognee: Configuração Local com Ollama

Considerações sobre LLMs para Cognee auto-hospedado

Conteúdo da página

Escolher o Melhor LLM para o Cognee exige equilibrar a qualidade da construção de grafos, as taxas de alucinação e as restrições de hardware. O Cognee desempenha-se melhor com modelos maiores e de baixa alucinação (32B+) através do Ollama, mas opções de tamanho médio funcionam para configurações mais leves.

Para uma comparação mais abrangente do Ollama com vLLM, Docker Model Runner, LocalAI e provedores de nuvem — incluindo compensações de custo e infraestrutura — consulte Hospedagem de LLM: Infraestrutura Local, Auto-hospedada e em Nuvem Comparadas.

lecture-in-the-library

Requisitos Principais do Cognee

O Cognee depende do LLM para extração de entidades, inferência de relações e geração de metadados. Modelos com menos de 32B frequentemente produzem grafos ruidosos, enquanto uma alta alucinação (ex: 90%+) polui nós/arestas, degradando a recuperação. A documentação oficial recomenda deepseek-r1:32b ou llama3.3-70b-instruct-q3_K_M emparelhados com embeddings Mistral.

Tabela de Comparação de Modelos

Modelo Parâmetros Alucinação (SimpleQA/est.) VRAM (quantizado) Pontos Fortes do Cognee Pontos Fracos
gpt-oss:20b 20B 91.4% ~16GB Inferência rápida, chamada de ferramentas Ruído severo no grafo
Qwen3:14b 14B ~40-45% ~12-14GB Eficiente em hardware modesto Profundidade limitada para grafos
Devstral Small 2 24B ~8-10% ~18-20GB Foco em codificação, entidades limpas VRAM mais alta que Qwen3
Llama3.3-70b 70B ~30-40% ~40GB+ Qualidade de grafo ótima Necessidades pesadas de recursos
Deepseek-r1:32b 32B Baixa (recomendado) ~24-32GB Melhor para raciocínio/grafos Mais lento em GPUs de consumo

Dados sintetizados a partir da documentação do Cognee, cartões de modelo e benchmarks; os dados de nível de alucinação, embora pareçam fora do comum, podem não estar muito distantes da realidade…

Recomendações por Hardware

  • Alto desempenho (32GB+ VRAM): Deepseek-r1:32b ou Llama3.3-70b. Estes produzem os grafos mais limpos de acordo com as orientações do Cognee.
  • Médio (16-24GB VRAM): Devstral Small 2. Baixa alucinação e expertise em codificação são adequados para tarefas de memória estruturada.
  • Orçamento (12-16GB VRAM): Qwen3:14b em vez de gpt-oss:20b — evite as armadilhas de 91% de alucinação.
  • Estou pensando em evitar o gpt-oss:20b para o Cognee; há notas indicando que seus erros se amplificam na construção de grafos não filtrados. Mas a velocidade de inferência na minha GPU é 2+ vezes mais rápida….

Configuração Rápida do Ollama + Cognee

# 1. Baixar modelo (ex: Devstral)
ollama pull devstral-small-2:24b  # ou qwen3:14b, etc.

# 2. Instalar Cognee
pip install "cognee[ollama]"

# 3. Variáveis de ambiente
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 dimensões
export EMBEDDING_DIMENSIONS=768

# 4. Testar grafo
cognee-cli add your_data_file.txt --dataset-name "test_graph"

Corresponda as dimensões de embedding (ex: 768, 1024) entre a configuração e o vetor store. Embeddings Qwen3 (não comprovado no Cognee) poderia funcionar em 1024-4096 dimensões se suportado pelo Ollama.

Priorize modelos de baixa alucinação para pipelines de produção do Cognee — seus grafos agradecerão. Teste no seu hardware e monitore a coerência do grafo. Para ver como o Ollama se encaixa com outras opções de LLM locais e em nuvem, consulte nosso guia Hospedagem de LLM: Infraestrutura Local, Auto-hospedada e em Nuvem Comparadas.

Modelos de Embedding

Não pensei muito nisso, mas aqui está uma tabela que reuni, para referência futura

Modelo Ollama Tamanho, GB Dimensões de Embedding Comprimento do Contexto
nomic-embed-text:latest 0.274 768 2k
jina-embeddings-v2-base-en:latest 0.274 768 8k
nomic-embed-text-v2-moe 0.958 768 512
qwen3-embedding:0.6b 0.639 1024 32K
qwen3-embedding:4b 2.5 2560 32K
qwen3-embedding:8b 4.7 4096 32K
avr/sfr-embedding-mistral:latest 4.4 4096 32K

Assinar

Receba novos artigos sobre sistemas, infraestrutura e engenharia de IA.