Escolhendo o LLM Ideal para o Cognee: Configuração Local com Ollama
Considerações sobre LLMs para Cognee auto-hospedado
Escolher o Melhor LLM para o Cognee exige equilibrar a qualidade da construção de grafos, as taxas de alucinação e as restrições de hardware. O Cognee desempenha-se melhor com modelos maiores e de baixa alucinação (32B+) através do Ollama, mas opções de tamanho médio funcionam para configurações mais leves.
Para uma comparação mais abrangente do Ollama com vLLM, Docker Model Runner, LocalAI e provedores de nuvem — incluindo compensações de custo e infraestrutura — consulte Hospedagem de LLM: Infraestrutura Local, Auto-hospedada e em Nuvem Comparadas.

Requisitos Principais do Cognee
O Cognee depende do LLM para extração de entidades, inferência de relações e geração de metadados. Modelos com menos de 32B frequentemente produzem grafos ruidosos, enquanto uma alta alucinação (ex: 90%+) polui nós/arestas, degradando a recuperação. A documentação oficial recomenda deepseek-r1:32b ou llama3.3-70b-instruct-q3_K_M emparelhados com embeddings Mistral.
Tabela de Comparação de Modelos
| Modelo | Parâmetros | Alucinação (SimpleQA/est.) | VRAM (quantizado) | Pontos Fortes do Cognee | Pontos Fracos |
|---|---|---|---|---|---|
| gpt-oss:20b | 20B | 91.4% | ~16GB | Inferência rápida, chamada de ferramentas | Ruído severo no grafo |
| Qwen3:14b | 14B | ~40-45% | ~12-14GB | Eficiente em hardware modesto | Profundidade limitada para grafos |
| Devstral Small 2 | 24B | ~8-10% | ~18-20GB | Foco em codificação, entidades limpas | VRAM mais alta que Qwen3 |
| Llama3.3-70b | 70B | ~30-40% | ~40GB+ | Qualidade de grafo ótima | Necessidades pesadas de recursos |
| Deepseek-r1:32b | 32B | Baixa (recomendado) | ~24-32GB | Melhor para raciocínio/grafos | Mais lento em GPUs de consumo |
Dados sintetizados a partir da documentação do Cognee, cartões de modelo e benchmarks; os dados de nível de alucinação, embora pareçam fora do comum, podem não estar muito distantes da realidade…
Recomendações por Hardware
- Alto desempenho (32GB+ VRAM): Deepseek-r1:32b ou Llama3.3-70b. Estes produzem os grafos mais limpos de acordo com as orientações do Cognee.
- Médio (16-24GB VRAM): Devstral Small 2. Baixa alucinação e expertise em codificação são adequados para tarefas de memória estruturada.
- Orçamento (12-16GB VRAM): Qwen3:14b em vez de gpt-oss:20b — evite as armadilhas de 91% de alucinação.
- Estou pensando em evitar o gpt-oss:20b para o Cognee; há notas indicando que seus erros se amplificam na construção de grafos não filtrados. Mas a velocidade de inferência na minha GPU é 2+ vezes mais rápida….
Configuração Rápida do Ollama + Cognee
# 1. Baixar modelo (ex: Devstral)
ollama pull devstral-small-2:24b # ou qwen3:14b, etc.
# 2. Instalar Cognee
pip install "cognee[ollama]"
# 3. Variáveis de ambiente
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text" # 768 dimensões
export EMBEDDING_DIMENSIONS=768
# 4. Testar grafo
cognee-cli add your_data_file.txt --dataset-name "test_graph"
Corresponda as dimensões de embedding (ex: 768, 1024) entre a configuração e o vetor store. Embeddings Qwen3 (não comprovado no Cognee) poderia funcionar em 1024-4096 dimensões se suportado pelo Ollama.
Priorize modelos de baixa alucinação para pipelines de produção do Cognee — seus grafos agradecerão. Teste no seu hardware e monitore a coerência do grafo. Para ver como o Ollama se encaixa com outras opções de LLM locais e em nuvem, consulte nosso guia Hospedagem de LLM: Infraestrutura Local, Auto-hospedada e em Nuvem Comparadas.
Modelos de Embedding
Não pensei muito nisso, mas aqui está uma tabela que reuni, para referência futura
| Modelo Ollama | Tamanho, GB | Dimensões de Embedding | Comprimento do Contexto |
|---|---|---|---|
| nomic-embed-text:latest | 0.274 | 768 | 2k |
| jina-embeddings-v2-base-en:latest | 0.274 | 768 | 8k |
| nomic-embed-text-v2-moe | 0.958 | 768 | 512 |
| qwen3-embedding:0.6b | 0.639 | 1024 | 32K |
| qwen3-embedding:4b | 2.5 | 2560 | 32K |
| qwen3-embedding:8b | 4.7 | 4096 | 32K |
| avr/sfr-embedding-mistral:latest | 4.4 | 4096 | 32K |
Links Úteis
- https://docs.cognee.ai/how_to_guides/local_models
- https://docs.cognee.ai/setup-configuration/embedding-providers
- https://arxiv.org/html/2508.10925v1
- https://github.com/vectara/hallucination-leaderboard
- https://ollama.com/library/nomic-embed-text-v2-moe
- Embedding Qwen3
- Configurar Pasta de Modelos do Ollama
- Guia rápido do Ollama