Escolhendo o LLM certo para o Cognee: Configuração local do Ollama
Reflexões sobre LLMs para o Cognee auto-hospedado
Escolher o Melhor LLM para Cognee exige equilibrar a qualidade da construção de gráficos, as taxas de alucinação e as restrições de hardware.
Cognee se destaca com modelos maiores e de baixa alucinação (32B+) via Ollama, mas opções de tamanho médio funcionam para configurações mais leves.

Requisitos Principais do Cognee
O Cognee depende do LLM para extração de entidades, inferência de relações e geração de metadados. Modelos com menos de 32B frequentemente produzem gráficos ruidosos, enquanto uma alta alucinação (por exemplo, 90%+) polui os nós/arestas, prejudicando a recuperação. Os documentos oficiais recomendam deepseek-r1:32b ou llama3.3-70b-instruct-q3_K_M combinados com embeddings do Mistral.
Tabela de Comparação de Modelos
| Modelo | Parâmetros | Alucinação (SimpleQA/est.) | VRAM (quantizado) | Pontos Fortes do Cognee | Fraquezas |
|---|---|---|---|---|---|
| gpt-oss:20b | 20B | 91,4% | ~16GB | Inferência rápida, chamada de ferramentas | Ruído grave nos gráficos |
| Qwen3:14b | 14B | ~40-45% | ~12-14GB | Eficiente em hardware modesto | Profundidade limitada para gráficos |
| Devstral Small 2 | 24B | ~8-10% | ~18-20GB | Foco em programação, entidades limpas | Maior VRAM que o Qwen3 |
| Llama3.3-70b | 70B | ~30-40% | ~40GB+ | Qualidade ótima dos gráficos | Necessidades pesadas de recursos |
| Deepseek-r1:32b | 32B | Baixa (recomendado) | ~24-32GB | Melhor para raciocínio/gráficos | Mais lento em GPUs de consumo |
Dados sintetizados dos documentos do Cognee, cartões de modelos e benchmarks. Os níveis de alucinação, apesar de parecerem desencontrados, podem estar próximos da realidade…
Recomendações por Hardware
- Alto rendimento (32GB+ VRAM): Deepseek-r1:32b ou Llama3.3-70b. Esses modelos produzem os gráficos mais limpos conforme orientações do Cognee.
- Médio (16-24GB VRAM): Devstral Small 2. Baixa alucinação e habilidades de programação adequam-se a tarefas de memória estruturada.
- Orçamento (12-16GB VRAM): Qwen3:14b em vez de gpt-oss:20b – evite os perigos de alucinação de 91%.
- Pense em evitar gpt-oss:20b para o Cognee; há notas de que seus erros se amplificam na construção de gráficos não filtrados. Mas a velocidade de inferência na minha GPU é 2+ vezes mais rápida….
Configuração Rápida de Ollama + Cognee
# 1. Puxe o modelo (por exemplo, Devstral)
ollama pull devstral-small-2:24b # ou qwen3:14b, etc.
# 2. Instale o Cognee
pip install "cognee[ollama]"
# 3. Variáveis de ambiente
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text" # 768 dimensões
export EMBEDDING_DIMENSIONS=768
# 4. Teste o gráfico
cognee add --file "your_data.txt" --name "test_graph"
Certifique-se de que as dimensões de embedding (por exemplo, 768, 1024) sejam iguais entre a configuração e o armazenamento de vetores. Embeddings Qwen3 (ainda não testados no Cognee) podem funcionar com dimensões de 1024-4096 se suportados pelo Ollama.
Priorize modelos com baixa alucinação para pipelines de produção do Cognee – seus gráficos agradecerão.
Teste em seu hardware e monitore a coerência dos gráficos.
Modelos de embedding
Não pensei muito nisso, mas aqui está uma tabela que juntei, para referência futura
| Modelo do Ollama | Tamanho, GB | Dimensões de Embedding | Comprimento do Contexto |
|---|---|---|---|
| nomic-embed-text:latest | 0,274 | 768 | 2k |
| jina-embeddings-v2-base-en:latest | 0,274 | 768 | 8k |
| nomic-embed-text-v2-moe | 0,958 | 768 | 512 |
| qwen3-embedding:0.6b | 0,639 | 1024 | 32K |
| qwen3-embedding:4b | 2,5 | 2560 | 32K |
| qwen3-embedding:8b | 4,7 | 4096 | 32K |
| avr/sfr-embedding-mistral:latest | 4,4 | 4096 | 32K |
Links Úteis
- https://docs.cognee.ai/how_to_guides/local_models
- https://docs.cognee.ai/setup-configuration/embedding-providers
- https://arxiv.org/html/2508.10925v1
- https://github.com/vectara/hallucination-leaderboard
- https://ollama.com/library/nomic-embed-text-v2-moe
- Embedding Qwen3
- Como Mover Modelos Ollama para Diferente Unidade ou Pasta
- Ollama cheatsheet