O que torna um LLM adequado para o Cognee?

O Cognee exige LLMs com baixas taxas de alucinação (idealmente abaixo de 40%) e número de parâmetros suficiente (32B+ recomendado) para extração de entidades de qualidade, inferência de relações e geração de metadados. Modelos com altas taxas de alucinação (90%+) produzem grafos ruidosos que degradam a qualidade de recuperação.

Qual LLM devo escolher para minha configuração de hardware?

Para configurações de alta performance (32 GB+ de VRAM), utilize o Deepseek-r1:32b ou o Llama3.3-70b. Para configurações intermediárias (16-24 GB de VRAM), o Devstral Small 2 oferece baixa alucinação e foco em codificação. Para configurações econômicas (12-16 GB de VRAM), o Qwen3:14b é preferível ao gpt-oss:20b devido a taxas de alucinação muito menores.

Por que evitar o gpt-oss:20b para o Cognee?

Apesar da rápida velocidade de inferência, o gpt-oss:20b apresenta uma taxa de alucinação de 91,4%, o que contamina gravemente os nós e arestas do grafo, tornando-o inadequado para pipelines de produção do Cognee, onde a qualidade do grafo é crítica.

Quais modelos de embedding funcionam com o Cognee no Ollama?

As opções populares incluem nomic-embed-text (768 dimensões, contexto de 2k), jina-embeddings-v2-base-en (768 dimensões, contexto de 8k) e os modelos qwen3-embedding (1024-4096 dimensões, contexto de 32K). Certifique-se de que as dimensões dos embeddings correspondam à configuração do seu vetor store.

Onde se encaixa o Ollama para o Cognee no cenário de hospedagem de LLMs?

Ollama é uma das opções locais. Nosso principal guia de hospedagem de LLM compara-o com vLLM, Docker Model Runner, LocalAI e provedores de nuvem, incluindo trade-offs de custos e infraestrutura.

Posso executar o Cognee com um backend diferente do Ollama?

O Cognee suporta o Ollama e outros provedores. Para comparar backends locais e em nuvem, consulte o guia de hospedagem de LLMs.

Escolhendo o LLM Ideal para o Cognee: Configuração Local com Ollama

Considerações sobre LLMs para Cognee auto-hospedado

Conteúdo da página

Escolher o Melhor LLM para o Cognee exige equilibrar a qualidade da construção de grafos, as taxas de alucinação e as restrições de hardware. O Cognee desempenha-se melhor com modelos maiores e de baixa alucinação (32B+) através do Ollama, mas opções de tamanho médio funcionam para configurações mais leves.

Para uma comparação mais abrangente do Ollama com vLLM, Docker Model Runner, LocalAI e provedores de nuvem — incluindo compensações de custo e infraestrutura — consulte Hospedagem de LLM: Infraestrutura Local, Auto-hospedada e em Nuvem Comparadas.

lecture-in-the-library

Requisitos Principais do Cognee

O Cognee depende do LLM para extração de entidades, inferência de relações e geração de metadados. Modelos com menos de 32B frequentemente produzem grafos ruidosos, enquanto uma alta alucinação (ex: 90%+) polui nós/arestas, degradando a recuperação. A documentação oficial recomenda deepseek-r1:32b ou llama3.3-70b-instruct-q3_K_M emparelhados com embeddings Mistral.

Tabela de Comparação de Modelos

Modelo	Parâmetros	Alucinação (SimpleQA/est.)	VRAM (quantizado)	Pontos Fortes do Cognee	Pontos Fracos
gpt-oss:20b	20B	91.4%	~16GB	Inferência rápida, chamada de ferramentas	Ruído severo no grafo
Qwen3:14b	14B	~40-45%	~12-14GB	Eficiente em hardware modesto	Profundidade limitada para grafos
Devstral Small 2	24B	~8-10%	~18-20GB	Foco em codificação, entidades limpas	VRAM mais alta que Qwen3
Llama3.3-70b	70B	~30-40%	~40GB+	Qualidade de grafo ótima	Necessidades pesadas de recursos
Deepseek-r1:32b	32B	Baixa (recomendado)	~24-32GB	Melhor para raciocínio/grafos	Mais lento em GPUs de consumo

Dados sintetizados a partir da documentação do Cognee, cartões de modelo e benchmarks; os dados de nível de alucinação, embora pareçam fora do comum, podem não estar muito distantes da realidade…

Recomendações por Hardware

Alto desempenho (32GB+ VRAM): Deepseek-r1:32b ou Llama3.3-70b. Estes produzem os grafos mais limpos de acordo com as orientações do Cognee.
Médio (16-24GB VRAM): Devstral Small 2. Baixa alucinação e expertise em codificação são adequados para tarefas de memória estruturada.
Orçamento (12-16GB VRAM): Qwen3:14b em vez de gpt-oss:20b — evite as armadilhas de 91% de alucinação.
Estou pensando em evitar o gpt-oss:20b para o Cognee; há notas indicando que seus erros se amplificam na construção de grafos não filtrados. Mas a velocidade de inferência na minha GPU é 2+ vezes mais rápida….

Configuração Rápida do Ollama + Cognee

# 1. Baixar modelo (ex: Devstral)
ollama pull devstral-small-2:24b  # ou qwen3:14b, etc.

# 2. Instalar Cognee
pip install "cognee[ollama]"

# 3. Variáveis de ambiente
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 dimensões
export EMBEDDING_DIMENSIONS=768

# 4. Testar grafo
cognee-cli add your_data_file.txt --dataset-name "test_graph"

Corresponda as dimensões de embedding (ex: 768, 1024) entre a configuração e o vetor store. Embeddings Qwen3 (não comprovado no Cognee) poderia funcionar em 1024-4096 dimensões se suportado pelo Ollama.

Priorize modelos de baixa alucinação para pipelines de produção do Cognee — seus grafos agradecerão. Teste no seu hardware e monitore a coerência do grafo. Para ver como o Ollama se encaixa com outras opções de LLM locais e em nuvem, consulte nosso guia Hospedagem de LLM: Infraestrutura Local, Auto-hospedada e em Nuvem Comparadas.

Modelos de Embedding

Não pensei muito nisso, mas aqui está uma tabela que reuni, para referência futura

Modelo Ollama	Tamanho, GB	Dimensões de Embedding	Comprimento do Contexto
nomic-embed-text:latest	0.274	768	2k
jina-embeddings-v2-base-en:latest	0.274	768	8k
nomic-embed-text-v2-moe	0.958	768	512
qwen3-embedding:0.6b	0.639	1024	32K
qwen3-embedding:4b	2.5	2560	32K
qwen3-embedding:8b	4.7	4096	32K
avr/sfr-embedding-mistral:latest	4.4	4096	32K

Requisitos Principais do Cognee

Tabela de Comparação de Modelos

Recomendações por Hardware

Configuração Rápida do Ollama + Cognee

Modelos de Embedding

Links Úteis

Assinar