O que torna um LLM adequado para o Cognee?

A Cognee requer LLMs com taxas baixas de alucinação (idealmente abaixo de 40%) e um número suficiente de parâmetros (recomendado 32B+) para extração de entidades de qualidade, inferência de relações e geração de metadados. Modelos com altas taxas de alucinação (90%+) produzem grafos ruidosos que prejudicam a qualidade da recuperação.

Qual LLM devo escolher para minha configuração de hardware?

Para configurações de alto desempenho (32 GB+ de VRAM), utilize Deepseek-r1:32b ou Llama3.3-70b. Para configurações intermediárias (16-24 GB de VRAM), o Devstral Small 2 oferece baixa geração de informações não solicitadas e foco em programação. Para configurações de orçamento (12-16 GB de VRAM), o Qwen3:14b é preferível ao gpt-oss:20b devido a taxas muito menores de geração de informações não solicitadas.

Por que evitar gpt-oss:20b para Cognee?

Apesar das velocidades rápidas de inferência, o gpt-oss:20b possui uma taxa de 91,4% de alucinações que polui severamente os nós e arestas do grafo, tornando-o inadequado para pipelines de produção do Cognee, onde a qualidade do grafo é crítica.

Quais modelos de embedding funcionam com o Cognee no Ollama?

Opções populares incluem nomic-embed-text (768 dimensões, contexto de 2k), jina-embeddings-v2-base-en (768 dimensões, contexto de 8k) e modelos qwen3-embedding (1024-4096 dimensões, contexto de 32K). Certifique-se de que as dimensões das embeddings correspondam à configuração do seu armazenamento de vetores.

Escolhendo o LLM certo para o Cognee: Configuração local do Ollama

Reflexões sobre LLMs para o Cognee auto-hospedado

Conteúdo da página

Escolher o Melhor LLM para Cognee exige equilibrar a qualidade da construção de gráficos, as taxas de alucinação e as restrições de hardware.
Cognee se destaca com modelos maiores e de baixa alucinação (32B+) via Ollama, mas opções de tamanho médio funcionam para configurações mais leves.

lecture-in-the-library

Requisitos Principais do Cognee

O Cognee depende do LLM para extração de entidades, inferência de relações e geração de metadados. Modelos com menos de 32B frequentemente produzem gráficos ruidosos, enquanto uma alta alucinação (por exemplo, 90%+) polui os nós/arestas, prejudicando a recuperação. Os documentos oficiais recomendam deepseek-r1:32b ou llama3.3-70b-instruct-q3_K_M combinados com embeddings do Mistral.

Tabela de Comparação de Modelos

Modelo	Parâmetros	Alucinação (SimpleQA/est.)	VRAM (quantizado)	Pontos Fortes do Cognee	Fraquezas
gpt-oss:20b	20B	91,4%	~16GB	Inferência rápida, chamada de ferramentas	Ruído grave nos gráficos
Qwen3:14b	14B	~40-45%	~12-14GB	Eficiente em hardware modesto	Profundidade limitada para gráficos
Devstral Small 2	24B	~8-10%	~18-20GB	Foco em programação, entidades limpas	Maior VRAM que o Qwen3
Llama3.3-70b	70B	~30-40%	~40GB+	Qualidade ótima dos gráficos	Necessidades pesadas de recursos
Deepseek-r1:32b	32B	Baixa (recomendado)	~24-32GB	Melhor para raciocínio/gráficos	Mais lento em GPUs de consumo

Dados sintetizados dos documentos do Cognee, cartões de modelos e benchmarks. Os níveis de alucinação, apesar de parecerem desencontrados, podem estar próximos da realidade…

Recomendações por Hardware

Alto rendimento (32GB+ VRAM): Deepseek-r1:32b ou Llama3.3-70b. Esses modelos produzem os gráficos mais limpos conforme orientações do Cognee.
Médio (16-24GB VRAM): Devstral Small 2. Baixa alucinação e habilidades de programação adequam-se a tarefas de memória estruturada.
Orçamento (12-16GB VRAM): Qwen3:14b em vez de gpt-oss:20b – evite os perigos de alucinação de 91%.
Pense em evitar gpt-oss:20b para o Cognee; há notas de que seus erros se amplificam na construção de gráficos não filtrados. Mas a velocidade de inferência na minha GPU é 2+ vezes mais rápida….

Configuração Rápida de Ollama + Cognee

# 1. Puxe o modelo (por exemplo, Devstral)
ollama pull devstral-small-2:24b  # ou qwen3:14b, etc.

# 2. Instale o Cognee
pip install "cognee[ollama]"

# 3. Variáveis de ambiente
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 dimensões
export EMBEDDING_DIMENSIONS=768

# 4. Teste o gráfico
cognee-cli add --file "your_data.txt" --name "test_graph"

Certifique-se de que as dimensões de embedding (por exemplo, 768, 1024) sejam iguais entre a configuração e o armazenamento de vetores. Embeddings Qwen3 (ainda não testados no Cognee) podem funcionar com dimensões de 1024-4096 se suportados pelo Ollama.

Priorize modelos com baixa alucinação para pipelines de produção do Cognee – seus gráficos agradecerão.
Teste em seu hardware e monitore a coerência dos gráficos.

Modelos de embedding

Não pensei muito nisso, mas aqui está uma tabela que juntei, para referência futura

Modelo do Ollama	Tamanho, GB	Dimensões de Embedding	Comprimento do Contexto
nomic-embed-text:latest	0,274	768	2k
jina-embeddings-v2-base-en:latest	0,274	768	8k
nomic-embed-text-v2-moe	0,958	768	512
qwen3-embedding:0.6b	0,639	1024	32K
qwen3-embedding:4b	2,5	2560	32K
qwen3-embedding:8b	4,7	4096	32K
avr/sfr-embedding-mistral:latest	4,4	4096	32K

Requisitos Principais do Cognee

Tabela de Comparação de Modelos

Recomendações por Hardware

Configuração Rápida de Ollama + Cognee

Modelos de embedding

Links Úteis