¿Qué hace que un LLM sea adecuado para Cognee?

Cognee requiere LLMs con tasas bajas de alucinación (idealmente inferiores al 40%) y un número suficiente de parámetros (se recomienda 32B o más) para una extracción de entidades, inferencia de relaciones y generación de metadatos de calidad. Los modelos con altas tasas de alucinación (90% o más) producen grafos ruidosos que degradan la calidad de recuperación.

¿Cuál LLM debo elegir para mi configuración de hardware?

Para configuraciones de alta gama (32 GB o más de VRAM), utilice Deepseek-r1:32b o Llama3.3-70b. Para configuraciones intermedias (16-24 GB de VRAM), Devstral Small 2 ofrece una baja tasa de alucinaciones y enfoque en programación. Para configuraciones de presupuesto (12-16 GB de VRAM), Qwen3:14b es preferible frente a gpt-oss:20b debido a sus tasas de alucinación mucho más bajas.

¿Por qué evitar gpt-oss:20b para Cognee?

A pesar de las velocidades de inferencia rápidas, gpt-oss:20b tiene una tasa de alucinaciones del 91,4% que contaminan gravemente los nodos y aristas del grafo, lo que lo hace inadecuado para pipelines de Cognee en producción donde la calidad del grafo es crítica.

¿Qué modelos de incrustación funcionan con Cognee en Ollama?

Opciones populares incluyen nomic-embed-text (768 dimensiones, contexto de 2k), jina-embeddings-v2-base-en (768 dimensiones, contexto de 8k) y modelos qwen3-embedding (1024-4096 dimensiones, contexto de 32K). Asegúrese de que las dimensiones de los embeddings coincidan con la configuración de su almacén de vectores.

Elegir el LLM adecuado para Cognee: Configuración local de Ollama

Reflexiones sobre LLMs para Cognee autohospedado

Índice

Elegir el Mejor LLM para Cognee requiere equilibrar la calidad de construcción de gráficos, las tasas de alucinación y las restricciones de hardware.
Cognee destaca al utilizar modelos grandes con baja alucinación (32B+) mediante Ollama, pero las opciones de tamaño medio funcionan para configuraciones más ligeras.

lecture-in-the-library

Requisitos clave de Cognee

Cognee depende del LLM para la extracción de entidades, la inferencia de relaciones y la generación de metadatos. Los modelos por debajo de 32B suelen producir gráficos ruidosos, mientras que una alta alucinación (por ejemplo, 90%+) contamina los nodos/arcos, degradando la recuperación. Los documentos oficiales recomiendan deepseek-r1:32b o llama3.3-70b-instruct-q3_K_M emparejados con incrustaciones de Mistral.

Tabla de comparación de modelos

Modelo	Parámetros	Alucinación (SimpleQA/est.)	VRAM (cuantizado)	Fortalezas de Cognee	Debilidades
gpt-oss:20b	20B	91,4%	~16 GB	Inferencia rápida, llamada de herramientas	Ruido grave en gráficos
Qwen3:14b	14B	~40-45%	~12-14 GB	Eficiente en hardware modesto	Profundidad limitada para gráficos
Devstral Small 2	24B	~8-10%	~18-20 GB	Enfoque en codificación, entidades limpias	Mayor VRAM que Qwen3
Llama3.3-70b	70B	~30-40%	~40 GB+	Calidad óptima de gráficos	Necesidades pesadas de recursos
Deepseek-r1:32b	32B	Baja (recomendado)	~24-32 GB	Mejor para razonamiento/gráficos	Más lento en GPUs de consumo

Datos sintetizados de los documentos de Cognee, tarjetas de modelos y benchmarks, los niveles de alucinación, aunque parecen estar fuera de lugar, podrían no estar muy lejos…

Recomendaciones por hardware

Alto rendimiento (32 GB+ de VRAM): Deepseek-r1:32b o Llama3.3-70b. Estos producen los gráficos más limpios según la guía de Cognee.
Mediano (16-24 GB de VRAM): Devstral Small 2. Baja alucinación y habilidades de codificación se adaptan a tareas de memoria estructurada.
Presupuesto (12-16 GB de VRAM): Qwen3:14b en lugar de gpt-oss:20b - evite los problemas de alucinación del 91%.
Pensando en evitar gpt-oss:20b para Cognee; hay notas que indican que sus errores se amplifican en la construcción de gráficos no filtrados. Pero la velocidad de inferencia en mi GPU es 2+ veces más rápida….

Configuración rápida de Ollama + Cognee

# 1. Descargar el modelo (por ejemplo, Devstral)
ollama pull devstral-small-2:24b  # o qwen3:14b, etc.

# 2. Instalar Cognee
pip install "cognee[ollama]"

# 3. Variables de entorno
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 dimensiones
export EMBEDDING_DIMENSIONS=768

# 4. Probar gráfico
cognee-cli add --file "your_data.txt" --name "test_graph"

Asegúrese de que las dimensiones de incrustación (por ejemplo, 768, 1024) coincidan entre la configuración y el almacén de vectores. Qwen3 Embeddings (no probados en Cognee) podrían funcionar en dimensiones de 1024-4096 si Ollama lo admite.

Priorice modelos con baja alucinación para pipelines de Cognee en producción—sus gráficos se lo agradecerán.
Pruebe en su hardware y supervise la coherencia de los gráficos.

Modelos de incrustación

No pensé mucho en este aspecto, pero aquí está una tabla que junté, para referencia futura

Modelo de Ollama	Tamaño, GB	Dimensiones de incrustación	Longitud de contexto
nomic-embed-text:latest	0,274	768	2k
jina-embeddings-v2-base-en:latest	0,274	768	8k
nomic-embed-text-v2-moe	0,958	768	512
qwen3-embedding:0.6b	0,639	1024	32K
qwen3-embedding:4b	2,5	2560	32K
qwen3-embedding:8b	4,7	4096	32K
avr/sfr-embedding-mistral:latest	4,4	4096	32K

Requisitos clave de Cognee

Tabla de comparación de modelos

Recomendaciones por hardware

Configuración rápida de Ollama + Cognee

Modelos de incrustación

Enlaces útiles