Elegir el LLM adecuado para Cognee: Configuración local de Ollama

Reflexiones sobre LLMs para Cognee autohospedado

Índice

Elegir el Mejor LLM para Cognee requiere equilibrar la calidad de construcción de gráficos, las tasas de alucinación y las restricciones de hardware.
Cognee destaca al utilizar modelos grandes con baja alucinación (32B+) mediante Ollama, pero las opciones de tamaño medio funcionan para configuraciones más ligeras.

lecture-in-the-library

Requisitos clave de Cognee

Cognee depende del LLM para la extracción de entidades, la inferencia de relaciones y la generación de metadatos. Los modelos por debajo de 32B suelen producir gráficos ruidosos, mientras que una alta alucinación (por ejemplo, 90%+) contamina los nodos/arcos, degradando la recuperación. Los documentos oficiales recomiendan deepseek-r1:32b o llama3.3-70b-instruct-q3_K_M emparejados con incrustaciones de Mistral.

Tabla de comparación de modelos

Modelo Parámetros Alucinación (SimpleQA/est.) VRAM (cuantizado) Fortalezas de Cognee Debilidades
gpt-oss:20b 20B 91,4% ~16 GB Inferencia rápida, llamada de herramientas Ruido grave en gráficos
Qwen3:14b 14B ~40-45% ~12-14 GB Eficiente en hardware modesto Profundidad limitada para gráficos
Devstral Small 2 24B ~8-10% ~18-20 GB Enfoque en codificación, entidades limpias Mayor VRAM que Qwen3
Llama3.3-70b 70B ~30-40% ~40 GB+ Calidad óptima de gráficos Necesidades pesadas de recursos
Deepseek-r1:32b 32B Baja (recomendado) ~24-32 GB Mejor para razonamiento/gráficos Más lento en GPUs de consumo

Datos sintetizados de los documentos de Cognee, tarjetas de modelos y benchmarks, los niveles de alucinación, aunque parecen estar fuera de lugar, podrían no estar muy lejos…

Recomendaciones por hardware

  • Alto rendimiento (32 GB+ de VRAM): Deepseek-r1:32b o Llama3.3-70b. Estos producen los gráficos más limpios según la guía de Cognee.
  • Mediano (16-24 GB de VRAM): Devstral Small 2. Baja alucinación y habilidades de codificación se adaptan a tareas de memoria estructurada.
  • Presupuesto (12-16 GB de VRAM): Qwen3:14b en lugar de gpt-oss:20b - evite los problemas de alucinación del 91%.
  • Pensando en evitar gpt-oss:20b para Cognee; hay notas que indican que sus errores se amplifican en la construcción de gráficos no filtrados. Pero la velocidad de inferencia en mi GPU es 2+ veces más rápida….

Configuración rápida de Ollama + Cognee

# 1. Descargar el modelo (por ejemplo, Devstral)
ollama pull devstral-small-2:24b  # o qwen3:14b, etc.

# 2. Instalar Cognee
pip install "cognee[ollama]"

# 3. Variables de entorno
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 dimensiones
export EMBEDDING_DIMENSIONS=768

# 4. Probar gráfico
cognee add --file "your_data.txt" --name "test_graph"

Asegúrese de que las dimensiones de incrustación (por ejemplo, 768, 1024) coincidan entre la configuración y el almacén de vectores. Qwen3 Embeddings (no probados en Cognee) podrían funcionar en dimensiones de 1024-4096 si Ollama lo admite.

Priorice modelos con baja alucinación para pipelines de Cognee en producción—sus gráficos se lo agradecerán.
Pruebe en su hardware y supervise la coherencia de los gráficos.

Modelos de incrustación

No pensé mucho en este aspecto, pero aquí está una tabla que junté, para referencia futura

Modelo de Ollama Tamaño, GB Dimensiones de incrustación Longitud de contexto
nomic-embed-text:latest 0,274 768 2k
jina-embeddings-v2-base-en:latest 0,274 768 8k
nomic-embed-text-v2-moe 0,958 768 512
qwen3-embedding:0.6b 0,639 1024 32K
qwen3-embedding:4b 2,5 2560 32K
qwen3-embedding:8b 4,7 4096 32K
avr/sfr-embedding-mistral:latest 4,4 4096 32K

Enlaces útiles