Elegir el LLM adecuado para Cognee: Configuración local de Ollama
Reflexiones sobre LLMs para Cognee autohospedado
Elegir el Mejor LLM para Cognee requiere equilibrar la calidad de construcción de gráficos, las tasas de alucinación y las restricciones de hardware.
Cognee destaca al utilizar modelos grandes con baja alucinación (32B+) mediante Ollama, pero las opciones de tamaño medio funcionan para configuraciones más ligeras.

Requisitos clave de Cognee
Cognee depende del LLM para la extracción de entidades, la inferencia de relaciones y la generación de metadatos. Los modelos por debajo de 32B suelen producir gráficos ruidosos, mientras que una alta alucinación (por ejemplo, 90%+) contamina los nodos/arcos, degradando la recuperación. Los documentos oficiales recomiendan deepseek-r1:32b o llama3.3-70b-instruct-q3_K_M emparejados con incrustaciones de Mistral.
Tabla de comparación de modelos
| Modelo | Parámetros | Alucinación (SimpleQA/est.) | VRAM (cuantizado) | Fortalezas de Cognee | Debilidades |
|---|---|---|---|---|---|
| gpt-oss:20b | 20B | 91,4% | ~16 GB | Inferencia rápida, llamada de herramientas | Ruido grave en gráficos |
| Qwen3:14b | 14B | ~40-45% | ~12-14 GB | Eficiente en hardware modesto | Profundidad limitada para gráficos |
| Devstral Small 2 | 24B | ~8-10% | ~18-20 GB | Enfoque en codificación, entidades limpias | Mayor VRAM que Qwen3 |
| Llama3.3-70b | 70B | ~30-40% | ~40 GB+ | Calidad óptima de gráficos | Necesidades pesadas de recursos |
| Deepseek-r1:32b | 32B | Baja (recomendado) | ~24-32 GB | Mejor para razonamiento/gráficos | Más lento en GPUs de consumo |
Datos sintetizados de los documentos de Cognee, tarjetas de modelos y benchmarks, los niveles de alucinación, aunque parecen estar fuera de lugar, podrían no estar muy lejos…
Recomendaciones por hardware
- Alto rendimiento (32 GB+ de VRAM): Deepseek-r1:32b o Llama3.3-70b. Estos producen los gráficos más limpios según la guía de Cognee.
- Mediano (16-24 GB de VRAM): Devstral Small 2. Baja alucinación y habilidades de codificación se adaptan a tareas de memoria estructurada.
- Presupuesto (12-16 GB de VRAM): Qwen3:14b en lugar de gpt-oss:20b - evite los problemas de alucinación del 91%.
- Pensando en evitar gpt-oss:20b para Cognee; hay notas que indican que sus errores se amplifican en la construcción de gráficos no filtrados. Pero la velocidad de inferencia en mi GPU es 2+ veces más rápida….
Configuración rápida de Ollama + Cognee
# 1. Descargar el modelo (por ejemplo, Devstral)
ollama pull devstral-small-2:24b # o qwen3:14b, etc.
# 2. Instalar Cognee
pip install "cognee[ollama]"
# 3. Variables de entorno
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text" # 768 dimensiones
export EMBEDDING_DIMENSIONS=768
# 4. Probar gráfico
cognee add --file "your_data.txt" --name "test_graph"
Asegúrese de que las dimensiones de incrustación (por ejemplo, 768, 1024) coincidan entre la configuración y el almacén de vectores. Qwen3 Embeddings (no probados en Cognee) podrían funcionar en dimensiones de 1024-4096 si Ollama lo admite.
Priorice modelos con baja alucinación para pipelines de Cognee en producción—sus gráficos se lo agradecerán.
Pruebe en su hardware y supervise la coherencia de los gráficos.
Modelos de incrustación
No pensé mucho en este aspecto, pero aquí está una tabla que junté, para referencia futura
| Modelo de Ollama | Tamaño, GB | Dimensiones de incrustación | Longitud de contexto |
|---|---|---|---|
| nomic-embed-text:latest | 0,274 | 768 | 2k |
| jina-embeddings-v2-base-en:latest | 0,274 | 768 | 8k |
| nomic-embed-text-v2-moe | 0,958 | 768 | 512 |
| qwen3-embedding:0.6b | 0,639 | 1024 | 32K |
| qwen3-embedding:4b | 2,5 | 2560 | 32K |
| qwen3-embedding:8b | 4,7 | 4096 | 32K |
| avr/sfr-embedding-mistral:latest | 4,4 | 4096 | 32K |
Enlaces útiles
- https://docs.cognee.ai/how_to_guides/local_models
- https://docs.cognee.ai/setup-configuration/embedding-providers
- https://arxiv.org/html/2508.10925v1
- https://github.com/vectara/hallucination-leaderboard
- https://ollama.com/library/nomic-embed-text-v2-moe
- Qwen3 Embedding
- Cómo mover modelos de Ollama a un disco o carpeta diferente
- Guía rápida de Ollama