Choisir le bon LLM pour Cognee : Configuration locale avec Ollama
Réflexions sur les LLMs pour l'auto-hébergement de Cognee
Choisir le Meilleur LLM pour Cognee demande de trouver un équilibre entre la qualité de construction de graphes, les taux d’hallucination et les contraintes matérielles. Cognee excelle avec des modèles plus grands et à faible taux d’hallucination (32B+) via Ollama, mais des options de taille moyenne conviennent aux configurations plus légères.

Exigences clés de Cognee
Cognee s’appuie sur le LLM pour l’extraction d’entités, l’inférence de relations et la génération de métadonnées. Les modèles de moins de 32B produisent souvent des graphes bruyants, tandis qu’un taux d’hallucination élevé (par exemple, 90%+) pollue les nœuds et les arêtes, dégradant la récupération. Les documents officiels recommandent deepseek-r1:32b ou llama3.3-70b-instruct-q3_K_M couplés avec les embeddings Mistral.
Tableau comparatif des modèles
| Modèle | Paramètres | Taux d’hallucination (SimpleQA/est.) | VRAM (quantifié) | Forces de Cognee | Faiblesses |
|---|---|---|---|---|---|
| gpt-oss:20b | 20B | 91,4% | ~16GB | Inférence rapide, appel d’outils | Bruit important dans les graphes |
| Qwen3:14b | 14B | ~40-45% | ~12-14GB | Efficace sur matériel modeste | Profondeur limitée pour les graphes |
| Devstral Small 2 | 24B | ~8-10% | ~18-20GB | Focus sur le codage, entités propres | VRAM plus élevée que Qwen3 |
| Llama3.3-70b | 70B | ~30-40% | ~40GB+ | Qualité de graphe optimale | Besoins en ressources importants |
| Deepseek-r1:32b | 32B | Faible (recommandé) | ~24-32GB | Meilleur pour le raisonnement/graphes | Plus lent sur les GPU grand public |
Les données synthétisées à partir des documents Cognee, des cartes de modèles et des benchmarks. Les données sur le niveau d’hallucination, bien qu’elles semblent étranges, pourraient ne pas être loin de la réalité…
Recommandations par matériel
- Haut de gamme (32GB+ VRAM) : Deepseek-r1:32b ou Llama3.3-70b. Ces modèles produisent les graphes les plus propres selon les directives de Cognee.
- Milieu de gamme (16-24GB VRAM) : Devstral Small 2. Faible taux d’hallucination et compétences en codage adaptées aux tâches de mémoire structurée.
- Budget (12-16GB VRAM) : Qwen3:14b plutôt que gpt-oss:20b - éviter les pièges des hallucinations à 91%.
- On pense à éviter gpt-oss:20b pour Cognee ; il y a des notes indiquant que ses erreurs s’amplifient dans la construction de graphes non filtrés. Mais la vitesse d’inférence sur mon GPU est 2 fois plus rapide….
Configuration rapide Ollama + Cognee
# 1. Télécharger le modèle (par exemple, Devstral)
ollama pull devstral-small-2:24b # ou qwen3:14b, etc.
# 2. Installer Cognee
pip install "cognee[ollama]"
# 3. Variables d'environnement
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text" # 768 dimensions
export EMBEDDING_DIMENSIONS=768
# 4. Tester le graphe
cognee add --file "your_data.txt" --name "test_graph"
Associez les dimensions des embeddings (par exemple, 768, 1024) dans la configuration et le vecteur de stockage. Qwen3 Embeddings (non prouvés dans Cognee) pourraient fonctionner à 1024-4096 dimensions si supportés par Ollama.
Privilégiez les modèles à faible taux d’hallucination pour les pipelines Cognee en production - vos graphes vous remercieront. Testez sur votre matériel et surveillez la cohérence des graphes.
Modèles d’embedding
Je n’ai pas beaucoup réfléchi à celui-ci, mais voici un tableau que j’ai rassemblé, pour référence future
| Modèle Ollama | Taille, GB | Dimensions d’Embedding | Longueur de contexte |
|---|---|---|---|
| nomic-embed-text:latest | 0,274 | 768 | 2k |
| jina-embeddings-v2-base-en:latest | 0,274 | 768 | 8k |
| nomic-embed-text-v2-moe | 0,958 | 768 | 512 |
| qwen3-embedding:0.6b | 0,639 | 1024 | 32K |
| qwen3-embedding:4b | 2,5 | 2560 | 32K |
| qwen3-embedding:8b | 4,7 | 4096 | 32K |
| avr/sfr-embedding-mistral:latest | 4,4 | 4096 | 32K |
Liens utiles
- https://docs.cognee.ai/how_to_guides/local_models
- https://docs.cognee.ai/setup-configuration/embedding-providers
- https://arxiv.org/html/2508.10925v1
- https://github.com/vectara/hallucination-leaderboard
- https://ollama.com/library/nomic-embed-text-v2-moe
- Qwen3 Embedding
- Comment déplacer les modèles Ollama vers un autre lecteur ou dossier
- Ollama cheatsheet