Qu’est-ce qui rend un LLM adapté à Cognee ?

Cognee nécessite des LLMs avec des taux de hallucination faibles (idéalement inférieurs à 40 %) et un nombre de paramètres suffisant (32B+ recommandé) pour une extraction d’entités de qualité, une inférence de relations et une génération de métadonnées. Les modèles avec des taux de hallucination élevés (90 %+) produisent des graphes bruyants qui dégradent la qualité de la récupération.

Quel LLM devrais-je choisir pour ma configuration matérielle ?

Pour les configurations haut de gamme (32 Go+ de VRAM), utilisez Deepseek-r1:32b ou Llama3.3-70b. Pour les configurations milieu de gamme (16-24 Go de VRAM), Devstral Small 2 offre une faible hallucination et une concentration sur le codage. Pour les configurations économiques (12-16 Go de VRAM), Qwen3:14b est préférable à gpt-oss:20b en raison de taux d’hallucination beaucoup plus faibles.

Pourquoi éviter gpt-oss:20b pour Cognee ?

Malgré des vitesses d’inférence rapides, gpt-oss:20b présente un taux d’hallucination de 91,4 % qui pollue gravement les nœuds et les arêtes des graphes, le rendant inapproprié pour les pipelines de production Cognee où la qualité du graphe est cruciale.

Quels modèles d’intégration fonctionnent avec Cognee sur Ollama ?

Les options populaires incluent nomic-embed-text (768 dimensions, 2k contexte), jina-embeddings-v2-base-en (768 dimensions, 8k contexte), et les modèles qwen3-embedding (1024-4096 dimensions, 32K contexte). Assurez-vous que les dimensions des embeddings correspondent à la configuration de votre magasin de vecteurs.

Choisir le bon LLM pour Cognee : Configuration locale avec Ollama

Réflexions sur les LLMs pour l'auto-hébergement de Cognee

Sommaire

Choisir le Meilleur LLM pour Cognee demande de trouver un équilibre entre la qualité de construction de graphes, les taux d’hallucination et les contraintes matérielles. Cognee excelle avec des modèles plus grands et à faible taux d’hallucination (32B+) via Ollama, mais des options de taille moyenne conviennent aux configurations plus légères.

lecture-in-the-library

Exigences clés de Cognee

Cognee s’appuie sur le LLM pour l’extraction d’entités, l’inférence de relations et la génération de métadonnées. Les modèles de moins de 32B produisent souvent des graphes bruyants, tandis qu’un taux d’hallucination élevé (par exemple, 90%+) pollue les nœuds et les arêtes, dégradant la récupération. Les documents officiels recommandent deepseek-r1:32b ou llama3.3-70b-instruct-q3_K_M couplés avec les embeddings Mistral.

Tableau comparatif des modèles

Modèle	Paramètres	Taux d’hallucination (SimpleQA/est.)	VRAM (quantifié)	Forces de Cognee	Faiblesses
gpt-oss:20b	20B	91,4%	~16GB	Inférence rapide, appel d’outils	Bruit important dans les graphes
Qwen3:14b	14B	~40-45%	~12-14GB	Efficace sur matériel modeste	Profondeur limitée pour les graphes
Devstral Small 2	24B	~8-10%	~18-20GB	Focus sur le codage, entités propres	VRAM plus élevée que Qwen3
Llama3.3-70b	70B	~30-40%	~40GB+	Qualité de graphe optimale	Besoins en ressources importants
Deepseek-r1:32b	32B	Faible (recommandé)	~24-32GB	Meilleur pour le raisonnement/graphes	Plus lent sur les GPU grand public

Les données synthétisées à partir des documents Cognee, des cartes de modèles et des benchmarks. Les données sur le niveau d’hallucination, bien qu’elles semblent étranges, pourraient ne pas être loin de la réalité…

Recommandations par matériel

Haut de gamme (32GB+ VRAM) : Deepseek-r1:32b ou Llama3.3-70b. Ces modèles produisent les graphes les plus propres selon les directives de Cognee.
Milieu de gamme (16-24GB VRAM) : Devstral Small 2. Faible taux d’hallucination et compétences en codage adaptées aux tâches de mémoire structurée.
Budget (12-16GB VRAM) : Qwen3:14b plutôt que gpt-oss:20b - éviter les pièges des hallucinations à 91%.
On pense à éviter gpt-oss:20b pour Cognee ; il y a des notes indiquant que ses erreurs s’amplifient dans la construction de graphes non filtrés. Mais la vitesse d’inférence sur mon GPU est 2 fois plus rapide….

Configuration rapide Ollama + Cognee

# 1. Télécharger le modèle (par exemple, Devstral)
ollama pull devstral-small-2:24b  # ou qwen3:14b, etc.

# 2. Installer Cognee
pip install "cognee[ollama]"

# 3. Variables d'environnement
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 dimensions
export EMBEDDING_DIMENSIONS=768

# 4. Tester le graphe
cognee-cli add --file "your_data.txt" --name "test_graph"

Associez les dimensions des embeddings (par exemple, 768, 1024) dans la configuration et le vecteur de stockage. Qwen3 Embeddings (non prouvés dans Cognee) pourraient fonctionner à 1024-4096 dimensions si supportés par Ollama.

Privilégiez les modèles à faible taux d’hallucination pour les pipelines Cognee en production - vos graphes vous remercieront. Testez sur votre matériel et surveillez la cohérence des graphes.

Modèles d’embedding

Je n’ai pas beaucoup réfléchi à celui-ci, mais voici un tableau que j’ai rassemblé, pour référence future

Modèle Ollama	Taille, GB	Dimensions d’Embedding	Longueur de contexte
nomic-embed-text:latest	0,274	768	2k
jina-embeddings-v2-base-en:latest	0,274	768	8k
nomic-embed-text-v2-moe	0,958	768	512
qwen3-embedding:0.6b	0,639	1024	32K
qwen3-embedding:4b	2,5	2560	32K
qwen3-embedding:8b	4,7	4096	32K
avr/sfr-embedding-mistral:latest	4,4	4096	32K

Exigences clés de Cognee

Tableau comparatif des modèles

Recommandations par matériel

Configuration rapide Ollama + Cognee

Modèles d’embedding

Liens utiles