Het kiezen van het juiste LLM voor Cognee: lokale Ollama-installatie
Overwegingen over LLMs voor self-hosted Cognee
Kiezen voor de Beste LLM voor Cognee vereist een balans tussen de kwaliteit van het bouwen van grafieken, hallucinatiepercentages en hardwarebeperkingen.
Cognee excelleert met grotere modellen met lage hallucinatie (32B+) via Ollama, maar middelgrote opties werken voor lichtere opzetten.

Belangrijke Cognee-eisen
Cognee vertrouwt op de LLM voor entiteitsextractie, relatieinferentie en metadatageneratie. Modellen onder de 32B produceren vaak sterk gestoorde grafieken, terwijl hoge hallucinatie (bijvoorbeeld 90%+) de knooppunten en randen verontreinigt, wat de ophaling degradeert. De officiële documentatie adviseert deepseek-r1:32b of llama3.3-70b-instruct-q3_K_M in combinatie met Mistral-embeddings.
Modelvergelijkings tabel
| Model | Parameters | Hallucinatie (SimpleQA/est.) | VRAM (gequantiseerd) | Cognee-sterktes | Zwaktes |
|---|---|---|---|---|---|
| gpt-oss:20b | 20B | 91,4% | ~16GB | Snelle inferentie, toolcalling | Zeer veel ruis in grafieken |
| Qwen3:14b | 14B | ~40-45% | ~12-14GB | Efficiënt op matige hardware | Beperkte diepte voor grafieken |
| Devstral Small 2 | 24B | ~8-10% | ~18-20GB | Coderingsspecialisatie, schone entiteiten | Hogere VRAM dan Qwen3 |
| Llama3.3-70b | 70B | ~30-40% | ~40GB+ | Optimaal grafiekkwaliteit | Zware resourcebehoeften |
| Deepseek-r1:32b | 32B | Laag (aanbevolen) | ~24-32GB | Beste voor redeneren/grafieken | Langzamer op consumenten-GPUs |
De gegevens zijn gesynthetiseerd op basis van Cognee-documentatie, modelkaarten en benchmarks. De hallucinatiepercentages lijken wat gek, maar kunnen wel in de buurt van de werkelijkheid liggen…
Aanbevelingen per hardware
- Hoogwaardig (32GB+ VRAM): Deepseek-r1:32b of Llama3.3-70b. Deze genereren de schoner grafieken volgens Cognee-richtlijnen.
- Middenklasse (16-24GB VRAM): Devstral Small 2. Laag hallucinatiepercentage en coderingsexpertise passen bij gestructureerde geheugentaken.
- Budget (12-16GB VRAM): Qwen3:14b in plaats van gpt-oss:20b – vermijd de valkuilen van 91% hallucinatie.
- Denk erover om gpt-oss:20b te vermijden voor Cognee; er zijn aantekeningen dat zijn fouten zich versterken bij ongefilterde grafiekconstructie. Maar de inferentiesnelheid op mijn GPU is 2+ keer sneller….
Snel Ollama + Cognee opzet
# 1. Model ophalen (bijvoorbeeld Devstral)
ollama pull devstral-small-2:24b # of qwen3:14b, enz.
# 2. Cognee installeren
pip install "cognee[ollama]"
# 3. Omgevingsvariabelen
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text" # 768 dimensies
export EMBEDDING_DIMENSIONS=768
# 4. Grafiek testen
cognee add --file "your_data.txt" --name "test_graph"
Zorg ervoor dat de embedding-dimensies (bijvoorbeeld 768, 1024) overeenkomen tussen de configuratie en het vectoropslag. Qwen3 Embeddings (niet getest in Cognee) kunnen werken bij 1024-4096 dimensies als ze Ollama-ondersteuning hebben.
Prioriteer modellen met lage hallucinatie voor productie-Cognee-pijplijnen – je grafieken zullen je er dankbaar voor zijn. Test op je hardware en controleer de coherente grafieken.
Embeddingmodellen
Ik heb er niet veel over nagedacht, maar hier is een tabel die ik heb samengesteld voor toekomstige referentie
| Ollama Model | Grootte, GB | Embedding Dimensies | Contextlengte |
|---|---|---|---|
| nomic-embed-text:latest | 0,274 | 768 | 2k |
| jina-embeddings-v2-base-en:latest | 0,274 | 768 | 8k |
| nomic-embed-text-v2-moe | 0,958 | 768 | 512 |
| qwen3-embedding:0.6b | 0,639 | 1024 | 32K |
| qwen3-embedding:4b | 2,5 | 2560 | 32K |
| qwen3-embedding:8b | 4,7 | 4096 | 32K |
| avr/sfr-embedding-mistral:latest | 4,4 | 4096 | 32K |
Nuttige links
- https://docs.cognee.ai/how_to_guides/local_models
- https://docs.cognee.ai/setup-configuration/embedding-providers
- https://arxiv.org/html/2508.10925v1
- https://github.com/vectara/hallucination-leaderboard
- https://ollama.com/library/nomic-embed-text-v2-moe
- Qwen3 Embedding
- Hoe Ollama-modellen te verplaatsen naar een ander station of map
- Ollama cheatsheet