Wat maakt een LLM geschikt voor Cognee?

Cognee vereist LLMs met een lage hallucinatiegraad (ideaal onder 40%) en een voldoende aantal parameters (32B+ wordt aangeraden) voor kwalitatieve entiteitextrahering, relatie-inferentie en metadatageneratie. Modellen met een hoge hallucinatiegraad (90%+) produceren storende grafen die de kwaliteit van de opvraging verlagen.

Welk LLM moet ik kiezen voor mijn hardwareconfiguratie?

Voor high-end-configuraties (32GB+ VRAM) gebruik dan Deepseek-r1:32b of Llama3.3-70b. Voor middelgrote configuraties (16-24GB VRAM) biedt Devstral Small 2 een lage hallucinatiegraad en een focus op coderen. Voor budget-configuraties (12-16GB VRAM) is Qwen3:14b voorkeurswaarder dan gpt-oss:20b vanwege aanzienlijk lagere hallucinatiepercentages.

Waarom vermijden we gpt-oss:20b voor Cognee?

Hoewel de gpt-oss:20b snelle inferentie-snelheden heeft, heeft deze een hallucinatiepercentage van 91,4% dat de grafiekknooppunten en -randen zwaar besmet, waardoor het ongeschikt is voor productie-Cognee-pijplijnen waarin de kwaliteit van de grafiek van cruciaal belang is.

Welke embeddingmodellen werken met Cognee op Ollama?

Populaire opties zijn nomic-embed-text (768 dimensies, 2k context), jina-embeddings-v2-base-en (768 dimensies, 8k context) en qwen3-embedding modellen (1024-4096 dimensies, 32K context). Zorg ervoor dat de dimensies van de embedding overeenkomen met de configuratie van uw vectoropslag.

Het kiezen van het juiste LLM voor Cognee: lokale Ollama-installatie

Overwegingen over LLMs voor self-hosted Cognee

Inhoud

Kiezen voor de Beste LLM voor Cognee vereist een balans tussen de kwaliteit van het bouwen van grafieken, hallucinatiepercentages en hardwarebeperkingen.
Cognee excelleert met grotere modellen met lage hallucinatie (32B+) via Ollama, maar middelgrote opties werken voor lichtere opzetten.

lecture-in-the-library

Belangrijke Cognee-eisen

Cognee vertrouwt op de LLM voor entiteitsextractie, relatieinferentie en metadatageneratie. Modellen onder de 32B produceren vaak sterk gestoorde grafieken, terwijl hoge hallucinatie (bijvoorbeeld 90%+) de knooppunten en randen verontreinigt, wat de ophaling degradeert. De officiële documentatie adviseert deepseek-r1:32b of llama3.3-70b-instruct-q3_K_M in combinatie met Mistral-embeddings.

Modelvergelijkings tabel

Model	Parameters	Hallucinatie (SimpleQA/est.)	VRAM (gequantiseerd)	Cognee-sterktes	Zwaktes
gpt-oss:20b	20B	91,4%	~16GB	Snelle inferentie, toolcalling	Zeer veel ruis in grafieken
Qwen3:14b	14B	~40-45%	~12-14GB	Efficiënt op matige hardware	Beperkte diepte voor grafieken
Devstral Small 2	24B	~8-10%	~18-20GB	Coderingsspecialisatie, schone entiteiten	Hogere VRAM dan Qwen3
Llama3.3-70b	70B	~30-40%	~40GB+	Optimaal grafiekkwaliteit	Zware resourcebehoeften
Deepseek-r1:32b	32B	Laag (aanbevolen)	~24-32GB	Beste voor redeneren/grafieken	Langzamer op consumenten-GPUs

De gegevens zijn gesynthetiseerd op basis van Cognee-documentatie, modelkaarten en benchmarks. De hallucinatiepercentages lijken wat gek, maar kunnen wel in de buurt van de werkelijkheid liggen…

Aanbevelingen per hardware

Hoogwaardig (32GB+ VRAM): Deepseek-r1:32b of Llama3.3-70b. Deze genereren de schoner grafieken volgens Cognee-richtlijnen.
Middenklasse (16-24GB VRAM): Devstral Small 2. Laag hallucinatiepercentage en coderingsexpertise passen bij gestructureerde geheugentaken.
Budget (12-16GB VRAM): Qwen3:14b in plaats van gpt-oss:20b – vermijd de valkuilen van 91% hallucinatie.
Denk erover om gpt-oss:20b te vermijden voor Cognee; er zijn aantekeningen dat zijn fouten zich versterken bij ongefilterde grafiekconstructie. Maar de inferentiesnelheid op mijn GPU is 2+ keer sneller….

Snel Ollama + Cognee opzet

# 1. Model ophalen (bijvoorbeeld Devstral)
ollama pull devstral-small-2:24b  # of qwen3:14b, enz.

# 2. Cognee installeren
pip install "cognee[ollama]"

# 3. Omgevingsvariabelen
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 dimensies
export EMBEDDING_DIMENSIONS=768

# 4. Grafiek testen
cognee-cli add --file "your_data.txt" --name "test_graph"

Zorg ervoor dat de embedding-dimensies (bijvoorbeeld 768, 1024) overeenkomen tussen de configuratie en het vectoropslag. Qwen3 Embeddings (niet getest in Cognee) kunnen werken bij 1024-4096 dimensies als ze Ollama-ondersteuning hebben.

Prioriteer modellen met lage hallucinatie voor productie-Cognee-pijplijnen – je grafieken zullen je er dankbaar voor zijn. Test op je hardware en controleer de coherente grafieken.

Embeddingmodellen

Ik heb er niet veel over nagedacht, maar hier is een tabel die ik heb samengesteld voor toekomstige referentie

Ollama Model	Grootte, GB	Embedding Dimensies	Contextlengte
nomic-embed-text:latest	0,274	768	2k
jina-embeddings-v2-base-en:latest	0,274	768	8k
nomic-embed-text-v2-moe	0,958	768	512
qwen3-embedding:0.6b	0,639	1024	32K
qwen3-embedding:4b	2,5	2560	32K
qwen3-embedding:8b	4,7	4096	32K
avr/sfr-embedding-mistral:latest	4,4	4096	32K

Belangrijke Cognee-eisen

Modelvergelijkings tabel

Aanbevelingen per hardware

Snel Ollama + Cognee opzet

Embeddingmodellen

Nuttige links