Het kiezen van het juiste LLM voor Cognee: lokale Ollama-installatie

Overwegingen over LLMs voor self-hosted Cognee

Inhoud

Kiezen voor de Beste LLM voor Cognee vereist een balans tussen de kwaliteit van het bouwen van grafieken, hallucinatiepercentages en hardwarebeperkingen.
Cognee excelleert met grotere modellen met lage hallucinatie (32B+) via Ollama, maar middelgrote opties werken voor lichtere opzetten.

lecture-in-the-library

Belangrijke Cognee-eisen

Cognee vertrouwt op de LLM voor entiteitsextractie, relatieinferentie en metadatageneratie. Modellen onder de 32B produceren vaak sterk gestoorde grafieken, terwijl hoge hallucinatie (bijvoorbeeld 90%+) de knooppunten en randen verontreinigt, wat de ophaling degradeert. De officiële documentatie adviseert deepseek-r1:32b of llama3.3-70b-instruct-q3_K_M in combinatie met Mistral-embeddings.

Modelvergelijkings tabel

Model Parameters Hallucinatie (SimpleQA/est.) VRAM (gequantiseerd) Cognee-sterktes Zwaktes
gpt-oss:20b 20B 91,4% ~16GB Snelle inferentie, toolcalling Zeer veel ruis in grafieken
Qwen3:14b 14B ~40-45% ~12-14GB Efficiënt op matige hardware Beperkte diepte voor grafieken
Devstral Small 2 24B ~8-10% ~18-20GB Coderingsspecialisatie, schone entiteiten Hogere VRAM dan Qwen3
Llama3.3-70b 70B ~30-40% ~40GB+ Optimaal grafiekkwaliteit Zware resourcebehoeften
Deepseek-r1:32b 32B Laag (aanbevolen) ~24-32GB Beste voor redeneren/grafieken Langzamer op consumenten-GPUs

De gegevens zijn gesynthetiseerd op basis van Cognee-documentatie, modelkaarten en benchmarks. De hallucinatiepercentages lijken wat gek, maar kunnen wel in de buurt van de werkelijkheid liggen…

Aanbevelingen per hardware

  • Hoogwaardig (32GB+ VRAM): Deepseek-r1:32b of Llama3.3-70b. Deze genereren de schoner grafieken volgens Cognee-richtlijnen.
  • Middenklasse (16-24GB VRAM): Devstral Small 2. Laag hallucinatiepercentage en coderingsexpertise passen bij gestructureerde geheugentaken.
  • Budget (12-16GB VRAM): Qwen3:14b in plaats van gpt-oss:20b – vermijd de valkuilen van 91% hallucinatie.
  • Denk erover om gpt-oss:20b te vermijden voor Cognee; er zijn aantekeningen dat zijn fouten zich versterken bij ongefilterde grafiekconstructie. Maar de inferentiesnelheid op mijn GPU is 2+ keer sneller….

Snel Ollama + Cognee opzet

# 1. Model ophalen (bijvoorbeeld Devstral)
ollama pull devstral-small-2:24b  # of qwen3:14b, enz.

# 2. Cognee installeren
pip install "cognee[ollama]"

# 3. Omgevingsvariabelen
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 dimensies
export EMBEDDING_DIMENSIONS=768

# 4. Grafiek testen
cognee add --file "your_data.txt" --name "test_graph"

Zorg ervoor dat de embedding-dimensies (bijvoorbeeld 768, 1024) overeenkomen tussen de configuratie en het vectoropslag. Qwen3 Embeddings (niet getest in Cognee) kunnen werken bij 1024-4096 dimensies als ze Ollama-ondersteuning hebben.

Prioriteer modellen met lage hallucinatie voor productie-Cognee-pijplijnen – je grafieken zullen je er dankbaar voor zijn. Test op je hardware en controleer de coherente grafieken.

Embeddingmodellen

Ik heb er niet veel over nagedacht, maar hier is een tabel die ik heb samengesteld voor toekomstige referentie

Ollama Model Grootte, GB Embedding Dimensies Contextlengte
nomic-embed-text:latest 0,274 768 2k
jina-embeddings-v2-base-en:latest 0,274 768 8k
nomic-embed-text-v2-moe 0,958 768 512
qwen3-embedding:0.6b 0,639 1024 32K
qwen3-embedding:4b 2,5 2560 32K
qwen3-embedding:8b 4,7 4096 32K
avr/sfr-embedding-mistral:latest 4,4 4096 32K