Välj rätt LLM för Cognee: Lokal Ollama-konfiguration

Reflektioner kring LLM:er för självvärdd Cognee

Sidinnehåll

Välj den Bästa LLM för Cognee kräver balans mellan kvaliteten på grafbyggnad, hallucinationsfrekvens och hårdvarabegränsningar. Cognee presterar bäst med större modeller med låg hallucination (32B+) via Ollama men medelstora alternativ fungerar för lättare konfigurationer.

lecture-in-the-library

Viktiga krav för Cognee

Cognee använder LLM för entitetsextraktion, relationssnitt och metadatagenerering. Modeller under 32B tenderar att generera brusiga grafer, medan hög hallucination (t.ex. 90%+) förgiftar noderna/kanterna och minskar hämtningen. Officiella dokument rekommenderar deepseek-r1:32b eller llama3.3-70b-instruct-q3_K_M i kombination med Mistral-embeddings.

Modelljämförelsetabell

Modell Parametrar Hallucination (SimpleQA/est.) VRAM (kvantisering) Cognee-styrkor Svagheter
gpt-oss:20b 20B 91,4% ~16GB Snabb inferens, verktygsanrop Svårt brus i grafer
Qwen3:14b 14B ~40-45% ~12-14GB Effektiv på mindre hårdvara Begränsad djup för grafer
Devstral Small 2 24B ~8-10% ~18-20GB Fokus på kodning, rena entiteter Högre VRAM än Qwen3
Llama3.3-70b 70B ~30-40% ~40GB+ Optimal grafkvalitet Kräver mycket resurser
Deepseek-r1:32b 32B Låg (rekommenderas) ~24-32GB Bäst för resonemang/grafer Saktare på konsumtorgpu

Data syntetiserad från Cognee-dokument, modellkort och benchmarkar. Hallucinationsnivådata verkar kanske konstig, men kan vara nära verkligheten…

Rekommendationer beroende på hårdvara

  • Högpresterande (32GB+ VRAM): Deepseek-r1:32b eller Llama3.3-70b. Dessa ger renaste grafer enligt Cognee-guidlines.
  • Mellan (16-24GB VRAM): Devstral Small 2. Låg hallucination och kodningsförmåga passar strukturerade minnesuppgifter.
  • Budget (12-16GB VRAM): Qwen3:14b över gpt-oss:20b – undvik 91% hallucination-fallgropar.
  • Tänk på att undvika gpt-oss:20b för Cognee; det finns anteckningar om att dess fel förstärks vid obegränsad grafbyggning. Men inferenshastigheten på min GPU är 2+ gånger snabbare….

Snabb Ollama + Cognee-konfiguration

# 1. Ladda ner modell (t.ex. Devstral)
ollama pull devstral-small-2:24b  # eller qwen3:14b, osv.

# 2. Installera Cognee
pip install "cognee[ollama]"

# 3. Miljövariabler
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 dimensioner
export EMBEDDING_DIMENSIONS=768

# 4. Testa graf
cognee add --file "your_data.txt" --name "test_graph"

Matcha embeddningens dimensioner (t.ex. 768, 1024) över konfiguration och vektorlager. Qwen3 Embeddings (ännu inte testade i Cognee) kan fungera vid 1024-4096 dimensioner om Ollama-stöder det.

Prioritera modeller med låg hallucination för produktionspipelines i Cognee – dina grafer kommer att tacka dig. Testa på din hårdvara och övervaka grafens koherens.

Embeddningmodeller

Tänkte inte så mycket på detta, men här är en tabell jag samlade in för framtida referens

Ollama Modell Storlek, GB Embeddning Dimensioner Kontextlängd
nomic-embed-text:latest 0,274 768 2k
jina-embeddings-v2-base-en:latest 0,274 768 8k
nomic-embed-text-v2-moe 0,958 768 512
qwen3-embedding:0.6b 0,639 1024 32K
qwen3-embedding:4b 2,5 2560 32K
qwen3-embedding:8b 4,7 4096 32K
avr/sfr-embedding-mistral:latest 4,4 4096 32K

Några användbara länkar