Välj rätt LLM för Cognee: Lokal Ollama-konfiguration
Reflektioner kring LLM:er för självvärdd Cognee
Välj den Bästa LLM för Cognee kräver balans mellan kvaliteten på grafbyggnad, hallucinationsfrekvens och hårdvarabegränsningar. Cognee presterar bäst med större modeller med låg hallucination (32B+) via Ollama men medelstora alternativ fungerar för lättare konfigurationer.

Viktiga krav för Cognee
Cognee använder LLM för entitetsextraktion, relationssnitt och metadatagenerering. Modeller under 32B tenderar att generera brusiga grafer, medan hög hallucination (t.ex. 90%+) förgiftar noderna/kanterna och minskar hämtningen. Officiella dokument rekommenderar deepseek-r1:32b eller llama3.3-70b-instruct-q3_K_M i kombination med Mistral-embeddings.
Modelljämförelsetabell
| Modell | Parametrar | Hallucination (SimpleQA/est.) | VRAM (kvantisering) | Cognee-styrkor | Svagheter |
|---|---|---|---|---|---|
| gpt-oss:20b | 20B | 91,4% | ~16GB | Snabb inferens, verktygsanrop | Svårt brus i grafer |
| Qwen3:14b | 14B | ~40-45% | ~12-14GB | Effektiv på mindre hårdvara | Begränsad djup för grafer |
| Devstral Small 2 | 24B | ~8-10% | ~18-20GB | Fokus på kodning, rena entiteter | Högre VRAM än Qwen3 |
| Llama3.3-70b | 70B | ~30-40% | ~40GB+ | Optimal grafkvalitet | Kräver mycket resurser |
| Deepseek-r1:32b | 32B | Låg (rekommenderas) | ~24-32GB | Bäst för resonemang/grafer | Saktare på konsumtorgpu |
Data syntetiserad från Cognee-dokument, modellkort och benchmarkar. Hallucinationsnivådata verkar kanske konstig, men kan vara nära verkligheten…
Rekommendationer beroende på hårdvara
- Högpresterande (32GB+ VRAM): Deepseek-r1:32b eller Llama3.3-70b. Dessa ger renaste grafer enligt Cognee-guidlines.
- Mellan (16-24GB VRAM): Devstral Small 2. Låg hallucination och kodningsförmåga passar strukturerade minnesuppgifter.
- Budget (12-16GB VRAM): Qwen3:14b över gpt-oss:20b – undvik 91% hallucination-fallgropar.
- Tänk på att undvika gpt-oss:20b för Cognee; det finns anteckningar om att dess fel förstärks vid obegränsad grafbyggning. Men inferenshastigheten på min GPU är 2+ gånger snabbare….
Snabb Ollama + Cognee-konfiguration
# 1. Ladda ner modell (t.ex. Devstral)
ollama pull devstral-small-2:24b # eller qwen3:14b, osv.
# 2. Installera Cognee
pip install "cognee[ollama]"
# 3. Miljövariabler
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text" # 768 dimensioner
export EMBEDDING_DIMENSIONS=768
# 4. Testa graf
cognee add --file "your_data.txt" --name "test_graph"
Matcha embeddningens dimensioner (t.ex. 768, 1024) över konfiguration och vektorlager. Qwen3 Embeddings (ännu inte testade i Cognee) kan fungera vid 1024-4096 dimensioner om Ollama-stöder det.
Prioritera modeller med låg hallucination för produktionspipelines i Cognee – dina grafer kommer att tacka dig. Testa på din hårdvara och övervaka grafens koherens.
Embeddningmodeller
Tänkte inte så mycket på detta, men här är en tabell jag samlade in för framtida referens
| Ollama Modell | Storlek, GB | Embeddning Dimensioner | Kontextlängd |
|---|---|---|---|
| nomic-embed-text:latest | 0,274 | 768 | 2k |
| jina-embeddings-v2-base-en:latest | 0,274 | 768 | 8k |
| nomic-embed-text-v2-moe | 0,958 | 768 | 512 |
| qwen3-embedding:0.6b | 0,639 | 1024 | 32K |
| qwen3-embedding:4b | 2,5 | 2560 | 32K |
| qwen3-embedding:8b | 4,7 | 4096 | 32K |
| avr/sfr-embedding-mistral:latest | 4,4 | 4096 | 32K |
Några användbara länkar
- https://docs.cognee.ai/how_to_guides/local_models
- https://docs.cognee.ai/setup-configuration/embedding-providers
- https://arxiv.org/html/2508.10925v1
- https://github.com/vectara/hallucination-leaderboard
- https://ollama.com/library/nomic-embed-text-v2-moe
- Qwen3 Embedding
- Hur man flyttar Ollama-modeller till annan disk eller mapp
- Ollama cheatsheet