कोग्नी के लिए सही एलएलएम चुनना: स्थानीय ओलामा सेटअप
स्व-होस्टेड कोग्नी के लिए एलएलएम पर विचार
कोग्नी के लिए सर्वोत्तम एलएलएम का चयन करने में ग्राफ-निर्माण की गुणवत्ता, हॉलुसिनेशन दरों, और हार्डवेयर सीमाओं के बीच संतुलन बनाना आवश्यक है। कोग्नी बड़े, कम हॉलुसिनेशन वाले मॉडल्स (32बी+ के साथ) के साथ ओलामा के माध्यम से उत्कृष्ट प्रदर्शन करता है, लेकिन मध्यम आकार के विकल्प हल्के सेटअप के लिए उपयुक्त होते हैं।

कोग्नी के प्रमुख आवश्यकताएँ
कोग्नी एलएलएम पर निर्भर करता है एंटिटी एक्सट्रैक्शन, रिलेशन इन्फरेंस, और मेटाडेटा जनरेशन के लिए। 32बी से कम पैरामीटर वाले मॉडल्स अक्सर शोरदार ग्राफ्स उत्पन्न करते हैं, जबकि उच्च हॉलुसिनेशन (उदाहरण के लिए, 90%+) नोड्स और एजेस को प्रदूषित करता है, जिससे रिट्रीवल क्षमता कम हो जाती है। आधिकारिक दस्तावेज़ों में deepseek-r1:32b या llama3.3-70b-instruct-q3_K_M को मिस्ट्रल एम्बेडिंग्स के साथ जोड़ने की सिफारिश की गई है।
मॉडल तुलना तालिका
| मॉडल | पैरामीटर | हॉलुसिनेशन (SimpleQA/अनुमानित) | VRAM (क्वांटाइज़्ड) | कोग्नी की मजबूतियाँ | कमजोरियाँ |
|---|---|---|---|---|---|
| gpt-oss:20b | 20B | 91.4% | ~16GB | तेज़ इन्फरेंस, टूल-कॉलिंग | गंभीर ग्राफ शोर |
| Qwen3:14b | 14B | ~40-45% | ~12-14GB | मध्यम हार्डवेयर पर कुशल | ग्राफ्स के लिए सीमित गहराई |
| Devstral Small 2 | 24B | ~8-10% | ~18-20GB | कोडिंग फोकस, साफ़ एंटिटी | Qwen3 से अधिक VRAM |
| Llama3.3-70b | 70B | ~30-40% | ~40GB+ | ग्राफ गुणवत्ता के लिए आदर्श | भारी संसाधन आवश्यकताएँ |
| Deepseek-r1:32b | 32B | कम (सिफारिशित) | ~24-32GB | रीज़निंग/ग्राफ्स के लिए सर्वोत्तम | उपभोक्ता GPU पर धीमा |
डेटा कोग्नी दस्तावेज़ों, मॉडल कार्ड्स, और बेंचमार्क्स से संश्लेषित किया गया है, हॉलुसिनेशन स्तर का डेटा हालांकि असंगत प्रतीत होता है, लेकिन बहुत दूर नहीं हो सकता…
हार्डवेयर के अनुसार सिफारिशें
- उच्च-स्तरीय (32GB+ VRAM): Deepseek-r1:32b या Llama3.3-70b। कोग्नी मार्गदर्शन के अनुसार ये सबसे साफ़ ग्राफ्स उत्पन्न करते हैं।
- मध्यम-स्तरीय (16-24GB VRAM): Devstral Small 2। कम हॉलुसिनेशन और कोडिंग क्षमता संरचित मेमोरी कार्यों के लिए उपयुक्त हैं।
- बजट (12-16GB VRAM): Qwen3:14b को gpt-oss:20b के ऊपर प्राथमिकता दें - 91% हॉलुसिनेशन के खतरों से बचें।
- gpt-oss:20b को कोग्नी के लिए छोड़ने का विचार कर रहे हैं; नोट्स हैं कि इसके त्रुटियाँ अनफिल्टर्ड ग्राफ निर्माण में बढ़ जाती हैं। लेकिन मेरा GPU पर इन्फरेंस स्पीड 2+ गुना तेज़ है….
ओलामा + कोग्नी की तेज़ सेटअप
# 1. मॉडल डाउनलोड करें (उदाहरण के लिए, Devstral)
ollama pull devstral-small-2:24b # या qwen3:14b, आदि
# 2. कोग्नी इंस्टॉल करें
pip install "cognee[ollama]"
# 3. पर्यावरण चरों को सेट करें
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text" # 768 डाइमेंशन
export EMBEDDING_DIMENSIONS=768
# 4. ग्राफ परीक्षण करें
cognee add --file "your_data.txt" --name "test_graph"
कॉन्फ़िग और वेक्टर स्टोर के बीच एम्बेडिंग डाइमेंशन (उदाहरण के लिए, 768, 1024) मिलाएं। Qwen3 एम्बेडिंग्स (कोग्नी में अप्रमाणित) 1024-4096 डाइमेंशन पर काम कर सकते हैं अगर ओलामा द्वारा समर्थित हैं।
उत्पादन कोग्नी पाइपलाइन्स के लिए कम हॉलुसिनेशन वाले मॉडल्स को प्राथमिकता दें—आपके ग्राफ्स आपको धन्यवाद देंगे। अपने हार्डवेयर पर परीक्षण करें और ग्राफ सहसंबंध का निरीक्षण करें।
एम्बेडिंग मॉडल्स
इस पर बहुत सोचा नहीं, लेकिन यहां एक तालिका है जिसे मैंने भविष्य के संदर्भ के लिए तैयार किया है
| Ollama मॉडल | आकार, GB | एम्बेडिंग डाइमेंशन | कॉन्टेक्स्ट लंबाई |
|---|---|---|---|
| nomic-embed-text:latest | 0.274 | 768 | 2k |
| jina-embeddings-v2-base-en:latest | 0.274 | 768 | 8k |
| nomic-embed-text-v2-moe | 0.958 | 768 | 512 |
| qwen3-embedding:0.6b | 0.639 | 1024 | 32K |
| qwen3-embedding:4b | 2.5 | 2560 | 32K |
| qwen3-embedding:8b | 4.7 | 4096 | 32K |
| avr/sfr-embedding-mistral:latest | 4.4 | 4096 | 32K |
उपयोगी लिंक्स
- https://docs.cognee.ai/how_to_guides/local_models
- https://docs.cognee.ai/setup-configuration/embedding-providers
- https://arxiv.org/html/2508.10925v1
- https://github.com/vectara/hallucination-leaderboard
- https://ollama.com/library/nomic-embed-text-v2-moe
- Qwen3 एम्बेडिंग
- ओलामा मॉडल्स को अलग ड्राइव या फोल्डर में कैसे मूव करें
- ओलामा चीटशीट