कोग्नी के लिए सही एलएलएम चुनना: स्थानीय ओलामा सेटअप

स्व-होस्टेड कोग्नी के लिए एलएलएम पर विचार

Page content

कोग्नी के लिए सर्वोत्तम एलएलएम का चयन करने में ग्राफ-निर्माण की गुणवत्ता, हॉलुसिनेशन दरों, और हार्डवेयर सीमाओं के बीच संतुलन बनाना आवश्यक है। कोग्नी बड़े, कम हॉलुसिनेशन वाले मॉडल्स (32बी+ के साथ) के साथ ओलामा के माध्यम से उत्कृष्ट प्रदर्शन करता है, लेकिन मध्यम आकार के विकल्प हल्के सेटअप के लिए उपयुक्त होते हैं।

lecture-in-the-library

कोग्नी के प्रमुख आवश्यकताएँ

कोग्नी एलएलएम पर निर्भर करता है एंटिटी एक्सट्रैक्शन, रिलेशन इन्फरेंस, और मेटाडेटा जनरेशन के लिए। 32बी से कम पैरामीटर वाले मॉडल्स अक्सर शोरदार ग्राफ्स उत्पन्न करते हैं, जबकि उच्च हॉलुसिनेशन (उदाहरण के लिए, 90%+) नोड्स और एजेस को प्रदूषित करता है, जिससे रिट्रीवल क्षमता कम हो जाती है। आधिकारिक दस्तावेज़ों में deepseek-r1:32b या llama3.3-70b-instruct-q3_K_M को मिस्ट्रल एम्बेडिंग्स के साथ जोड़ने की सिफारिश की गई है।

मॉडल तुलना तालिका

मॉडल पैरामीटर हॉलुसिनेशन (SimpleQA/अनुमानित) VRAM (क्वांटाइज़्ड) कोग्नी की मजबूतियाँ कमजोरियाँ
gpt-oss:20b 20B 91.4% ~16GB तेज़ इन्फरेंस, टूल-कॉलिंग गंभीर ग्राफ शोर
Qwen3:14b 14B ~40-45% ~12-14GB मध्यम हार्डवेयर पर कुशल ग्राफ्स के लिए सीमित गहराई
Devstral Small 2 24B ~8-10% ~18-20GB कोडिंग फोकस, साफ़ एंटिटी Qwen3 से अधिक VRAM
Llama3.3-70b 70B ~30-40% ~40GB+ ग्राफ गुणवत्ता के लिए आदर्श भारी संसाधन आवश्यकताएँ
Deepseek-r1:32b 32B कम (सिफारिशित) ~24-32GB रीज़निंग/ग्राफ्स के लिए सर्वोत्तम उपभोक्ता GPU पर धीमा

डेटा कोग्नी दस्तावेज़ों, मॉडल कार्ड्स, और बेंचमार्क्स से संश्लेषित किया गया है, हॉलुसिनेशन स्तर का डेटा हालांकि असंगत प्रतीत होता है, लेकिन बहुत दूर नहीं हो सकता…

हार्डवेयर के अनुसार सिफारिशें

  • उच्च-स्तरीय (32GB+ VRAM): Deepseek-r1:32b या Llama3.3-70b। कोग्नी मार्गदर्शन के अनुसार ये सबसे साफ़ ग्राफ्स उत्पन्न करते हैं।
  • मध्यम-स्तरीय (16-24GB VRAM): Devstral Small 2। कम हॉलुसिनेशन और कोडिंग क्षमता संरचित मेमोरी कार्यों के लिए उपयुक्त हैं।
  • बजट (12-16GB VRAM): Qwen3:14b को gpt-oss:20b के ऊपर प्राथमिकता दें - 91% हॉलुसिनेशन के खतरों से बचें।
  • gpt-oss:20b को कोग्नी के लिए छोड़ने का विचार कर रहे हैं; नोट्स हैं कि इसके त्रुटियाँ अनफिल्टर्ड ग्राफ निर्माण में बढ़ जाती हैं। लेकिन मेरा GPU पर इन्फरेंस स्पीड 2+ गुना तेज़ है….

ओलामा + कोग्नी की तेज़ सेटअप

# 1. मॉडल डाउनलोड करें (उदाहरण के लिए, Devstral)
ollama pull devstral-small-2:24b  # या qwen3:14b, आदि

# 2. कोग्नी इंस्टॉल करें
pip install "cognee[ollama]"

# 3. पर्यावरण चरों को सेट करें
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 डाइमेंशन
export EMBEDDING_DIMENSIONS=768

# 4. ग्राफ परीक्षण करें
cognee add --file "your_data.txt" --name "test_graph"

कॉन्फ़िग और वेक्टर स्टोर के बीच एम्बेडिंग डाइमेंशन (उदाहरण के लिए, 768, 1024) मिलाएं। Qwen3 एम्बेडिंग्स (कोग्नी में अप्रमाणित) 1024-4096 डाइमेंशन पर काम कर सकते हैं अगर ओलामा द्वारा समर्थित हैं।

उत्पादन कोग्नी पाइपलाइन्स के लिए कम हॉलुसिनेशन वाले मॉडल्स को प्राथमिकता दें—आपके ग्राफ्स आपको धन्यवाद देंगे। अपने हार्डवेयर पर परीक्षण करें और ग्राफ सहसंबंध का निरीक्षण करें।

एम्बेडिंग मॉडल्स

इस पर बहुत सोचा नहीं, लेकिन यहां एक तालिका है जिसे मैंने भविष्य के संदर्भ के लिए तैयार किया है

Ollama मॉडल आकार, GB एम्बेडिंग डाइमेंशन कॉन्टेक्स्ट लंबाई
nomic-embed-text:latest 0.274 768 2k
jina-embeddings-v2-base-en:latest 0.274 768 8k
nomic-embed-text-v2-moe 0.958 768 512
qwen3-embedding:0.6b 0.639 1024 32K
qwen3-embedding:4b 2.5 2560 32K
qwen3-embedding:8b 4.7 4096 32K
avr/sfr-embedding-mistral:latest 4.4 4096 32K

उपयोगी लिंक्स