Ollama

स्व-होस्टिंग कोग्नी: एलएलएम प्रदर्शन परीक्षण

Cognee एक Python फ्रेमवर्क है जो दस्तावेज़ों से ज्ञान ग्राफ़ बनाने के लिए LLMs का उपयोग करता है। लेकिन क्या यह स्व-होस्टेड मॉडल्स के साथ काम करता है?

BAML बनाम Instructor: संरचित LLM आउटपुट्स

प्रोडक्शन में लार्ज लैंग्वेज मॉडल्स के साथ काम करते समय, संरचित, टाइप-सेफ आउटपुट्स प्राप्त करना महत्वपूर्ण है। दो लोकप्रिय फ्रेमवर्क - BAML और Instructor - इस समस्या को हल करने के लिए अलग-अलग दृष्टिकोण अपनाते हैं।

कोग्नी के लिए सही एलएलएम चुनना: स्थानीय ओलामा सेटअप

कोग्नी के लिए सर्वोत्तम एलएलएम का चयन करने में ग्राफ-निर्माण की गुणवत्ता, हॉलुसिनेशन दरों, और हार्डवेयर सीमाओं के बीच संतुलन बनाना आवश्यक है। कोग्नी बड़े, कम हॉलुसिनेशन वाले मॉडल्स (32बी+ के साथ) के साथ ओलामा के माध्यम से उत्कृष्ट प्रदर्शन करता है, लेकिन मध्यम आकार के विकल्प हल्के सेटअप के लिए उपयुक्त होते हैं।

Ollama के Python लाइब्रेरी में अब नेटिव Ollama वेब सर्च (https://www.glukhov.org/hi/post/2025/12/ollama-web-search-in-python/ “Ollama web search in python”) क्षमताएं शामिल हैं। कुछ ही लाइनों के कोड के साथ, आप अपने स्थानीय LLMs को वेब से रियल-टाइम जानकारी के साथ बढ़ा सकते हैं, जिससे हॉल्युसिनेशन कम होंगे और सटीकता बढ़ेगी।

Ollama के वेब सर्च API आपको वास्तविक समय के वेब जानकारी के साथ स्थानीय LLMs को बढ़ाने की अनुमति देता है। यह गाइड आपको Go में वेब सर्च क्षमताओं को लागू करने का तरीका दिखाता है, सरल API कॉल्स से लेकर पूर्ण-फीचर सर्च एजेंट्स तक।

लोकल एलएलएम होस्टिंग: पूर्ण 2025 गाइड - ओलामा, वीएलएलएम, लोकलएआई, जन, एलएम स्टूडियो और अधिक

लोकल डिप्लॉयमेंट ऑफ़ एलएलएम्स अब increasingly popular हो गया है क्योंकि डेवलपर्स और संगठन enhanced privacy, reduced latency, और greater control over their AI infrastructure चाहते हैं।

उपभोक्ता हार्डवेयर पर एआई इन्फ्रास्ट्रक्चर

एआई का लोकतांत्रीकरण अब यहाँ है। ओपन-सोर्स एलएलएम जैसे लामा 3, मिक्स्ट्रल, और क्वेन अब प्रोप्राइटरी मॉडल्स के साथ प्रतिस्पर्धा कर रहे हैं, टीम्स पावरफुल एआई इन्फ्रास्ट्रक्चर कन्स्यूमर हार्डवेयर का उपयोग करके बना सकते हैं - लागत को कम करते हुए डेटा प्राइवेसी और डिप्लॉयमेंट पर पूर्ण नियंत्रण बनाए रखते हैं।

एनवीडिया डीजीएक्स स्पार्क बनाम मैक स्टूडियो बनाम आरटीएक्स-4080: ओल्लामा प्रदर्शन तुलना

मैंने कुछ दिलचस्प प्रदर्शन परीक्षणों का पता लगाया है GPT-OSS 120b का जो Ollama पर चल रहा है, तीन अलग-अलग प्लेटफॉर्मों पर: NVIDIA DGX Spark, Mac Studio, और RTX 4080। Ollama लाइब्रेरी का GPT-OSS 120b मॉडल 65GB का है, जिसका मतलब है कि यह RTX 4080 के 16GB VRAM में नहीं फिट होता है (या नए RTX 5080).

डॉकर मॉडल रनर बनाम ओल्लामा: किसे चुनना चाहिए?

स्थानीय रूप से बड़े भाषा मॉडल (LLMs) चलाना अब गोपनीयता, लागत नियंत्रण, और ऑफ़लाइन क्षमताओं के लिए increasingly popular हो गया है। अप्रैल 2025 में, जब Docker ने Docker Model Runner (DMR) पेश किया, तो परिदृश्य महत्वपूर्ण रूप से बदल गया, जो AI मॉडल डिप्लॉयमेंट के लिए इसका आधिकारिक समाधान है।

ओलामा के लिए गो क्लाइंट्स: SDK तुलना और क्वेन3/जीपीटी-ओएसएस उदाहरण

यह गाइड उपलब्ध Go SDKs for Ollama के विस्तृत समीक्षा प्रदान करता है और उनके विशेषताओं के सेट की तुलना करता है।

यहाँ Qwen3:30b और GPT-OSS:20b के बीच तुलना है, जो निर्देश पालन और प्रदर्शन पैरामीटर्स, स्पेसिफिकेशन्स और गति पर केंद्रित है:

ओल्लामा को पाइथन के साथ एकीकृत करना: REST API और पाइथन क्लाइंट उदाहरण

इस पोस्ट में, हम दो तरीकों का पता लगाएंगे जिससे आप अपने Python एप्लिकेशन को Ollama से कनेक्ट कर सकते हैं: 1. HTTP REST API के माध्यम से; 2. अधिकृत Ollama Python लाइब्रेरी के माध्यम से।

ओलामा जीपीटी-ओएसएस संरचित आउटपुट समस्याएँ

Ollama के GPT-OSS मॉडल्स में संरचित आउटपुट को हैंडल करने में बार-बार समस्याएं आती हैं, विशेष रूप से जब उन्हें LangChain, OpenAI SDK, vllm जैसे फ्रेमवर्क्स के साथ उपयोग किया जाता है, और अन्य।

संरचित आउटपुट के साथ एलएलएम को सीमित करना: ओल्लामा, क्वेन3 & पाइथन या गो

बड़े भाषा मॉडल (LLMs) शक्तिशाली हैं, लेकिन उत्पादन में हम आमतौर पर मुक्त-रूप पेराग्राफ नहीं चाहते। बजाय इसके, हम प्रत्याशित डेटा चाहते हैं: विशेषताएं, तथ्य, या संरचित वस्तुएं जिन्हें आप एक ऐप में फीड कर सकते हैं। यह है LLM संरचित आउटपुट।

मेमोरी आवंटन मॉडल अनुसूचना नया संस्करण में - व0.12.1

मैं नए ओल्लामा संस्करण में मॉडल के लिए आवंटित VRAM की तुलना (Ollama VRAM allocation) पुराने संस्करण के साथ कर रहा हूँ। नया संस्करण खराब है।

Ollama ने स्थानीय रूप से एलएलएम चलाने के लिए सबसे लोकप्रिय उपकरणों में से एक बनने में तेजी से प्रगति की है। इसके सरल सीएलआई और सुलभ मॉडल प्रबंधन ने इसे क्लाउड के बाहर एआई मॉडल्स के साथ काम करने वाले डेवलपर्स के लिए एक प्राथमिक विकल्प बना दिया है। लेकिन कई वादा करने वाले प्लेटफॉर्म की तरह, Enshittification के संकेत पहले से ही दिखाई देने लगे हैं:

Ollama

स्व-होस्टिंग कोग्नी: एलएलएम प्रदर्शन परीक्षण

BAML बनाम Instructor: संरचित LLM आउटपुट्स

कोग्नी के लिए सही एलएलएम चुनना: स्थानीय ओलामा सेटअप

पाइथन में ओलामा वेब सर्च एपीआई का उपयोग

गो में ओल्लामा वेब सर्च एपीआई का उपयोग

लोकल एलएलएम होस्टिंग: पूर्ण 2025 गाइड - ओलामा, वीएलएलएम, लोकलएआई, जन, एलएम स्टूडियो और अधिक

उपभोक्ता हार्डवेयर पर एआई इन्फ्रास्ट्रक्चर

एनवीडिया डीजीएक्स स्पार्क बनाम मैक स्टूडियो बनाम आरटीएक्स-4080: ओल्लामा प्रदर्शन तुलना

डॉकर मॉडल रनर बनाम ओल्लामा: किसे चुनना चाहिए?

ओलामा के लिए गो क्लाइंट्स: SDK तुलना और क्वेन3/जीपीटी-ओएसएस उदाहरण

तुलना: क्वेन3:30बी vs जीपीटी-ओएसएस:20बी

ओल्लामा को पाइथन के साथ एकीकृत करना: REST API और पाइथन क्लाइंट उदाहरण

ओलामा जीपीटी-ओएसएस संरचित आउटपुट समस्याएँ

संरचित आउटपुट के साथ एलएलएम को सीमित करना: ओल्लामा, क्वेन3 & पाइथन या गो

मेमोरी आवंटन मॉडल अनुसूचना नया संस्करण में - व0.12.1

ओल्लामा एंशिटिफिकेशन - प्रारंभिक संकेत