एलएलएम लागत कम करें: टोकन अनुकूलन रणनीतियाँ
बुद्धिमान टोकन अनुकूलन के साथ LLM लागत को 80% तक कम करें
टोकन अनुकूलन वह महत्वपूर्ण कौशल है जो लागत-प्रभावी एलएलएम अनुप्रयोगों को बजट-खर्च करने वाले प्रयोगों से अलग करता है।
बुद्धिमान टोकन अनुकूलन के साथ LLM लागत को 80% तक कम करें
टोकन अनुकूलन वह महत्वपूर्ण कौशल है जो लागत-प्रभावी एलएलएम अनुप्रयोगों को बजट-खर्च करने वाले प्रयोगों से अलग करता है।
एचटीएमएल को साफ़ और एलएलएम-तैयार मार्कडाउन में बदलने के लिए पाइथन
HTML को Markdown में बदलना आधुनिक विकास कार्यप्रवाहों में एक मूलभूत कार्य है, विशेष रूप से जब वेब सामग्री को बड़े भाषा मॉडल (LLMs), दस्तावेज़ीकरण प्रणालियों, या स्टैटिक साइट जनरेटर जैसे ह्यूगो के लिए तैयार किया जाता है।
ओलामा के साथ गो की इंटीग्रेशन: SDK गाइड, उदाहरण और उत्पादन बेस्ट प्रैक्टिस।
यह गाइड उपलब्ध Go SDKs for Ollama के विस्तृत समीक्षा प्रदान करता है और उनके विशेषताओं के सेट की तुलना करता है।
इन दो मॉडलों की गति, पैरामीटर्स और प्रदर्शन का तुलनात्मक अध्ययन
यहाँ Qwen3:30b और GPT-OSS:20b के बीच तुलना है, जो निर्देश पालन और प्रदर्शन पैरामीटर्स, स्पेसिफिकेशन्स और गति पर केंद्रित है:
+ सोचने वाले LLMs का उपयोग करने के विशिष्ट उदाहरण
इस पोस्ट में, हम दो तरीकों का पता लगाएंगे जिससे आप अपने Python एप्लिकेशन को Ollama से कनेक्ट कर सकते हैं: 1. HTTP REST API के माध्यम से; 2. अधिकृत Ollama Python लाइब्रेरी के माध्यम से।
अलग तरह के एपीआई के लिए विशेष दृष्टिकोण की आवश्यकता होती है।
यहाँ एक साइड-बाय-साइड सपोर्ट तुलना है संरचित आउटपुट (विश्वसनीय JSON प्राप्त करना) लोकप्रिय LLM प्रदाताओं के बीच, साथ ही न्यूनतम Python उदाहरण
Ollama से संरचित आउटपुट प्राप्त करने के कुछ तरीके
बड़े भाषा मॉडल (LLMs) शक्तिशाली हैं, लेकिन उत्पादन में हम आमतौर पर मुक्त-रूप पेराग्राफ नहीं चाहते। बजाय इसके, हम प्रत्याशित डेटा चाहते हैं: विशेषताएं, तथ्य, या संरचित वस्तुएं जिन्हें आप एक ऐप में फीड कर सकते हैं। यह है LLM संरचित आउटपुट।
RAG को लागू कर रहे हैं? यहाँ कुछ Go कोड टुकड़े हैं - 2...
चूंकि मानक Ollama में सीधा रीरैंक एपीआई नहीं है,
आपको Qwen3 Reranker के साथ रीरैंकिंग करें GO में जेनरेट करके प्रश्न-दस्तावेज़ जोड़े के एम्बेडिंग्स और उनके स्कोरिंग करना होगा।
आपका प्रश्न
यह छोटा सा
पुनर्विन्यास Go केode उदाहरण में Ollama को रनिंग (Reranking) करके एम्बेडिंग (embeddings) जनरेट करने का प्रयोग हुआ है
क्वेरी (query) और प्रत्येक कैंडिडेट दस्तावेज़ (candidate document) के लिए,
फिर कोसाइन समानता (cosine similarity) के आधार पर अवरोधकता (descending order) में दर्जीन (sorting) करना है।
ओलामा में नए अद्भुत एलईएम उपलब्ध हैं
Qwen3 Embedding और Reranker मॉडल Qwen परिवार के नवीनतम रिलीज हैं, जो उन्नत पाठ एम्बेडिंग, पुनर्प्राप्ति और पुनर्क्रमण कार्यों के लिए विशेष रूप से डिज़ाइन किए गए हैं।
HTML से डेटा निकालने के विषय को आगे बढ़ाते रहें।
यदि आप गो में ब्यूटिफुल सॉप के समान के एक विकल्प की तलाश कर रहे हैं, तो कई पुस्तकालय एक जैसे HTML पार्सिंग और स्क्रैपिंग कार्यक्षमता प्रदान करते हैं:
एचटीएमएल से पाठ निकालने के लिए एलईएम का उपयोग करें...
ओलामा मॉडल पुस्तकालय में ऐसे मॉडल हैं जो HTML कंटेंट को मार्कडाउन में परिवर्तित कर सकते हैं के लिए उपयोगी हैं, जो कंटेंट परिवर्तन कार्यों के लिए उपयोगी हैं।
एलएलएम प्रदाताओं की संक्षिप्त सूची
एलएलएम का उपयोग करना बहुत महंगा नहीं है, नई शानदार जीपीयू खरीदने की आवश्यकता नहीं हो सकती। यहाँ क्लाउड में एलएलएम प्रदाताओं की सूची है जिनके पास वे एलएलएम होस्ट करते हैं।
ओलामा को समानांतर अनुरोधों के निष्पादन के लिए स्थापित करें।
जब Ollama सर्वर एक ही समय में दो अनुरोध प्राप्त करता है, तो इसका व्यवहार इसके विन्यास और उपलब्ध प्रणाली संसाधनों पर निर्भर करता है।
एक पायथन कोड जो RAG के पुनर्रैंकिंग को दर्शाता है