ओल्लामा चिटशीट - सबसे उपयोगी कमांड्स
कुछ समय पहले इस Ollama कमांड लिस्ट को कॉम्पाइल किया...
यह ओल्लामा कमांड्स की सूची और उदाहरण है (Ollama commands cheatsheet) जिसे मैंने कुछ समय पहले तैयार किया था। आशा है कि यह आपके लिए भी उपयोगी होगा।

यह ओल्लामा चीटशीट सीएलआई कमांड्स, मॉडल मैनेजमेंट, और कस्टमाइजेशन पर फोकस करती है, लेकिन यहां कुछ curl कॉल्स भी हैं।
इंस्टॉलेशन
- विकल्प 1: वेबसाइट से डाउनलोड करें
- अपने ऑपरेटिंग सिस्टम (मैक, लिनक्स, या विंडोज) के लिए इंस्टॉलर डाउनलोड करने के लिए ollama.com पर जाएं।
- विकल्प 2: कमांड लाइन के माध्यम से इंस्टॉल करें
- मैक और लिनक्स उपयोगकर्ताओं के लिए, इस कमांड का उपयोग करें:
curl https://ollama.ai/install.sh | sh
- स्क्रीन पर दिए गए निर्देशों का पालन करें और अगर आवश्यक हो तो अपना पासवर्ड दर्ज करें।
सिस्टम आवश्यकताएं
- ऑपरेटिंग सिस्टम: मैक या लिनक्स (विंडोज संस्करण विकास में है)
- मेमोरी (RAM): 8GB न्यूनतम, 16GB या अधिक अनुशंसित
- स्टोरेज: कम से कम ~10GB फ्री स्पेस (मॉडल फाइलें काफी बड़ी हो सकती हैं, यहां और देखें Move Ollama Models to Different Drive )
- प्रोसेसर: एक अपेक्षाकृत आधुनिक सीपीयू (पिछले 5 वर्षों का)।
बेसिक ओल्लामा सीएलआई कमांड्स
| कमांड | विवरण |
|---|---|
ollama serve |
अपने स्थानीय सिस्टम पर ओल्लामा शुरू करता है। |
ollama create <new_model> |
एक मौजूदा मॉडल से एक नया मॉडल बनाता है कस्टमाइजेशन या ट्रेनिंग के लिए। |
ollama show <model> |
एक विशिष्ट मॉडल के बारे में विवरण दिखाता है, जैसे कि इसका कॉन्फ़िगरेशन और रिलीज़ डेट। |
ollama run <model> |
निर्दिष्ट मॉडल चलाता है, जिससे इंटरैक्शन के लिए तैयार हो जाता है। |
ollama pull <model> |
निर्दिष्ट मॉडल को अपने सिस्टम पर डाउनलोड करता है। |
ollama list |
सभी डाउनलोड किए गए मॉडल की सूची देता है। ollama ls के समान है |
ollama ps |
वर्तमान में चल रहे मॉडल दिखाता है। |
ollama stop <model> |
निर्दिष्ट चल रहे मॉडल को रोकता है। |
ollama rm <model> |
निर्दिष्ट मॉडल को अपने सिस्टम से हटा देता है। |
ollama help |
किसी भी कमांड के बारे में मदद प्रदान करता है। |
मॉडल मैनेजमेंट
-
एक मॉडल डाउनलोड करें:
ollama pull mistral-nemo:12b-instruct-2407-q6_Kयह कमांड निर्दिष्ट मॉडल (जैसे, Gemma 2B, या mistral-nemo:12b-instruct-2407-q6_K) को आपके सिस्टम पर डाउनलोड करता है। मॉडल फाइलें काफी बड़ी हो सकती हैं, इसलिए हार्ड ड्राइव या एसएसडी पर मॉडल द्वारा उपयोग किए गए स्पेस पर नज़र रखें। आप सभी ओल्लामा मॉडल को अपने होम डायरेक्टरी से एक बड़े और बेहतर ड्राइव पर हटाना भी चाह सकते हैं
-
एक मॉडल चलाएं:
ollama run qwen2.5:32b-instruct-q3_K_Sयह कमांड निर्दिष्ट मॉडल शुरू करता है और इंटरैक्शन के लिए एक इंटरैक्टिव REPL खोलता है।
-
मॉडल सूची:
ollama listयह समान है:
ollama lsयह कमांड उन सभी मॉडल की सूची देता है जिन्हें आपके सिस्टम पर डाउनलोड किया गया है, जैसे
$ ollama ls NAME ID SIZE MODIFIED deepseek-r1:8b 6995872bfe4c 5.2 GB 2 weeks ago gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 weeks ago LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 weeks ago dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 weeks ago dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 weeks ago qwen3:8b 500a1f067a9f 5.2 GB 5 weeks ago qwen3:14b bdbd181c33f2 9.3 GB 5 weeks ago qwen3:30b-a3b 0b28110b7a33 18 GB 5 weeks ago devstral:24b c4b2fa0c33d7 14 GB 5 weeks ago -
एक मॉडल रोकें:
ollama stop llama3.1:8b-instruct-q8_0यह कमांड निर्दिष्ट चल रहे मॉडल को रोकता है।
मॉडल को VRAM से रिलीज़ करना
जब एक मॉडल VRAM (GPU मेमोरी) में लोड किया जाता है, तो यह उपयोग करने के बाद भी वहां रहता है। एक मॉडल को VRAM से स्पष्ट रूप से रिलीज़ करने और GPU मेमोरी को फ्री करने के लिए, आप keep_alive: 0 के साथ Ollama API को एक रिक्वेस्ट भेज सकते हैं।
- curl का उपयोग करके VRAM से मॉडल रिलीज़ करें:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
MODELNAME को अपने वास्तविक मॉडल नाम से बदलें, उदाहरण के लिए:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Python का उपयोग करके VRAM से मॉडल रिलीज़ करें:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
यह विशेष रूप से उपयोगी होता है जब:
- आपको अन्य एप्लिकेशन्स के लिए GPU मेमोरी फ्री करने की आवश्यकता है
- आप कई मॉडल चलाते हैं और VRAM उपयोग को प्रबंधित करना चाहते हैं
- आप एक बड़े मॉडल का उपयोग करने के बाद संसाधनों को तुरंत रिलीज़ करना चाहते हैं
नोट: keep_alive पैरामीटर यह नियंत्रित करता है कि एक मॉडल कितने समय तक मेमोरी में लोड रहता है (सेकंड में) अंतिम रिक्वेस्ट के बाद। इसे 0 पर सेट करना मॉडल को VRAM से तुरंत अनलोड करता है।
मॉडल को कस्टमाइज़ करना
-
सिस्टम प्रॉम्प्ट सेट करें: ओल्लामा REPL के भीतर, आप एक सिस्टम प्रॉम्प्ट सेट कर सकते हैं ताकि मॉडल के व्यवहार को कस्टमाइज़ किया जा सके:
>>> /set system For all questions asked answer in plain English avoiding technical jargon as much as possible >>> /save ipe >>> /byeफिर, कस्टमाइज़्ड मॉडल चलाएं:
ollama run ipeयह एक सिस्टम प्रॉम्प्ट सेट करता है और मॉडल को भविष्य के उपयोग के लिए सेव करता है।
-
कस्टम मॉडल फाइल बनाएं: एक टेक्स्ट फाइल (जैसे,
custom_model.txt) इस संरचना के साथ बनाएं:FROM llama3.1 SYSTEM [अपने कस्टम निर्देश यहां]फिर, चलाएं:
ollama create mymodel -f custom_model.txt ollama run mymodelयह फाइल में निर्देशों के आधार पर एक कस्टमाइज़्ड मॉडल बनाता है।
ओल्लामा का उपयोग फाइलों के साथ
-
एक फाइल से टेक्स्ट सारांश बनाएं:
ollama run llama3.2 "इस फाइल के सामग्री का 50 शब्दों में सारांश दें।" < input.txtयह कमांड
input.txtके सामग्री का सारांश निर्दिष्ट मॉडल का उपयोग करके बनाता है। -
मॉडल प्रतिक्रियाओं को एक फाइल में लॉग करें:
ollama run llama3.2 "मुझे नवीकरणीय ऊर्जा के बारे में बताएं।" > output.txtयह कमांड मॉडल के प्रतिक्रिया को
output.txtमें सेव करता है।
सामान्य उपयोग मामले
-
टेक्स्ट जनरेशन:
- एक बड़े टेक्स्ट फाइल का सारांश बनाना:
ollama run llama3.2 "निम्नलिखित टेक्स्ट का सारांश दें:" < long-document.txt - सामग्री जनरेट करना:
ollama run llama3.2 "हेल्थकेयर में AI का उपयोग करने के फायदों पर एक छोटा लेख लिखें।" > article.txt - विशिष्ट प्रश्नों का उत्तर देना:
ollama run llama3.2 "AI में सबसे हाल के रुझानों क्या हैं, और वे हेल्थकेयर को कैसे प्रभावित करेंगे?"
.
- एक बड़े टेक्स्ट फाइल का सारांश बनाना:
-
डेटा प्रोसेसिंग और विश्लेषण:
- टेक्स्ट को सकारात्मक, नकारात्मक, या तटस्थ भावना में वर्गीकृत करना:
ollama run llama3.2 "इस ग्राहक समीक्षा का भावना विश्लेषण करें: 'उत्पाद उत्कृष्ट है, लेकिन डिलीवरी धीमी थी।'" - टेक्स्ट को पूर्वनिर्धारित श्रेणियों में वर्गीकृत करना: पूर्वनिर्धारित मानदंडों के आधार पर टेक्स्ट को वर्गीकृत या वर्गीकृत करने के लिए समान कमांड का उपयोग करें।
- टेक्स्ट को सकारात्मक, नकारात्मक, या तटस्थ भावना में वर्गीकृत करना:
ओल्लामा का उपयोग Python के साथ
- Ollama Python लाइब्रेरी इंस्टॉल करें:
pip install ollama - Python का उपयोग करके टेक्स्ट जनरेट करें:
यह कोड स्निपेट निर्दिष्ट मॉडल और प्रॉम्प्ट का उपयोग करके टेक्स्ट जनरेट करता है।
import ollama response = ollama.generate(model='gemma:2b', prompt='what is a qubit?') print(response['response'])