मेमोरी आवंटन मॉडल अनुसूचना नया संस्करण में - व0.12.1
अपना खुद का परीक्षण ओलामा मॉडल शेड्यूलिंग
मैं नए ओल्लामा संस्करण में मॉडल के लिए आवंटित VRAM की तुलना (Ollama VRAM allocation) पुराने संस्करण के साथ कर रहा हूँ। नया संस्करण खराब है।
जैसे कि अधिकारिक वेबसाइट पर कहा गया है, नए ओल्लामा रिलीज में नई मॉडल शेड्यूलिंग
है जिसमें:
GPU उपयोग को अधिकतम करना:
ओल्लामा का नया मेमोरी मैनेजमेंट GPU को अधिक मेमोरी आवंटित करता है,
टोकन जनरेशन और प्रोसेसिंग स्पीड को बढ़ाता है
और कुछ उदाहरण दिए गए हैं, जैसे:
लंबी कंटेक्स्ट
GPU: 1x NVIDIA GeForce RTX 4090
मॉडल: gemma3:12b
कंटेक्स्ट लंबाई: 128k
पुराना नया
52.02 टोकन/सेकंड टोकन जनरेशन स्पीड 85.54 टोकन/सेकंड टोकन जनरेशन स्पीड
19.9GiB VRAM 21.4GiB VRAM
48⁄49 लेयर GPU पर लोड किए गए 49⁄49 लेयर GPU पर लोड किए गए
मैं अपने PC पर इसका परीक्षण कर रहा हूँ। मेरे परिणाम आधिकारिक परीक्षणों से बिल्कुल विपरीत हैं। मेरे पास थोड़ा अलग हार्डवेयर कॉन्फ़िगरेशन है और मैंने अलग मॉडल परीक्षण किए, लेकिन परिणाम कभी भी बेहतर नहीं हैं, और अक्सर खराब हैं। यह First Signs of Ollama Enshittification पोस्ट के साथ मेल खाता है।
यह छवि ओल्लामा वेबसाइट के ब्लॉग पोस्ट से है।
TL;DR
मैंने नए संस्करण के Ollama को परीक्षण किया है जो मेरी 16GB VRAM में फिट नहीं होते हैं।
- mistral-small3.2:24b
- qwen3:30b-a3b
- gemma3:27b
- qwen3:32b
मैंने ollama run <modelname>
चलाया, फिर एक साधारण सवाल पूछा जैसे who are you?
, और एक अलग टर्मिनल में ollama ps
और nvidia-smi
के प्रतिक्रियाओं की जांच की। सब बहुत साधारण था।
केवल qwen3:30b-a3b ने वही CPU/GPU वितरण दिखाया, तीन अन्य मॉडल नए संस्करण में अधिक CPU की ओर धकेले गए। मेरे परीक्षणों में, मेरे दुख के साथ, नया ओल्लामा संस्करण खराब है, और ये परिणाम ओल्लामा ब्लॉग पोस्ट के विपरीत हैं।
विस्तृत तुलना डेटा
मॉडल | पुराना संस्करण: VRAM आवंटित | पुराना संस्करण: CPU/GPU | नया संस्करण: VRAM आवंटित | नया संस्करण: CPU/GPU |
---|---|---|---|---|
mistral-small3.2:24b | 14489MiB | 41%/59% | 14249MiB | 44%/56% |
qwen3:30b-a3b | 15065MiB | 21%/79% | 14867MiB | 21%/79% |
gemma3:27b | 13771MiB | 28%/72% | 14817MiB | 29%/71% |
qwen3:32b | 14676MiB | 30%/70% | 15139MiB | 32%/68% |
निराश।