मेमोरी आवंटन मॉडल अनुसूचना नया संस्करण में - व0.12.1

अपना खुद का परीक्षण ओलामा मॉडल शेड्यूलिंग

Page content

मैं नए ओल्लामा संस्करण में मॉडल के लिए आवंटित VRAM की तुलना (Ollama VRAM allocation) पुराने संस्करण के साथ कर रहा हूँ। नया संस्करण खराब है।

जैसे कि अधिकारिक वेबसाइट पर कहा गया है, नए ओल्लामा रिलीज में नई मॉडल शेड्यूलिंग है जिसमें:

GPU उपयोग को अधिकतम करना:
ओल्लामा का नया मेमोरी मैनेजमेंट GPU को अधिक मेमोरी आवंटित करता है,
टोकन जनरेशन और प्रोसेसिंग स्पीड को बढ़ाता है

और कुछ उदाहरण दिए गए हैं, जैसे:

लंबी कंटेक्स्ट

    GPU: 1x NVIDIA GeForce RTX 4090
    मॉडल: gemma3:12b
    कंटेक्स्ट लंबाई: 128k

पुराना                                   नया
52.02 टोकन/सेकंड टोकन जनरेशन स्पीड 85.54 टोकन/सेकंड टोकन जनरेशन स्पीड
19.9GiB VRAM                          21.4GiB VRAM
48⁄49 लेयर GPU पर लोड किए गए          49⁄49 लेयर GPU पर लोड किए गए

मैं अपने PC पर इसका परीक्षण कर रहा हूँ। मेरे परिणाम आधिकारिक परीक्षणों से बिल्कुल विपरीत हैं। मेरे पास थोड़ा अलग हार्डवेयर कॉन्फ़िगरेशन है और मैंने अलग मॉडल परीक्षण किए, लेकिन परिणाम कभी भी बेहतर नहीं हैं, और अक्सर खराब हैं। यह First Signs of Ollama Enshittification पोस्ट के साथ मेल खाता है।

ollama llamas यह छवि ओल्लामा वेबसाइट के ब्लॉग पोस्ट से है।

TL;DR

मैंने नए संस्करण के Ollama को परीक्षण किया है जो मेरी 16GB VRAM में फिट नहीं होते हैं।

  • mistral-small3.2:24b
  • qwen3:30b-a3b
  • gemma3:27b
  • qwen3:32b

मैंने ollama run <modelname> चलाया, फिर एक साधारण सवाल पूछा जैसे who are you?, और एक अलग टर्मिनल में ollama ps और nvidia-smi के प्रतिक्रियाओं की जांच की। सब बहुत साधारण था।

केवल qwen3:30b-a3b ने वही CPU/GPU वितरण दिखाया, तीन अन्य मॉडल नए संस्करण में अधिक CPU की ओर धकेले गए। मेरे परीक्षणों में, मेरे दुख के साथ, नया ओल्लामा संस्करण खराब है, और ये परिणाम ओल्लामा ब्लॉग पोस्ट के विपरीत हैं।

विस्तृत तुलना डेटा

मॉडल पुराना संस्करण: VRAM आवंटित पुराना संस्करण: CPU/GPU नया संस्करण: VRAM आवंटित नया संस्करण: CPU/GPU
mistral-small3.2:24b 14489MiB 41%/59% 14249MiB 44%/56%
qwen3:30b-a3b 15065MiB 21%/79% 14867MiB 21%/79%
gemma3:27b 13771MiB 28%/72% 14817MiB 29%/71%
qwen3:32b 14676MiB 30%/70% 15139MiB 32%/68%

निराश।

उपयोगी लिंक