क्या ओल्लामा का नया संस्करण पिछले संस्करण से बेहतर है?

नया संस्करण ऑलामा पिछले संस्करण की तुलना में अधिक मेमोरी का उपयोग करता है।

मेमोरी आवंटन मॉडल अनुसूचना नया संस्करण में - व0.12.1

अपना खुद का परीक्षण ओलामा मॉडल शेड्यूलिंग

Page content

मैं नए ओल्लामा संस्करण में मॉडल के लिए आवंटित VRAM की तुलना (Ollama VRAM allocation) पुराने संस्करण के साथ कर रहा हूँ। नया संस्करण खराब है।

जैसे कि अधिकारिक वेबसाइट पर कहा गया है, नए ओल्लामा रिलीज में नई मॉडल शेड्यूलिंग है जिसमें:

GPU उपयोग को अधिकतम करना:
ओल्लामा का नया मेमोरी मैनेजमेंट GPU को अधिक मेमोरी आवंटित करता है,
टोकन जनरेशन और प्रोसेसिंग स्पीड को बढ़ाता है

और कुछ उदाहरण दिए गए हैं, जैसे:

लंबी कंटेक्स्ट

    GPU: 1x NVIDIA GeForce RTX 4090
    मॉडल: gemma3:12b
    कंटेक्स्ट लंबाई: 128k

पुराना                                   नया
52.02 टोकन/सेकंड टोकन जनरेशन स्पीड 85.54 टोकन/सेकंड टोकन जनरेशन स्पीड
19.9GiB VRAM                          21.4GiB VRAM
48⁄49 लेयर GPU पर लोड किए गए          49⁄49 लेयर GPU पर लोड किए गए

मैं अपने PC पर इसका परीक्षण कर रहा हूँ। मेरे परिणाम आधिकारिक परीक्षणों से बिल्कुल विपरीत हैं। मेरे पास थोड़ा अलग हार्डवेयर कॉन्फ़िगरेशन है और मैंने अलग मॉडल परीक्षण किए, लेकिन परिणाम कभी भी बेहतर नहीं हैं, और अक्सर खराब हैं। यह First Signs of Ollama Enshittification पोस्ट के साथ मेल खाता है।

ollama llamas यह छवि ओल्लामा वेबसाइट के ब्लॉग पोस्ट से है।

TL;DR

मैंने नए संस्करण के Ollama को परीक्षण किया है जो मेरी 16GB VRAM में फिट नहीं होते हैं।

mistral-small3.2:24b
qwen3:30b-a3b
gemma3:27b
qwen3:32b

मैंने ollama run <modelname> चलाया, फिर एक साधारण सवाल पूछा जैसे who are you?, और एक अलग टर्मिनल में ollama ps और nvidia-smi के प्रतिक्रियाओं की जांच की। सब बहुत साधारण था।

केवल qwen3:30b-a3b ने वही CPU/GPU वितरण दिखाया, तीन अन्य मॉडल नए संस्करण में अधिक CPU की ओर धकेले गए। मेरे परीक्षणों में, मेरे दुख के साथ, नया ओल्लामा संस्करण खराब है, और ये परिणाम ओल्लामा ब्लॉग पोस्ट के विपरीत हैं।

विस्तृत तुलना डेटा

मॉडल	पुराना संस्करण: VRAM आवंटित	पुराना संस्करण: CPU/GPU	नया संस्करण: VRAM आवंटित	नया संस्करण: CPU/GPU
mistral-small3.2:24b	14489MiB	41%/59%	14249MiB	44%/56%
qwen3:30b-a3b	15065MiB	21%/79%	14867MiB	21%/79%
gemma3:27b	13771MiB	28%/72%	14817MiB	29%/71%
qwen3:32b	14676MiB	30%/70%	15139MiB	32%/68%

निराश।

TL;DR

विस्तृत तुलना डेटा

उपयोगी लिंक