S05L05 – अंडर और ओवर सैम्पलिंग

html

मशीन लर्निंग में डेटा बैलेंसिंग को समझना

सामग्री तालिका

  1. परिचय
  2. संतुलित डेटा का महत्व
  3. असंतुलित डेटा के कारण समस्याएँ
  4. डेटा विभाजन से पहले सर्वोत्तम प्रथाएँ
  5. डेटा बैलेंस करने की तकनीकें
  6. imblearn पुस्तकालय का उपयोग
  7. उन्नत तकनीकें
  8. निष्कर्ष

परिचय

वापस स्वागत है! आज की चर्चा में, हम मशीन लर्निंग के एक महत्वपूर्ण पहलू पर गहराई से चर्चा करेंगे: डेटा का संतुलन. जबकि हम मौलिक अवधारणाओं को कवर करेंगे, यह सुनिश्चित किया जा सकता है कि विमीयता में कमी और SMOTE (Synthetic Minority Over-sampling Technique) जैसे और अधिक उन्नत विषय भविष्य की चर्चाओं के लिए उपलब्ध हैं।

संतुलित डेटा का महत्व

जब मशीन लर्निंग मॉडलों के लिए डेटा को प्रीप्रोसेसिंग किया जाता है, तो यह सुनिश्चित करना महत्वपूर्ण होता है कि डेटा सेट संतुलित हो। संतुलित डेटा का मतलब है कि आपके डेटा सेट में प्रत्येक वर्ग या श्रेणी का प्रतिनिधित्व समान रूप से होता है, जिससे प्रशिक्षण प्रक्रिया में किसी एकल वर्ग का प्रभुत्व नहीं होता है।

उदाहरण के लिए, मान लीजिए एक डेटा सेट में पुरुष प्रविष्टियाँ महिलाएँ प्रविष्टियों की तुलना में नौ गुना अधिक बार दिखाई देती हैं। यह असंतुलन मॉडल की भविष्यवाणियों को विकृत कर सकता है, जिससे यह बहुमत वर्ग—इस मामले में, पुरुषों—को प्राथमिकता देने लगता है। ऐसा पूर्वाग्रह सटीकता मेट्रिक्स को भ्रामक बना सकता है। उदाहरण के लिए, यदि आपके डेटा का 75% पुरुष है, तो एक मॉडल जो हमेशा "पुरुष" की भविष्यवाणी करेगा, वह 75% सटीकता प्राप्त करेगा, चाहे उसकी वास्तविक भविष्यवाणी क्षमता कैसी भी हो।

यहां तक कि मामूली असंतुलन भी चुनौतियाँ पैदा कर सकते हैं:

  • तीन श्रेणियों का उदाहरण: मान लीजिए आपके पास तीन श्रेणियाँ—0, 1, और 2—समान क्रम में 29%, 33%, और 38% वितरण के साथ। जबकि यह तुलनात्मक रूप से संतुलित लग सकता है, अंतर—जैसे नौ पुरुष चार महिलाओं के—फिर भी मॉडल के प्रदर्शन को महत्वपूर्ण रूप से प्रभावित कर सकता है।

असंतुलित डेटा के कारण समस्याएँ

असंतुलित डेटा सेट निम्नलिखित कारण बन सकते हैं:

  • पूर्वाग्रहपूर्ण भविष्यवाणियाँ: मॉडल संभवतः बहुमत वर्ग को अत्यधिक प्राथमिकता दे सकते हैं।
  • भ्रामक मूल्यांकन मेट्रिक्स: सटीकता उच्च दिखाई दे सकती है जबकि मॉडल अल्पसंख्यक वर्गों पर खराब प्रदर्शन कर सकता है।
  • खराब सामान्यीकरण: मॉडल अप्रत्याशित डेटा पर अच्छी तरह से सामान्यीकृत नहीं हो सकता, विशेषकर अल्प प्रतिनिधित्व वाले वर्गों के लिए।

डेटा विभाजन से पहले सर्वोत्तम प्रथाएँ

अपने डेटा को प्रशिक्षण और परीक्षण सेटों में विभाजित करने से पहले, किसी भी असंतुलन को संबोधित करना महत्वपूर्ण होता है। ऐसा न करने पर, संतुलन बंटवारे में पूर्वाग्रहित हो सकता है, जहां, उदाहरण के लिए, सभी परीक्षण नमूने बहुमत वर्ग के होते हैं। यह स्थिति न केवल मॉडल के मूल्यांकन में बाधा डालती है बल्कि इसके वास्तविक दुनिया में लागू होने की क्षमता को भी प्रभावित करती है।

डेटा बैलेंस करने की तकनीकें

असंतुलित डेटा से निपटने के लिए मुख्य रूप से दो तरीके हैं:

  1. Undersampling:
    • यह क्या है: इस विधि में बहुमत वर्ग की घटनाओं की संख्या को अल्पसंख्यक वर्ग से मिलाने के लिए कम किया जाता है।
    • यह कैसे काम करता है: बहुमत वर्ग के एक उपसमूह को यादृच्छिक रूप से चुनकर और शेष को निकालकर इसे रखा जाता है।
    • फायदे: डेटा सेट को सरल बना देता है और प्रशिक्षण समय को कम कर सकता है।
    • नुकसान: मूल्यवान जानकारी के नुकसान की संभावना, जिससे मॉडल का प्रदर्शन खराब हो सकता है।

    imblearn का उपयोग करके उदाहरण:

  2. Oversampling:
    • यह क्या है: इस तकनीक में बहुमत वर्ग के बराबर करने के लिए अल्पसंख्यक वर्ग की घटनाओं की संख्या बढ़ाई जाती है।
    • यह कैसे काम करता है: अल्पसंख्यक वर्ग को समर्थन देने के लिए सिंथेटिक नमूने उत्पन्न किए जाते हैं या मौजूदा नमूनों को दोहराया जाता है।
    • फायदे: बहुमत वर्ग की सभी जानकारी संरक्षित रहती है।
    • नुकसान: मौजूदा अल्पसंख्यक घटनाओं को दोहराने के कारण ओवरफिटिंग हो सकती है।

    imblearn का उपयोग करके उदाहरण:

imblearn पुस्तकालय का उपयोग

Python में imblearn पुस्तकालय, Undersampling और Oversampling दोनों के लिए सरल उपकरण प्रदान करता है। यहां इसे इंस्टॉल करने और उपयोग करने के लिए एक त्वरित गाइड है:

  1. इंस्टॉलेशन:

    यदि पहले से इंस्टॉल नहीं है, तो आप pip का उपयोग करके imblearn जोड़ सकते हैं:

  2. इम्प्लीमेंटेशन:
    • Undersampling:
    • Oversampling:

उन्नत तकनीकें

हालांकि यादृच्छिक Undersampling और Oversampling सरल और प्रभावी हैं, SMOTE जैसी अधिक परिष्कृत विधियाँ मौजूदा घटनाओं को केवल दोहराने या निकालने के बजाय सिंथेटिक नमूने उत्पन्न करके बेहतर परिणाम दे सकती हैं। SMOTE अल्पसंख्यक वर्ग के लिए एक अधिक सामान्यीकृत निर्णय सीमा बनाने में मदद करता है, जिससे मॉडल की अल्पसंख्यक घटनाओं को सटीक रूप से भविष्यवाणी करने की क्षमता बढ़ती है।

निष्कर्ष

अपने डेटा सेट को संतुलित करना मजबूत और पूर्वाग्रह रहित मशीन लर्निंग मॉडल बनाने में एक मौलिक कदम है। Undersampling और Oversampling जैसी तकनीकों का उपयोग करके, आप असंतुलित डेटा के प्रतिकूल प्रभावों को कम कर सकते हैं, जिससे बेहतर प्रदर्शन और अधिक विश्वसनीय भविष्यवाणियों की प्राप्ति होती है। जैसे-जैसे आप आगे बढ़ेंगे, SMOTE जैसी उन्नत विधियों का अन्वेषण करना असंतुलित डेटा सेटों को संभालने के आपके दृष्टिकोण को और परिष्कृत करेगा।

आज की चर्चा में शामिल होने के लिए धन्यवाद! आगामी सत्रों में हमारे साथ और अंतर्दृष्टि और उन्नत विषयों के लिए जुड़ें रहें। आपका दिन शुभ हो और ध्यान रखें!

Share your love