S05L05 – अंडर और ओवर सैम्पलिंग

html
मशीन लर्निंग में डेटा बैलेंसिंग को समझना

सामग्री तालिका

    परिचय
    संतुलित डेटा का महत्व
    असंतुलित डेटा के कारण समस्याएँ
    डेटा विभाजन से पहले सर्वोत्तम प्रथाएँ
    डेटा बैलेंस करने की तकनीकें
    imblearn पुस्तकालय का उपयोग
    उन्नत तकनीकें
    निष्कर्ष


परिचय
वापस स्वागत है! आज की चर्चा में, हम मशीन लर्निंग के एक महत्वपूर्ण पहलू पर गहराई से चर्चा करेंगे: डेटा का संतुलन. जबकि हम मौलिक अवधारणाओं को कवर करेंगे, यह सुनिश्चित किया जा सकता है कि विमीयता में कमी और SMOTE (Synthetic Minority Over-sampling Technique) जैसे और अधिक उन्नत विषय भविष्य की चर्चाओं के लिए उपलब्ध हैं।

संतुलित डेटा का महत्व
जब मशीन लर्निंग मॉडलों के लिए डेटा को प्रीप्रोसेसिंग किया जाता है, तो यह सुनिश्चित करना महत्वपूर्ण होता है कि डेटा सेट संतुलित हो। संतुलित डेटा का मतलब है कि आपके डेटा सेट में प्रत्येक वर्ग या श्रेणी का प्रतिनिधित्व समान रूप से होता है, जिससे प्रशिक्षण प्रक्रिया में किसी एकल वर्ग का प्रभुत्व नहीं होता है।
उदाहरण के लिए, मान लीजिए एक डेटा सेट में पुरुष प्रविष्टियाँ महिलाएँ प्रविष्टियों की तुलना में नौ गुना अधिक बार दिखाई देती हैं। यह असंतुलन मॉडल की भविष्यवाणियों को विकृत कर सकता है, जिससे यह बहुमत वर्ग—इस मामले में, पुरुषों—को प्राथमिकता देने लगता है। ऐसा पूर्वाग्रह सटीकता मेट्रिक्स को भ्रामक बना सकता है। उदाहरण के लिए, यदि आपके डेटा का 75% पुरुष है, तो एक मॉडल जो हमेशा "पुरुष" की भविष्यवाणी करेगा, वह 75% सटीकता प्राप्त करेगा, चाहे उसकी वास्तविक भविष्यवाणी क्षमता कैसी भी हो।
यहां तक कि मामूली असंतुलन भी चुनौतियाँ पैदा कर सकते हैं:

    तीन श्रेणियों का उदाहरण: मान लीजिए आपके पास तीन श्रेणियाँ—0, 1, और 2—समान क्रम में 29%, 33%, और 38% वितरण के साथ। जबकि यह तुलनात्मक रूप से संतुलित लग सकता है, अंतर—जैसे नौ पुरुष चार महिलाओं के—फिर भी मॉडल के प्रदर्शन को महत्वपूर्ण रूप से प्रभावित कर सकता है।


असंतुलित डेटा के कारण समस्याएँ
असंतुलित डेटा सेट निम्नलिखित कारण बन सकते हैं:

    पूर्वाग्रहपूर्ण भविष्यवाणियाँ: मॉडल संभवतः बहुमत वर्ग को अत्यधिक प्राथमिकता दे सकते हैं।
    भ्रामक मूल्यांकन मेट्रिक्स: सटीकता उच्च दिखाई दे सकती है जबकि मॉडल अल्पसंख्यक वर्गों पर खराब प्रदर्शन कर सकता है।
    खराब सामान्यीकरण: मॉडल अप्रत्याशित डेटा पर अच्छी तरह से सामान्यीकृत नहीं हो सकता, विशेषकर अल्प प्रतिनिधित्व वाले वर्गों के लिए।


डेटा विभाजन से पहले सर्वोत्तम प्रथाएँ
अपने डेटा को प्रशिक्षण और परीक्षण सेटों में विभाजित करने से पहले, किसी भी असंतुलन को संबोधित करना महत्वपूर्ण होता है। ऐसा न करने पर, संतुलन बंटवारे में पूर्वाग्रहित हो सकता है, जहां, उदाहरण के लिए, सभी परीक्षण नमूने बहुमत वर्ग के होते हैं। यह स्थिति न केवल मॉडल के मूल्यांकन में बाधा डालती है बल्कि इसके वास्तविक दुनिया में लागू होने की क्षमता को भी प्रभावित करती है।

डेटा बैलेंस करने की तकनीकें
असंतुलित डेटा से निपटने के लिए मुख्य रूप से दो तरीके हैं:

    
        Undersampling:
        
            यह क्या है: इस विधि में बहुमत वर्ग की घटनाओं की संख्या को अल्पसंख्यक वर्ग से मिलाने के लिए कम किया जाता है।
            यह कैसे काम करता है: बहुमत वर्ग के एक उपसमूह को यादृच्छिक रूप से चुनकर और शेष को निकालकर इसे रखा जाता है।
            फायदे: डेटा सेट को सरल बना देता है और प्रशिक्षण समय को कम कर सकता है।
            नुकसान: मूल्यवान जानकारी के नुकसान की संभावना, जिससे मॉडल का प्रदर्शन खराब हो सकता है।
        
        imblearn का उपयोग करके उदाहरण:
        



		
		
			
			
Java
			
			from imblearn.under_sampling import RandomUnderSampler

rus = RandomUnderSampler(random_state=42)
X_resampled, Y_resampled = rus.fit_resample(X, Y)
			
				
					
				
					1
2
3
4
				
						from imblearn.under_sampling import RandomUnderSampler
 
rus = RandomUnderSampler(random_state=42)
X_resampled, Y_resampled = rus.fit_resample(X, Y)
					
				
			
		


    
    
        Oversampling:
        
            यह क्या है: इस तकनीक में बहुमत वर्ग के बराबर करने के लिए अल्पसंख्यक वर्ग की घटनाओं की संख्या बढ़ाई जाती है।
            यह कैसे काम करता है: अल्पसंख्यक वर्ग को समर्थन देने के लिए सिंथेटिक नमूने उत्पन्न किए जाते हैं या मौजूदा नमूनों को दोहराया जाता है।
            फायदे: बहुमत वर्ग की सभी जानकारी संरक्षित रहती है।
            नुकसान: मौजूदा अल्पसंख्यक घटनाओं को दोहराने के कारण ओवरफिटिंग हो सकती है।
        
        imblearn का उपयोग करके उदाहरण:
        



		
		
			
			
Java
			
			from imblearn.over_sampling import RandomOverSampler

ros = RandomOverSampler(random_state=42)
X_resampled, Y_resampled = ros.fit_resample(X, Y)
			
				
					
				
					1
2
3
4
				
						from imblearn.over_sampling import RandomOverSampler
 
ros = RandomOverSampler(random_state=42)
X_resampled, Y_resampled = ros.fit_resample(X, Y)
					
				
			
		


    


imblearn पुस्तकालय का उपयोग
Python में imblearn पुस्तकालय, Undersampling और Oversampling दोनों के लिए सरल उपकरण प्रदान करता है। यहां इसे इंस्टॉल करने और उपयोग करने के लिए एक त्वरित गाइड है:

    इंस्टॉलेशन:
        यदि पहले से इंस्टॉल नहीं है, तो आप pip का उपयोग करके imblearn जोड़ सकते हैं:
        



		
		
			
			
Java
			
			pip install imblearn
			
				
					
				
					1
				
						pip install imblearn
					
				
			
		


    
    इम्प्लीमेंटेशन:
        
            Undersampling:
                



		
		
			
			
Java
			
			from imblearn.under_sampling import RandomUnderSampler

rus = RandomUnderSampler(random_state=42)
X_resampled, Y_resampled = rus.fit_resample(X, Y)
			
				
					
				
					1
2
3
4
				
						from imblearn.under_sampling import RandomUnderSampler
 
rus = RandomUnderSampler(random_state=42)
X_resampled, Y_resampled = rus.fit_resample(X, Y)
					
				
			
		


            
            Oversampling:
                



		
		
			
			
Java
			
			from imblearn.over_sampling import RandomOverSampler

ros = RandomOverSampler(random_state=42)
X_resampled, Y_resampled = ros.fit_resample(X, Y)
			
				
					
				
					1
2
3
4
				
						from imblearn.over_sampling import RandomOverSampler
 
ros = RandomOverSampler(random_state=42)
X_resampled, Y_resampled = ros.fit_resample(X, Y)
					
				
			
		


            
        
    


उन्नत तकनीकें
हालांकि यादृच्छिक Undersampling और Oversampling सरल और प्रभावी हैं, SMOTE जैसी अधिक परिष्कृत विधियाँ मौजूदा घटनाओं को केवल दोहराने या निकालने के बजाय सिंथेटिक नमूने उत्पन्न करके बेहतर परिणाम दे सकती हैं। SMOTE अल्पसंख्यक वर्ग के लिए एक अधिक सामान्यीकृत निर्णय सीमा बनाने में मदद करता है, जिससे मॉडल की अल्पसंख्यक घटनाओं को सटीक रूप से भविष्यवाणी करने की क्षमता बढ़ती है।

निष्कर्ष
अपने डेटा सेट को संतुलित करना मजबूत और पूर्वाग्रह रहित मशीन लर्निंग मॉडल बनाने में एक मौलिक कदम है। Undersampling और Oversampling जैसी तकनीकों का उपयोग करके, आप असंतुलित डेटा के प्रतिकूल प्रभावों को कम कर सकते हैं, जिससे बेहतर प्रदर्शन और अधिक विश्वसनीय भविष्यवाणियों की प्राप्ति होती है। जैसे-जैसे आप आगे बढ़ेंगे, SMOTE जैसी उन्नत विधियों का अन्वेषण करना असंतुलित डेटा सेटों को संभालने के आपके दृष्टिकोण को और परिष्कृत करेगा।
आज की चर्चा में शामिल होने के लिए धन्यवाद! आगामी सत्रों में हमारे साथ और अंतर्दृष्टि और उन्नत विषयों के लिए जुड़ें रहें। आपका दिन शुभ हो और ध्यान रखें!