S20L04 – बहु-वर्ग वर्गीकरण पर लॉजिस्टिक प्रतिगमन

html
लॉजिस्टिक रिग्रेशन को समझना: मूल बातें से लेकर मल्टीक्लास वर्गीकरण तक

सामग्री तालिका

    लॉजिस्टिक रिग्रेशन का परिचय
    लॉजिस्टिक रिग्रेशन बनाम लीनियर रिग्रेशन
    लॉजिस्टिक रिग्रेशन के साथ बाइनरी वर्गीकरण
    मल्टीक्लास वर्गीकरण में विस्तार
    वन-व्स-ऑल (OvA) दृष्टिकोण
    प्रायिकता और निर्णय सीमाएँ
    Scikit-Learn का उपयोग करते हुए व्यावहारिक कार्यान्वयन
    निष्कर्ष




लॉजिस्टिक रिग्रेशन का परिचय
लॉजिस्टिक रिग्रेशन मशीन लर्निंग और सांख्यिकीय विश्लेषण के क्षेत्र में एक महत्वपूर्ण आधारशिला के रूप में खड़ा है। चाहे आप डेटा साइंस में कदम रख रहे एक नौसिखिया हों या अपनी समझ को मजबूत करने के लिए एक अनुभवी पेशेवर हों, लॉजिस्टिक रिग्रेशन के सूक्ष्मताओं को समझना आवश्यक है। यह व्यापक मार्गदर्शिका लॉजिस्टिक रिग्रेशन के मूल सिद्धांतों में गहराई से उतरती है, बाइनरी और मल्टीक्लास वर्गीकरण के बीच अंतर बताती है, और प्रभावी मल्टीक्लास मॉडलिंग के लिए वन-व्स-ऑल रणनीति को स्पष्ट करती है।


चित्र 1: प्रायिकता को दर्शाते हुए लॉजिस्टिक रिग्रेशन का S-कर्व।

लॉजिस्टिक रिग्रेशन बनाम लीनियर रिग्रेशन
अपने मूल में, लॉजिस्टिक रिग्रेशन लीनियर रिग्रेशन मॉडल से निकला है। जहाँ लीनियर रिग्रेशन वेरिएबल्स के बीच संबंध को मॉडल करने के लिए सीधी रेखा फिट करता है, वहीं लॉजिस्टिक रिग्रेशन लॉजिस्टिक फ़ंक्शन (जिसे सिग्मॉइड फ़ंक्शन के नाम से भी जाना जाता है) का उपयोग आउटपुट को 0 और 1 के बीच सीमित करने के लिए करता है। यह परिवर्तन लॉजिस्टिक रिग्रेशन को संभावनाओं को मॉडल करने में सक्षम बनाता है, जिससे यह वर्गीकरण कार्यों के लिए उपयुक्त होता है।

मुख्य अंतर:

    आउटपुट: लीनियर रिग्रेशन एक लगातार मान की भविष्यवाणी करता है, जबकि लॉजिस्टिक रिग्रेशन संभावनाएँ प्रदान करता है।
    उपयोग किया गया फ़ंक्शन: लीनियर रिग्रेशन एक लीनियर फ़ंक्शन का उपयोग करता है, जबकि लॉजिस्टिक रिग्रेशन सिग्मॉइड फ़ंक्शन का उपयोग करता है।
    उद्देश्य: लीनियर रिग्रेशन का उपयोग रिग्रेशन कार्यों के लिए किया जाता है; लॉजिस्टिक रिग्रेशन का उपयोग वर्गीकरण के लिए किया जाता है।


लॉजिस्टिक रिग्रेशन के साथ बाइनरी वर्गीकरण
बाइनरी वर्गीकरण में, लक्ष्य डेटा बिंदुओं को दो अलग-अलग वर्गों में से एक में वर्गीकृत करना होता है। लॉजिस्टिक रिग्रेशन यह काम एक दिए गए इनपुट के विशेष वर्ग में होने की संभावना का अनुमान लगाकर पूरा करता है।

यह कैसे काम करता है:

    लीनियर संयोजन: इनपुट विशेषताओं का भारित योग निकालता है।
    सिग्मॉइड फ़ंक्शन: लीनियर संयोजन को 0 और 1 के बीच एक संभावना में मानचित्रित करने के लिए सिग्मॉइड फ़ंक्शन लागू करता है।
    निर्णय सीमा: इनपुट को दो में से एक वर्ग में वर्गीकृत करने के लिए एक थ्रेशोल्ड (आमतौर पर 0.5) निर्धारित करता है।


उदाहरण परिदृश्य:

कल्पना करें कि एक ईमेल स्पैम (1) है या नहीं (0) भविष्यवाणी करना, फीचर्स जैसे कि कीवर्ड आवृत्ति, प्रेषक की प्रतिष्ठा, और ईमेल की लंबाई के आधार पर।

मल्टीक्लास वर्गीकरण में विस्तार
हालांकि लॉजिस्टिक रिग्रेशन मूल रूप से एक बाइनरी क्लासिफ़ायर है, इसे मल्टीक्लास वर्गीकरण समस्याओं को संभालने के लिए विस्तारित किया जा सकता है, जहां उद्देश्य इनपुट्स को तीन या अधिक वर्गों में से एक में वर्गीकृत करना होता है।

मल्टीक्लास वर्गीकरण में चुनौतियाँ:

    निर्णय सीमाएँ: कई वर्गों को अलग करने के लिए एकल निर्णय सीमा अपर्याप्त है।
    प्रायिकता आवंटन: प्रत्येक वर्ग को ऐसी संभावनाएँ असाइन करना कि उनका योग एक के बराबर हो।


वन-व्स-ऑल (OvA) दृष्टिकोण
वन-व्स-ऑल, जिसे वन-व्स-रेस्ट भी कहा जाता है, मल्टीक्लास समस्याओं को बाइनरी क्लासिफ़ायर्स जैसे लॉजिस्टिक रिग्रेशन का विस्तार करने के लिए व्यापक रूप से अपनाया गया एक रणनीति है।

OvA कैसे काम करता है:

    कई मॉडल: प्रत्येक वर्ग के लिए एक अलग बाइनरी क्लासिफ़ायर को ट्रेन करें। प्रत्येक मॉडल एक वर्ग को सभी अन्य से अलग करना सीखता है।
    प्रायिकता अनुमान: प्रत्येक क्लासिफ़ायर एक संभावना आउटपुट करता है जो दर्शाती है कि इनपुट उसके संबंधित वर्ग में होने की कितनी संभावना है।
    अंतिम भविष्यवाणी: सभी क्लासिफ़ायर्स में से सबसे उच्च संभावना स्कोर वाले वर्ग को इनपुट असाइन करें।


उदाहरणात्मक उदाहरण:

कल्पना करें कि एक डेटासेट में तीन वर्ग हैं: वृत्त, त्रिभुज, और वर्ग।


    मॉडल M1: वृत्त बनाम (त्रिभुज और वर्ग)
    मॉडल M2: त्रिभुज बनाम (वृत्त और वर्ग)
    मॉडल M3: वर्ग बनाम (वृत्त और त्रिभुज)


एक नए डेटा बिंदु के लिए, प्रत्येक मॉडल एक संभावना प्रदान करता है। सबसे उच्च संभावना वाले वर्ग को अंतिम भविष्यवाणी के रूप में चुना जाता है।

प्रायिकता और निर्णय सीमाएँ
लॉजिस्टिक रिग्रेशन सिग्मॉइड फ़ंक्शन का उपयोग करके एक चिकनी S-कर्व उत्पन्न करता है जो एक डेटा बिंदु के एक विशेष वर्ग में होने की प्रायिकता को दर्शाती है। निर्णय सीमा वह थ्रेशोल्ड (आमतौर पर 0.5) है जो इन प्रायिकताओं के आधार पर वर्गों को अलग करती है।

मुख्य अंतर्दृष्टियाँ:

    विश्वास स्तर: निर्णय सीमा से जितना दूर एक डेटा बिंदु होता है, उतना ही मॉडल का उस वर्गीकरण में विश्वास अधिक होता है।
    ओवरलैप परिदृश्य: निर्णय सीमा के पास के डेटा बिंदु कम विश्वास स्तर प्रदान करते हैं, जिससे वर्गीकरण में अस्पष्टता का संकेत मिलता है।


दृश्यकरण:

चित्र 2: निर्णय सीमाओं और विश्वास स्तरों का दृश्यांकन।

Scikit-Learn का उपयोग करते हुए व्यावहारिक कार्यान्वयन
लॉजिस्टिक रिग्रेशन को लागू करना, विशेष रूप से OvA दृष्टिकोण का उपयोग करके मल्टीक्लास समस्याओं के लिए, पाइथन में Scikit-Learn जैसी लाइब्रेरी के साथ सुव्यवस्थित है।

स्टेप-बाय-स्टेप गाइड:

    लाइब्रेरी आयात करना:





		
		
			
			
Java
			
			from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
			
				
					
				
					1
2
3
4
				
						from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
					
				
			
		




    डेटा लोड करना:





		
		
			
			
Java
			
			iris = load_iris()
X = iris.data
y = iris.target
			
				
					
				
					1
2
3
				
						iris = load_iris()
X = iris.data
y = iris.target
					
				
			
		




    डेटा विभाजित करना:





		
		
			
			
Java
			
			X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
			
				
					
				
					1
				
						X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
					
				
			
		




    मॉडल ट्रेनिंग:





		
		
			
			
Java
			
			model = LogisticRegression(multi_class='ovr', solver='liblinear')
model.fit(X_train, y_train)
			
				
					
				
					1
2
				
						model = LogisticRegression(multi_class='ovr', solver='liblinear')
model.fit(X_train, y_train)
					
				
			
		




    भविष्यवाणियाँ करना:





		
		
			
			
Java
			
			y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))
			
				
					
				
					1
2
				
						y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))
					
				
			
		



आउटपुट की व्याख्या:
वर्गीकरण रिपोर्ट प्रति वर्ग सटीकता, पुनर्प्राप्ति, और F1-स्कोर जैसी मीट्रिक्स प्रदान करती है, जो विभिन्न श्रेणियों में मॉडल के प्रदर्शन के बारे में अंतर्दृष्टि देती है।

निष्कर्ष
लॉजिस्टिक रिग्रेशन डेटा वैज्ञानिक के उपकरण में एक मौलिक उपकरण बना रहता है, जो बाइनरी और मल्टीक्लास वर्गीकरण कार्यों के लिए सरलता और प्रभावशीलता प्रदान करता है। इसके अंतर्निहित यांत्रिकी को समझकर, विशेष रूप से मल्टीक्लास परिदृश्यों के लिए वन-व्स-ऑल रणनीति को समझकर, प्रैक्टिशनर लॉजिस्टिक रिग्रेशन को वास्तविक दुनिया की समस्याओं पर कुशलतापूर्वक लागू कर सकते हैं। चाहे ग्राहक छूट की भविष्यवाणी करना हो, ईमेल को वर्गीकृत करना हो, या प्रजातियों की पहचान करना हो, लॉजिस्टिक रिग्रेशन भविष्यवाणीक मॉडल बनाने के लिए एक मजबूत नींव प्रदान करता है।



कीवर्ड: लॉजिस्टिक रिग्रेशन, बाइनरी वर्गीकरण, मल्टीक्लास वर्गीकरण, वन-व्स-ऑल, मशीन लर्निंग, डेटा साइंस, Scikit-Learn, भविष्यवाणीक मॉडलिंग, निर्णय सीमा, वर्गीकरण में प्रायिकता