S29L03 – ROC, AUC – आदर्श सीमा की गणना (यौडेन विधि)

html
ROC और AUC में महारत: उन्नत मशीन लर्निंग प्रदर्शन के लिए थ्रेशोल्ड का अनुकूलन
मशीन लर्निंग के क्षेत्र में, विशेष रूप से बाइनरी वर्गीकरण कार्यों में, मॉडल के प्रदर्शन का प्रभावी मूल्यांकन अत्यंत महत्वपूर्ण है। इस मूल्यांकन प्रक्रिया में दो महत्वपूर्ण मीट्रिक हैं रेसीवर ऑपरेटिंग चारित्रिक (ROC) कर्व और ROC कर्व के तहत क्षेत्रफल (AUC)। इन मीट्रिक का उपयोग करके थ्रेशोल्ड का अनुकूलन समझना आपके मॉडल की भविष्यवाणी क्षमताओं को महत्वपूर्ण रूप से बढ़ा सकता है। यह व्यापक मार्गदर्शन ROC और AUC में गहराई से जाता है, अनुकूल थ्रेशोल्ड की गणना के तरीकों की खोज करता है, और असंतुलित डेटासेट में उनके लागू होने की जांच करता है एक व्यावहारिक केस स्टडी के माध्यम से Weather Australia डेटासेट का उपयोग करके।
विषय सूची

ROC और AUC का परिचय
थ्रेशोल्ड चयन का महत्व
उत्कृष्ट थ्रेशोल्ड के लिए Youden की विधि
असंतुलित डेटासेट में ROC की चुनौतियां
केस स्टडी: Weather Australia डेटासेट
डेटा प्रीप्रोसेसिंग कदम
मॉडल निर्माण और मूल्यांकन
    
        K-निकटतम पड़ोसी (KNN)
        लॉजिस्टिक रिग्रेशन
        गॉसियन नाइवे बेयस
        सपोर्ट वेक्टर मशीन (SVM)
        डिसीजन ट्री
        रैंडम फॉरेस्ट
        एडा बूस्ट
        XGBoost
    

मॉडल्स का तुलनात्मक विश्लेषण
ROC की सीमाएं और वैकल्पिक विधियां
निष्कर्ष


ROC और AUC का परिचय
रेसीवर ऑपरेटिंग चारित्रिक (ROC) कर्व एक ग्राफिकल प्रस्तुति है जो एक बाइनरी क्लासिफायर की डायग्नोस्टिक क्षमता को दर्शाती है जैसे-जैसे इसका भेदभाव थ्रेशोल्ड बदलता है। यह कर्व विभिन्न थ्रेशोल्ड सेटिंग्स पर सच्चा सकारात्मक दर (TPR) को गलत सकारात्मक दर (FPR) के खिलाफ प्लॉट करता है। ROC कर्व के तहत क्षेत्रफल (AUC) मॉडल की समग्र क्षमता को मापता है जिससे यह सकारात्मक और नकारात्मक वर्गों के बीच भेद करता है।
ROC और AUC क्यों महत्वपूर्ण हैं

ROC कर्व: विभिन्न थ्रेशोल्ड पर एक वर्गीकरण मॉडल के प्रदर्शन को विज़ुअलाइज़ करने में मदद करता है।
AUC: थ्रेशोल्ड की परवाह किए बिना वर्गों के बीच अंतर करने में मॉडल की क्षमता को सारांशित करने के लिए एकल मान प्रदान करता है।

थ्रेशोल्ड चयन का महत्व
बाइनरी वर्गीकरण में, थ्रेशोल्ड यह निर्धारित करता है कि उदाहरणों को सकारात्मक या नकारात्मक वर्गों में किस बिंदु पर वर्गीकृत किया जाएगा। एक उपयुक्त थ्रेशोल्ड का चयन महत्वपूर्ण है क्योंकि यह सटीकता, पुनर्प्राप्ति, और समग्र सटीकता जैसे मीट्रिक पर सीधे प्रभाव डालता है।
मुख्य विचार

सटीकता और पुनर्प्राप्ति के बीच संतुलन: समस्या क्षेत्र के आधार पर, आप गलत सकारात्मक या गलत नकारात्मक को कम करने को प्राथमिकता दे सकते हैं।
व्यावसायिक मीट्रिक पर प्रभाव: चयनित थ्रेशोल्ड को भविष्यवाणी त्रुटियों के वास्तविक दुनिया के प्रभावों के साथ संरेखित होना चाहिए।

उत्कृष्ट थ्रेशोल्ड के लिए Youden की विधि
Youden का J सांख्यिकी एक सामान्य रूप से उपयोग की जाने वाली विधि है जो सही सकारात्मक दर और गलत सकारात्मक दर के बीच के अंतर को अधिकतम करके उत्कृष्ट थ्रेशोल्ड निर्धारित करती है। इसे गणितीय रूप से इस प्रकार व्यक्त किया जाता है:
\[ J = \text{Sensitivity} + \text{Specificity} - 1 \]
जिस थ्रेशोल्ड पर \( J \) अधिकतम होता है, उसे उत्कृष्ट माना जाता है।
Python में Youden की विधि को लागू करना




		
		
			
			
Java
			
			from sklearn.metrics import roc_curve

def get_optimal_threshold(y_true, y_scores):
    fpr, tpr, thresholds = roc_curve(y_true, y_scores)
    J = tpr - fpr
    ix = J.argmax()
    return thresholds[ix]

optimal_threshold = get_optimal_threshold(y_test, predicted_probabilities[:,1])
			
				
					
				
					1
2
3
4
5
6
7
8
9
				
						from sklearn.metrics import roc_curve
 
def get_optimal_threshold(y_true, y_scores):
    fpr, tpr, thresholds = roc_curve(y_true, y_scores)
    J = tpr - fpr
    ix = J.argmax()
    return thresholds[ix]
 
optimal_threshold = get_optimal_threshold(y_test, predicted_probabilities[:,1])
					
				
			
		


असंतुलित डेटासेट में ROC की चुनौतियां
ROC कर्व कभी-कभी असंतुलित डेटासेट पर मॉडल के प्रदर्शन की अत्यधिक आशावादी छवि पेश कर सकते हैं। जब एक वर्ग दूसरे से महत्वपूर्ण रूप से अधिक होता है, तो AUC भ्रामक हो सकता है, क्योंकि मॉडल मुख्य रूप से बहुसंख्यक वर्ग की सही भविष्यवाणी करके उच्च AUC प्राप्त कर सकता है।
कम करने के लिए रणनीतियाँ

Precision-Recall (PR) कर्वों का उपयोग करें: PR कर्व वर्ग असंतुलन के मामलों में अधिक सूचनात्मक जानकारी प्रदान कर सकते हैं।
रीसैम्पलिंग तकनीकें: प्रशिक्षण से पहले डेटासेट को संतुलित करने के लिए ओवरसैम्पलिंग या अंडरसैम्पलिंग लागू करें।

केस स्टडी: Weather Australia डेटासेट
ROC, AUC, और थ्रेशोल्ड अनुकूलन की अवधारणाओं को स्पष्ट करने के लिए, हम Weather Australia डेटासेट का विश्लेषण करेंगे। यह डेटासेट एक बाइनरी वर्गीकरण समस्या है जहाँ लक्ष्य यह पूर्वानुमान लगाना है कि क्या कल बारिश होगी विभिन्न मौसम पैरामीटर्स के आधार पर।
डेटासेट अवलोकन

फीचर्स: तापमान, आर्द्रता, वायु गति, और अन्य मौसम से संबंधित मेट्रिक शामिल हैं।
कक्षाएं: "Yes" (हाँ) कल बारिश के लिए और "No" (नहीं) कल बारिश न होने के लिए।
असंतुलन: लगभग 76% "No" और 22% "Yes" वर्ग।

डेटा प्रीप्रोसेसिंग कदम
मॉडल मूल्यांकन की विश्वसनीयता सुनिश्चित करने के लिए उचित डेटा प्रीप्रोसेसिंग आवश्यक है।
कदम शामिल

लापता डेटा को संभालना:
    
        न्यूमेरिक फीचर्स: माध्य रणनीति का उपयोग करके इम्यूट किया गया।
        कैटेगोरिकल फीचर्स: सबसे अधिक बार आने वाली रणनीति का उपयोग करके इम्यूट किया गया।
    

कैटेगोरिकल वेरिएबल्स को एन्कोड करना:
    
        लेबल एन्कोडिंग: बाइनरी या उच्च कार्डिनैलिटी वाले कैटेगोरिकल वेरिएबल्स के लिए।
        वन-हॉट एन्कोडिंग: निम्न कार्डिनैलिटी वाले कैटेगोरिकल वेरिएबल्स के लिए।
    

फीचर चयन:
    
        शीर्ष 10 फीचर्स का चयन करने के लिए SelectKBest का उपयोग Chi-Squared टेस्ट के साथ किया गया।
    

फीचर स्केलिंग:
    
        फीचर मानों को सामान्यीकृत करने के लिए स्टैंडर्डाइजेशन लागू किया गया।
    


Python में कार्यान्वयन का स्निपेट




		
		
			
			
Java
			
			from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.compose import ColumnTransformer

# Handling missing numeric data
imp_mean = SimpleImputer(strategy='mean')
X[numerical_cols] = imp_mean.fit_transform(X[numerical_cols])

# Handling missing categorical data
imp_freq = SimpleImputer(strategy='most_frequent')
X[categorical_cols] = imp_freq.fit_transform(X[categorical_cols])

# Encoding categorical variables
ct = ColumnTransformer([
    ('onehot', OneHotEncoder(), one_hot_indices)
], remainder='passthrough')
X = ct.fit_transform(X)

# Feature selection
selector = SelectKBest(score_func=chi2, k=10)
X_selected = selector.fit_transform(X, y)

# Feature scaling
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_selected)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
				
						from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.compose import ColumnTransformer
 
# Handling missing numeric data
imp_mean = SimpleImputer(strategy='mean')
X[numerical_cols] = imp_mean.fit_transform(X[numerical_cols])
 
# Handling missing categorical data
imp_freq = SimpleImputer(strategy='most_frequent')
X[categorical_cols] = imp_freq.fit_transform(X[categorical_cols])
 
# Encoding categorical variables
ct = ColumnTransformer([
    ('onehot', OneHotEncoder(), one_hot_indices)
], remainder='passthrough')
X = ct.fit_transform(X)
 
# Feature selection
selector = SelectKBest(score_func=chi2, k=10)
X_selected = selector.fit_transform(X, y)
 
# Feature scaling
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_selected)
					
				
			
		


मॉडल निर्माण और मूल्यांकन
विभिन्न मशीन लर्निंग एल्गोरिदम का उपयोग करके मॉडल के प्रदर्शन को विभिन्न परिदृश्यों में समझने के लिए एक समग्र दृष्टिकोण प्राप्त किया जा सकता है। नीचे, हम कई मॉडलों का अन्वेषण करेंगे, उनकी कार्यान्वयन, और ROC और AUC का उपयोग करते हुए मूल्यांकन मीट्रिक पर चर्चा करेंगे।
K-निकटतम पड़ोसी (KNN)
अवलोकन: KNN एक सरल, इंस्टेंस-आधारित लर्निंग एल्गोरिदम है जो अपने निकटतम पड़ोसियों में से अधिकांश लेबल के आधार पर नए उदाहरणों को वर्गीकृत करता है।
प्रदर्शन मीट्रिक:

सटीकता: 85.9%
AUC: 79.9%
उत्कृष्ट थ्रेशोल्ड: 0.333

पर्यवेक्षण:

उत्कृष्ट थ्रेशोल्ड डिफ़ॉल्ट 0.5 के मुकाबले थोड़ा सा सटीकता कम करता है।
उत्कृष्ट थ्रेशोल्ड का उपयोग करने पर दोनों वर्गों के लिए सटीकता में सुधार होता है।

लॉजिस्टिक रिग्रेशन
अवलोकन: लॉजिस्टिक रिग्रेशन एक सांख्यिकीय मॉडल है जो एक या अधिक भविष्यवक्ता वेरिएबल्स के आधार पर बाइनरी परिणाम की संभावना का पूर्वानुमान लगाता है।
प्रदर्शन मीट्रिक:

सटीकता: 87.2%
AUC: 88.4%
उत्कृष्ट थ्रेशोल्ड: 0.132

पर्यवेक्षण:

इस मॉडल की AUC KNN की तुलना में अधिक है।
निचले थ्रेशोल्ड के साथ सटीकता में महत्वपूर्ण सुधार होता है, जिससे मॉडल सकारात्मक वर्ग के प्रति अधिक संवेदनशील बनता है।

गॉसियन नाइवे बेयस
अवलोकन: गॉसियन नाइवे बेयस फीचर्स के बीच स्वतंत्रता के अनुमान के साथ Bayes’ प्रमेय को लागू करता है और न्यूमेरिक फीचर्स के लिए गॉसियन वितरण मानता है।
प्रदर्शन मीट्रिक:

सटीकता: 83.1%
AUC: 0.884
उत्कृष्ट थ्रेशोल्ड: 0.132

पर्यवेक्षण:

लॉजिस्टिक रिग्रेशन की तुलना में तुलनीय AUC।
संतुलित सटीकता लेकिन कम पुनर्प्राप्ति, जो सकारात्मक वर्ग के लिए बेहतर सटीकता को दर्शाता है।

सपोर्ट वेक्टर मशीन (SVM)
अवलोकन: SVM एक पर्यवेक्षित लर्निंग मॉडल है जो फीचर स्थान में वर्गों को अलग करने वाला उत्तम हाइपरप्लेन खोजता है।
प्रदर्शन मीट्रिक:

सटीकता: 87.65%
AUC: 85.4%
उत्कृष्ट थ्रेशोल्ड: 0.144

पर्यवेक्षण:

उत्तम सटीकता के साथ सम्मानजनक AUC।
थ्रेशोल्ड अनुकूलन के बाद संतुलित सटीकता और पुनर्प्राप्ति।

डिसीजन ट्री
अवलोकन: डिसीजन ट्री फीचर मानों के आधार पर फीचर स्थान को क्षेत्रों में विभाजित करता है, प्रत्येक नोड पर निर्णय लेकर पूर्वानुमान करता है।
प्रदर्शन मीट्रिक:

सटीकता: 82.35%
AUC: 0.716
उत्कृष्ट थ्रेशोल्ड: 1.0

पर्यवेक्षण:

कम AUC वर्गों के बीच भेद करने में खराब प्रदर्शन को दर्शाता है।
1.0 का उत्कृष्ट थ्रेशोल्ड मॉडल को बहुसंख्यक वर्ग की भविष्यवाणी की ओर झुकाव बताता है।

रैंडम फॉरेस्ट
अवलोकन: Random Forest एक एंसेंबल लर्निंग विधि है जो कई डिसीजन ट्री बनाती है और उच्च सटीकता और स्थिरता के लिए उनके परिणामों को एकत्रित करती है।
प्रदर्शन मीट्रिक:

सटीकता: 87.25%
AUC: 0.876
उत्कृष्ट थ्रेशोल्ड: 0.221

पर्यवेक्षण:

उच्च AUC और सटीकता मजबूत प्रदर्शन को दर्शाते हैं।
थ्रेशोल्ड अनुकूलन के साथ सकारात्मक वर्ग के लिए पुनर्प्राप्ति में सुधार।

एडा बूस्ट
अवलोकन: AdaBoost एक एंसेंबल तकनीक है जो कई कमजोर शिक्षार्थियों को एक मजबूत क्लासिफायर में जोड़ती है, जो पहले से गलत वर्गीकृत उदाहरणों पर ध्यान केंद्रित करती है।
प्रदर्शन मीट्रिक:

सटीकता: 87.25%
AUC: 0.881
उत्कृष्ट थ्रेशोल्ड: 0.491

पर्यवेक्षण:

अनुकूलन के बाद संतुलित सटीकता और पुनर्प्राप्ति।
सकारात्मक वर्ग के लिए सटीकता में थोड़ी वृद्धि।

XGBoost
अवलोकन: XGBoost एक शक्तिशाली ग्रेडिएंट बूस्टिंग फ्रेमवर्क है जो अपनी दक्षता और स्ट्रक्चर्ड/टेबलुलर डेटा में प्रदर्शन के लिए जाना जाता है।
प्रदर्शन मीट्रिक:

सटीकता: 87.15%
AUC: 0.879
उत्कृष्ट थ्रेशोल्ड: 0.186

पर्यवेक्षण:

उच्च AUC और सटीकता।
निचले थ्रेशोल्ड के साथ सकारात्मक वर्ग के लिए सटीकता में वृद्धि।

मॉडल्स का तुलनात्मक विश्लेषण
विभिन्न मीट्रिक के माध्यम से मॉडल्स का विश्लेषण उनके ताकत और सुधार के क्षेत्रों में अंतर्दृष्टि प्रदान करता है:


मॉडल
सटीकता
AUC
उत्कृष्ट थ्रेशोल्ड
Precision (Positive)
Recall (Positive)


KNN
85.9%
0.799
0.333
0.76
0.41


लॉजिस्टिक रिग्रेशन
87.2%
0.884
0.132
0.86
0.43


गॉसियन NB
83.1%
0.884
0.132
0.86
0.43


SVM
87.65%
0.854
0.144
0.73
0.58


डिसीजन ट्री
82.35%
0.716
1.0
0.55
0.53


रैंडम फॉरेस्ट
87.25%
0.876
0.221
0.73
0.53


एडा बूस्ट
87.25%
0.881
0.491
0.84
0.46


XGBoost
87.15%
0.879
0.186
0.76
0.53


मुख्य निष्कर्ष:

लॉजिस्टिक रिग्रेशन और गॉसियन नाइवे बेयस सबसे उच्च AUC प्रदर्शित करते हैं, जो मजबूत भेदात्मक क्षमताओं को इंगित करता है।
डिसीजन ट्री कम AUC और झुके हुए थ्रेशोल्ड के साथ कम प्रदर्शन करते हैं।
एंसेंबल विधियाँ जैसे कि रैंडम फॉरेस्ट, एडा बूस्ट, और XGBoost थ्रेशोल्ड अनुकूलन के बाद संतुलित सटीकता और पुनर्प्राप्ति के साथ मजबूत प्रदर्शन दिखाती हैं।
SVM उच्च सटीकता और उचित AUC के बीच संतुलन बनाता है।

ROC की सीमाएं और वैकल्पिक विधियां
जबकि ROC और AUC मॉडल मूल्यांकन के लिए अमूल्य उपकरण हैं, उनके कुछ सीमाएं हैं, विशेषकर असंतुलित डेटासेट के संदर्भ में।
सीमाएं

भ्रामक AUC मान: असंतुलित डेटासेट में, उच्च AUC धोखा दे सकता है क्योंकि मॉडल मुख्य रूप से बहुसंख्यक वर्ग की भविष्यवाणी कर सकता है।
थ्रेशोल्ड असंवेदनशीलता: ROC कर्व सभी संभव थ्रेशोल्ड का मूल्यांकन करता है, जो वास्तविक दुनिया के अनुप्रयोगों के लिए व्यावहारिक नहीं हो सकता जहां विशिष्ट थ्रेशोल्ड की आवश्यकता होती है।

वैकल्पिक विधियां

Precision-Recall (PR) कर्व: वर्ग असंतुलन वाले परिदृश्यों में अधिक सूचनात्मक, सटीकता और पुनर्प्राप्ति के बीच के व्यापार-अप पर ध्यान केंद्रित करता है।
F1 स्कोर: सटीकता और पुनर्प्राप्ति का संतुलन, जो दोनों को ध्यान में रखते हुए एकल मीट्रिक प्रदान करता है।

निष्कर्ष
बाइनरी वर्गीकरण कार्यों में मॉडल प्रदर्शन का अनुकूलन करने के लिए ROC और AUC जैसे मूल्यांकन मीट्रिक की सूक्ष्म समझ की आवश्यकता होती है। Youden's J जैसी विधियों का उपयोग करके थ्रेशोल्ड का सावधानीपूर्वक चयन करके, और डेटासेट असंतुलन के प्रति जागरूक रहकर, प्रैक्टिशनर्स अपने मॉडलों की भविष्यवाणी सटीकता और विश्वसनीयता को महत्वपूर्ण रूप से बढ़ा सकते हैं। Weather Australia डेटासेट के साथ एक व्यावहारिक केस स्टडी पर आधारित यह मार्गदर्शिका व्यापक मॉडल मूल्यांकन और थ्रेशोल्ड अनुकूलन के महत्व को रेखांकित करती है, जो मजबूत मशीन लर्निंग समाधानों के विकास में महत्वपूर्ण है।

कीवर्ड: ROC कर्व, AUC, थ्रेशोल्ड अनुकूलन, बाइनरी वर्गीकरण, Youden की विधि, असंतुलित डेटासेट, मशीन लर्निंग मॉडल मूल्यांकन, लॉजिस्टिक रिग्रेशन, KNN, रैंडम फॉरेस्ट, एडा बूस्ट, XGBoost, सटीकता-पुनर्प्राप्ति कर्व।
मॉडल	सटीकता	AUC	उत्कृष्ट थ्रेशोल्ड	Precision (Positive)	Recall (Positive)
KNN	85.9%	0.799	0.333	0.76	0.41
लॉजिस्टिक रिग्रेशन	87.2%	0.884	0.132	0.86	0.43
गॉसियन NB	83.1%	0.884	0.132	0.86	0.43
SVM	87.65%	0.854	0.144	0.73	0.58
डिसीजन ट्री	82.35%	0.716	1.0	0.55	0.53
रैंडम फॉरेस्ट	87.25%	0.876	0.221	0.73	0.53
एडा बूस्ट	87.25%	0.881	0.491	0.84	0.46
XGBoost	87.15%	0.879	0.186	0.76	0.53