S29L03 – ROC, AUC – आदर्श सीमा की गणना (यौडेन विधि)

html

ROC और AUC में महारत: उन्नत मशीन लर्निंग प्रदर्शन के लिए थ्रेशोल्ड का अनुकूलन

मशीन लर्निंग के क्षेत्र में, विशेष रूप से बाइनरी वर्गीकरण कार्यों में, मॉडल के प्रदर्शन का प्रभावी मूल्यांकन अत्यंत महत्वपूर्ण है। इस मूल्यांकन प्रक्रिया में दो महत्वपूर्ण मीट्रिक हैं रेसीवर ऑपरेटिंग चारित्रिक (ROC) कर्व और ROC कर्व के तहत क्षेत्रफल (AUC)। इन मीट्रिक का उपयोग करके थ्रेशोल्ड का अनुकूलन समझना आपके मॉडल की भविष्यवाणी क्षमताओं को महत्वपूर्ण रूप से बढ़ा सकता है। यह व्यापक मार्गदर्शन ROC और AUC में गहराई से जाता है, अनुकूल थ्रेशोल्ड की गणना के तरीकों की खोज करता है, और असंतुलित डेटासेट में उनके लागू होने की जांच करता है एक व्यावहारिक केस स्टडी के माध्यम से Weather Australia डेटासेट का उपयोग करके।

विषय सूची

  1. ROC और AUC का परिचय
  2. थ्रेशोल्ड चयन का महत्व
  3. उत्कृष्ट थ्रेशोल्ड के लिए Youden की विधि
  4. असंतुलित डेटासेट में ROC की चुनौतियां
  5. केस स्टडी: Weather Australia डेटासेट
  6. डेटा प्रीप्रोसेसिंग कदम
  7. मॉडल निर्माण और मूल्यांकन
    1. K-निकटतम पड़ोसी (KNN)
    2. लॉजिस्टिक रिग्रेशन
    3. गॉसियन नाइवे बेयस
    4. सपोर्ट वेक्टर मशीन (SVM)
    5. डिसीजन ट्री
    6. रैंडम फॉरेस्ट
    7. एडा बूस्ट
    8. XGBoost
  8. मॉडल्स का तुलनात्मक विश्लेषण
  9. ROC की सीमाएं और वैकल्पिक विधियां
  10. निष्कर्ष

ROC और AUC का परिचय

रेसीवर ऑपरेटिंग चारित्रिक (ROC) कर्व एक ग्राफिकल प्रस्तुति है जो एक बाइनरी क्लासिफायर की डायग्नोस्टिक क्षमता को दर्शाती है जैसे-जैसे इसका भेदभाव थ्रेशोल्ड बदलता है। यह कर्व विभिन्न थ्रेशोल्ड सेटिंग्स पर सच्चा सकारात्मक दर (TPR) को गलत सकारात्मक दर (FPR) के खिलाफ प्लॉट करता है। ROC कर्व के तहत क्षेत्रफल (AUC) मॉडल की समग्र क्षमता को मापता है जिससे यह सकारात्मक और नकारात्मक वर्गों के बीच भेद करता है।

ROC और AUC क्यों महत्वपूर्ण हैं

  • ROC कर्व: विभिन्न थ्रेशोल्ड पर एक वर्गीकरण मॉडल के प्रदर्शन को विज़ुअलाइज़ करने में मदद करता है।
  • AUC: थ्रेशोल्ड की परवाह किए बिना वर्गों के बीच अंतर करने में मॉडल की क्षमता को सारांशित करने के लिए एकल मान प्रदान करता है।

थ्रेशोल्ड चयन का महत्व

बाइनरी वर्गीकरण में, थ्रेशोल्ड यह निर्धारित करता है कि उदाहरणों को सकारात्मक या नकारात्मक वर्गों में किस बिंदु पर वर्गीकृत किया जाएगा। एक उपयुक्त थ्रेशोल्ड का चयन महत्वपूर्ण है क्योंकि यह सटीकता, पुनर्प्राप्ति, और समग्र सटीकता जैसे मीट्रिक पर सीधे प्रभाव डालता है।

मुख्य विचार

  • सटीकता और पुनर्प्राप्ति के बीच संतुलन: समस्या क्षेत्र के आधार पर, आप गलत सकारात्मक या गलत नकारात्मक को कम करने को प्राथमिकता दे सकते हैं।
  • व्यावसायिक मीट्रिक पर प्रभाव: चयनित थ्रेशोल्ड को भविष्यवाणी त्रुटियों के वास्तविक दुनिया के प्रभावों के साथ संरेखित होना चाहिए।

उत्कृष्ट थ्रेशोल्ड के लिए Youden की विधि

Youden का J सांख्यिकी एक सामान्य रूप से उपयोग की जाने वाली विधि है जो सही सकारात्मक दर और गलत सकारात्मक दर के बीच के अंतर को अधिकतम करके उत्कृष्ट थ्रेशोल्ड निर्धारित करती है। इसे गणितीय रूप से इस प्रकार व्यक्त किया जाता है:

\[ J = \text{Sensitivity} + \text{Specificity} - 1 \]

जिस थ्रेशोल्ड पर \( J \) अधिकतम होता है, उसे उत्कृष्ट माना जाता है।

Python में Youden की विधि को लागू करना

असंतुलित डेटासेट में ROC की चुनौतियां

ROC कर्व कभी-कभी असंतुलित डेटासेट पर मॉडल के प्रदर्शन की अत्यधिक आशावादी छवि पेश कर सकते हैं। जब एक वर्ग दूसरे से महत्वपूर्ण रूप से अधिक होता है, तो AUC भ्रामक हो सकता है, क्योंकि मॉडल मुख्य रूप से बहुसंख्यक वर्ग की सही भविष्यवाणी करके उच्च AUC प्राप्त कर सकता है।

कम करने के लिए रणनीतियाँ

  • Precision-Recall (PR) कर्वों का उपयोग करें: PR कर्व वर्ग असंतुलन के मामलों में अधिक सूचनात्मक जानकारी प्रदान कर सकते हैं।
  • रीसैम्पलिंग तकनीकें: प्रशिक्षण से पहले डेटासेट को संतुलित करने के लिए ओवरसैम्पलिंग या अंडरसैम्पलिंग लागू करें।

केस स्टडी: Weather Australia डेटासेट

ROC, AUC, और थ्रेशोल्ड अनुकूलन की अवधारणाओं को स्पष्ट करने के लिए, हम Weather Australia डेटासेट का विश्लेषण करेंगे। यह डेटासेट एक बाइनरी वर्गीकरण समस्या है जहाँ लक्ष्य यह पूर्वानुमान लगाना है कि क्या कल बारिश होगी विभिन्न मौसम पैरामीटर्स के आधार पर।

डेटासेट अवलोकन

  • फीचर्स: तापमान, आर्द्रता, वायु गति, और अन्य मौसम से संबंधित मेट्रिक शामिल हैं।
  • कक्षाएं: "Yes" (हाँ) कल बारिश के लिए और "No" (नहीं) कल बारिश न होने के लिए।
  • असंतुलन: लगभग 76% "No" और 22% "Yes" वर्ग।

डेटा प्रीप्रोसेसिंग कदम

मॉडल मूल्यांकन की विश्वसनीयता सुनिश्चित करने के लिए उचित डेटा प्रीप्रोसेसिंग आवश्यक है।

कदम शामिल

  1. लापता डेटा को संभालना:
    • न्यूमेरिक फीचर्स: माध्य रणनीति का उपयोग करके इम्यूट किया गया।
    • कैटेगोरिकल फीचर्स: सबसे अधिक बार आने वाली रणनीति का उपयोग करके इम्यूट किया गया।
  2. कैटेगोरिकल वेरिएबल्स को एन्कोड करना:
    • लेबल एन्कोडिंग: बाइनरी या उच्च कार्डिनैलिटी वाले कैटेगोरिकल वेरिएबल्स के लिए।
    • वन-हॉट एन्कोडिंग: निम्न कार्डिनैलिटी वाले कैटेगोरिकल वेरिएबल्स के लिए।
  3. फीचर चयन:
    • शीर्ष 10 फीचर्स का चयन करने के लिए SelectKBest का उपयोग Chi-Squared टेस्ट के साथ किया गया।
  4. फीचर स्केलिंग:
    • फीचर मानों को सामान्यीकृत करने के लिए स्टैंडर्डाइजेशन लागू किया गया।

Python में कार्यान्वयन का स्निपेट

मॉडल निर्माण और मूल्यांकन

विभिन्न मशीन लर्निंग एल्गोरिदम का उपयोग करके मॉडल के प्रदर्शन को विभिन्न परिदृश्यों में समझने के लिए एक समग्र दृष्टिकोण प्राप्त किया जा सकता है। नीचे, हम कई मॉडलों का अन्वेषण करेंगे, उनकी कार्यान्वयन, और ROC और AUC का उपयोग करते हुए मूल्यांकन मीट्रिक पर चर्चा करेंगे।

K-निकटतम पड़ोसी (KNN)

अवलोकन: KNN एक सरल, इंस्टेंस-आधारित लर्निंग एल्गोरिदम है जो अपने निकटतम पड़ोसियों में से अधिकांश लेबल के आधार पर नए उदाहरणों को वर्गीकृत करता है।

प्रदर्शन मीट्रिक:

  • सटीकता: 85.9%
  • AUC: 79.9%
  • उत्कृष्ट थ्रेशोल्ड: 0.333

पर्यवेक्षण:

  • उत्कृष्ट थ्रेशोल्ड डिफ़ॉल्ट 0.5 के मुकाबले थोड़ा सा सटीकता कम करता है।
  • उत्कृष्ट थ्रेशोल्ड का उपयोग करने पर दोनों वर्गों के लिए सटीकता में सुधार होता है।

लॉजिस्टिक रिग्रेशन

अवलोकन: लॉजिस्टिक रिग्रेशन एक सांख्यिकीय मॉडल है जो एक या अधिक भविष्यवक्ता वेरिएबल्स के आधार पर बाइनरी परिणाम की संभावना का पूर्वानुमान लगाता है।

प्रदर्शन मीट्रिक:

  • सटीकता: 87.2%
  • AUC: 88.4%
  • उत्कृष्ट थ्रेशोल्ड: 0.132

पर्यवेक्षण:

  • इस मॉडल की AUC KNN की तुलना में अधिक है।
  • निचले थ्रेशोल्ड के साथ सटीकता में महत्वपूर्ण सुधार होता है, जिससे मॉडल सकारात्मक वर्ग के प्रति अधिक संवेदनशील बनता है।

गॉसियन नाइवे बेयस

अवलोकन: गॉसियन नाइवे बेयस फीचर्स के बीच स्वतंत्रता के अनुमान के साथ Bayes’ प्रमेय को लागू करता है और न्यूमेरिक फीचर्स के लिए गॉसियन वितरण मानता है।

प्रदर्शन मीट्रिक:

  • सटीकता: 83.1%
  • AUC: 0.884
  • उत्कृष्ट थ्रेशोल्ड: 0.132

पर्यवेक्षण:

  • लॉजिस्टिक रिग्रेशन की तुलना में तुलनीय AUC।
  • संतुलित सटीकता लेकिन कम पुनर्प्राप्ति, जो सकारात्मक वर्ग के लिए बेहतर सटीकता को दर्शाता है।

सपोर्ट वेक्टर मशीन (SVM)

अवलोकन: SVM एक पर्यवेक्षित लर्निंग मॉडल है जो फीचर स्थान में वर्गों को अलग करने वाला उत्तम हाइपरप्लेन खोजता है।

प्रदर्शन मीट्रिक:

  • सटीकता: 87.65%
  • AUC: 85.4%
  • उत्कृष्ट थ्रेशोल्ड: 0.144

पर्यवेक्षण:

  • उत्तम सटीकता के साथ सम्मानजनक AUC।
  • थ्रेशोल्ड अनुकूलन के बाद संतुलित सटीकता और पुनर्प्राप्ति।

डिसीजन ट्री

अवलोकन: डिसीजन ट्री फीचर मानों के आधार पर फीचर स्थान को क्षेत्रों में विभाजित करता है, प्रत्येक नोड पर निर्णय लेकर पूर्वानुमान करता है।

प्रदर्शन मीट्रिक:

  • सटीकता: 82.35%
  • AUC: 0.716
  • उत्कृष्ट थ्रेशोल्ड: 1.0

पर्यवेक्षण:

  • कम AUC वर्गों के बीच भेद करने में खराब प्रदर्शन को दर्शाता है।
  • 1.0 का उत्कृष्ट थ्रेशोल्ड मॉडल को बहुसंख्यक वर्ग की भविष्यवाणी की ओर झुकाव बताता है।

रैंडम फॉरेस्ट

अवलोकन: Random Forest एक एंसेंबल लर्निंग विधि है जो कई डिसीजन ट्री बनाती है और उच्च सटीकता और स्थिरता के लिए उनके परिणामों को एकत्रित करती है।

प्रदर्शन मीट्रिक:

  • सटीकता: 87.25%
  • AUC: 0.876
  • उत्कृष्ट थ्रेशोल्ड: 0.221

पर्यवेक्षण:

  • उच्च AUC और सटीकता मजबूत प्रदर्शन को दर्शाते हैं।
  • थ्रेशोल्ड अनुकूलन के साथ सकारात्मक वर्ग के लिए पुनर्प्राप्ति में सुधार।

एडा बूस्ट

अवलोकन: AdaBoost एक एंसेंबल तकनीक है जो कई कमजोर शिक्षार्थियों को एक मजबूत क्लासिफायर में जोड़ती है, जो पहले से गलत वर्गीकृत उदाहरणों पर ध्यान केंद्रित करती है।

प्रदर्शन मीट्रिक:

  • सटीकता: 87.25%
  • AUC: 0.881
  • उत्कृष्ट थ्रेशोल्ड: 0.491

पर्यवेक्षण:

  • अनुकूलन के बाद संतुलित सटीकता और पुनर्प्राप्ति।
  • सकारात्मक वर्ग के लिए सटीकता में थोड़ी वृद्धि।

XGBoost

अवलोकन: XGBoost एक शक्तिशाली ग्रेडिएंट बूस्टिंग फ्रेमवर्क है जो अपनी दक्षता और स्ट्रक्चर्ड/टेबलुलर डेटा में प्रदर्शन के लिए जाना जाता है।

प्रदर्शन मीट्रिक:

  • सटीकता: 87.15%
  • AUC: 0.879
  • उत्कृष्ट थ्रेशोल्ड: 0.186

पर्यवेक्षण:

  • उच्च AUC और सटीकता।
  • निचले थ्रेशोल्ड के साथ सकारात्मक वर्ग के लिए सटीकता में वृद्धि।

मॉडल्स का तुलनात्मक विश्लेषण

विभिन्न मीट्रिक के माध्यम से मॉडल्स का विश्लेषण उनके ताकत और सुधार के क्षेत्रों में अंतर्दृष्टि प्रदान करता है:

मॉडल सटीकता AUC उत्कृष्ट थ्रेशोल्ड Precision (Positive) Recall (Positive)
KNN 85.9% 0.799 0.333 0.76 0.41
लॉजिस्टिक रिग्रेशन 87.2% 0.884 0.132 0.86 0.43
गॉसियन NB 83.1% 0.884 0.132 0.86 0.43
SVM 87.65% 0.854 0.144 0.73 0.58
डिसीजन ट्री 82.35% 0.716 1.0 0.55 0.53
रैंडम फॉरेस्ट 87.25% 0.876 0.221 0.73 0.53
एडा बूस्ट 87.25% 0.881 0.491 0.84 0.46
XGBoost 87.15% 0.879 0.186 0.76 0.53

मुख्य निष्कर्ष:

  • लॉजिस्टिक रिग्रेशन और गॉसियन नाइवे बेयस सबसे उच्च AUC प्रदर्शित करते हैं, जो मजबूत भेदात्मक क्षमताओं को इंगित करता है।
  • डिसीजन ट्री कम AUC और झुके हुए थ्रेशोल्ड के साथ कम प्रदर्शन करते हैं।
  • एंसेंबल विधियाँ जैसे कि रैंडम फॉरेस्ट, एडा बूस्ट, और XGBoost थ्रेशोल्ड अनुकूलन के बाद संतुलित सटीकता और पुनर्प्राप्ति के साथ मजबूत प्रदर्शन दिखाती हैं।
  • SVM उच्च सटीकता और उचित AUC के बीच संतुलन बनाता है।

ROC की सीमाएं और वैकल्पिक विधियां

जबकि ROC और AUC मॉडल मूल्यांकन के लिए अमूल्य उपकरण हैं, उनके कुछ सीमाएं हैं, विशेषकर असंतुलित डेटासेट के संदर्भ में।

सीमाएं

  • भ्रामक AUC मान: असंतुलित डेटासेट में, उच्च AUC धोखा दे सकता है क्योंकि मॉडल मुख्य रूप से बहुसंख्यक वर्ग की भविष्यवाणी कर सकता है।
  • थ्रेशोल्ड असंवेदनशीलता: ROC कर्व सभी संभव थ्रेशोल्ड का मूल्यांकन करता है, जो वास्तविक दुनिया के अनुप्रयोगों के लिए व्यावहारिक नहीं हो सकता जहां विशिष्ट थ्रेशोल्ड की आवश्यकता होती है।

वैकल्पिक विधियां

  • Precision-Recall (PR) कर्व: वर्ग असंतुलन वाले परिदृश्यों में अधिक सूचनात्मक, सटीकता और पुनर्प्राप्ति के बीच के व्यापार-अप पर ध्यान केंद्रित करता है।
  • F1 स्कोर: सटीकता और पुनर्प्राप्ति का संतुलन, जो दोनों को ध्यान में रखते हुए एकल मीट्रिक प्रदान करता है।

निष्कर्ष

बाइनरी वर्गीकरण कार्यों में मॉडल प्रदर्शन का अनुकूलन करने के लिए ROC और AUC जैसे मूल्यांकन मीट्रिक की सूक्ष्म समझ की आवश्यकता होती है। Youden's J जैसी विधियों का उपयोग करके थ्रेशोल्ड का सावधानीपूर्वक चयन करके, और डेटासेट असंतुलन के प्रति जागरूक रहकर, प्रैक्टिशनर्स अपने मॉडलों की भविष्यवाणी सटीकता और विश्वसनीयता को महत्वपूर्ण रूप से बढ़ा सकते हैं। Weather Australia डेटासेट के साथ एक व्यावहारिक केस स्टडी पर आधारित यह मार्गदर्शिका व्यापक मॉडल मूल्यांकन और थ्रेशोल्ड अनुकूलन के महत्व को रेखांकित करती है, जो मजबूत मशीन लर्निंग समाधानों के विकास में महत्वपूर्ण है।


कीवर्ड: ROC कर्व, AUC, थ्रेशोल्ड अनुकूलन, बाइनरी वर्गीकरण, Youden की विधि, असंतुलित डेटासेट, मशीन लर्निंग मॉडल मूल्यांकन, लॉजिस्टिक रिग्रेशन, KNN, रैंडम फॉरेस्ट, एडा बूस्ट, XGBoost, सटीकता-पुनर्प्राप्ति कर्व।

Share your love