S13L01 – AdaBoost और XGBoost रिग्रेशन मॉडल

html

एडा बूस्ट और एक्सजी बूस्ट रिग्रेसर्स के लिए व्यापक मार्गदर्शिका: बीमा चार्ज भविष्यवाणियों को बेहतर बनाना

सामग्री तालिका

  1. एंसेम्बल तकनीकों का परिचय
  2. एडा बूस्ट को समझना
  3. एक्सजी बूस्ट का अन्वेषण
  4. डेटासेट अवलोकन
  5. डेटा पूर्वप्रसंस्करण
  6. एडा बूस्ट रिग्रेसर का निर्माण
  7. एक्सजी बूस्ट रिग्रेसर का निर्माण
  8. मॉडल तुलना और मूल्यांकन
  9. हाइपरपैरामीटर ट्यूनिंग और अनुकूलन
  10. निष्कर्ष

एंसेम्बल तकनीकों का परिचय

एंसेम्बल लर्निंग एक मशीन लर्निंग परिदृश्य है जहाँ कई मॉडल, जिन्हें अक्सर वीक लर्नर्स कहा जाता है, को एक साथ मिलाकर एक मजबूत भविष्यवाणी मॉडल बनाया जाता है। मुख्य लक्ष्य व्यक्तिगत मॉडलों की विविधता और सामूहिक बुद्धिमत्ता का लाभ उठाकर भविष्यवाणियों के समग्र प्रदर्शन और मजबूती को बढ़ाना है। एंसेम्बल तकनीकों को व्यापक रूप से बैगिंग, बूस्टिंग और स्टैकिंग में वर्गीकृत किया जाता है।

  • बैगिंग (बूटस्ट्रैप एग्रीगेटिंग): समानांतर में कई मॉडलों का निर्माण करता है और उनकी भविष्यवाणियों को निराकार करता है। रैंडम फॉरेस्ट इसका एक विशिष्ट उदाहरण है।
  • बूस्टिंग: मॉडल्स को क्रमिक रूप से बनाता है, जहाँ प्रत्येक नया मॉडल अपने पूर्ववर्ती के त्रुटियों को सुधारने की कोशिश करता है। एडा बूस्ट और एक्सजी बूस्ट इस श्रेणी में आते हैं।
  • स्टैकिंग: विभिन्न प्रकार के मॉडलों को मिलाता है और उनकी भविष्यवाणियों को एक मेटा-मॉडल द्वारा निराकार करता है।

इस मार्गदर्शिका में, हम बूस्टिंग तकनीकों पर केंद्रित हैं, विशेष रूप से एडा बूस्ट और एक्सजी बूस्ट, ताकि उनके अनुप्रयोग को रिग्रेशन कार्यों में समझा जा सके।

एडा बूस्ट को समझना

एडा बूस्ट, जिसका पूरा नाम एडैप्टिव बूस्टिंग है, योआव फ्रायेंड और रॉबर्ट स्कैपीयर द्वारा 1997 में प्रस्तुत किए गए पायनियर बूस्टिंग एल्गोरिदमों में से एक है। एडा बूस्ट कई कमजोर लर्नर्स, आमतौर पर निर्णय वृक्ष, को एक भारित योग में मिलाकर एक मजबूत भविष्यवाणी मॉडल बनाता है।

एडा बूस्ट कैसे काम करता है

  1. प्रारंभिककरण: सभी प्रशिक्षण नमूनों को समान भार असाइन करना।
  2. पुनरावृत्त प्रशिक्षण:
    • भारित डेटासेट पर एक कमजोर लर्नर को प्रशिक्षित करना।
    • प्रदर्शन का मूल्यांकन करना और भार समायोजित करना: गलत वर्गीकृत नमूने अगले पुनरावृत्ति में उनकी महत्ता को बढ़ाने के लिए उच्च भार प्राप्त करते हैं।
  3. निराकार: कमजोर लर्नर्स को उनकी सटीकता के अनुपात में भार असाइन करके अंतिम मॉडल में मिलाना।

एडा बूस्ट के लाभ

  • सुधरी हुई सटीकता: पिछले मॉडलों की गलतियों पर ध्यान केंद्रित करके, एडा बूस्ट अक्सर व्यक्तिगत मॉडलों की तुलना में अधिक सटीकता प्राप्त करता है।
  • लचीलापन: विभिन्न प्रकार के कमजोर लर्नर्स के साथ उपयोग किया जा सकता है।
  • ओवरफिटिंग का प्रतिरोध: सामान्यतः ओवरफिटिंग के प्रति प्रतिरोधी होता है, विशेष रूप से सीमित गहराई वाले वृक्षों का उपयोग करते समय।

एक्सजी बूस्ट का अन्वेषण

एक्सजी बूस्ट का पूरा नाम एक्सट्रीम ग्रेडिएंट बूस्टिंग है। टियानकी चेन द्वारा विकसित, एक्सजी बूस्ट एक अनुकूलित वितरण ग्रेडिएंट बूस्टिंग पुस्तकालय है जिसे अत्यधिक कुशल, लचीला और पोर्टेबल बनाने के लिए डिजाइन किया गया है। यह मशीन लर्निंग प्रतियोगिताओं और वास्तविक दुनिया के अनुप्रयोगों में इसकी उत्कृष्ट प्रदर्शन और स्केलेबिलिटी के कारण अत्यधिक लोकप्रियता प्राप्त कर चुका है।

एक्सजी बूस्ट की मुख्य विशेषताएं

  • नियमकरण: ओवरफिटिंग को रोकने के लिए L1 और L2 नियमकरण को शामिल करता है।
  • समानांतर प्रक्रिया: प्रशिक्षण प्रक्रिया को गति देने के लिए समानांतर कंप्यूटिंग का उपयोग करता है।
  • ट्री प्रूनिंग: वृक्ष संरचनाओं को अनुकूलित करने के लिए प्रूनिंग के साथ गहराई-प्रथम दृष्टिकोण अपनाता है।
  • गायब मानों का प्रबंधन: बिना इम्पुटेशन की आवश्यकता के गायब डेटा को स्वचालित रूप से संभालता है।
  • क्रॉस-वेलिडेशन: प्रशिक्षण के दौरान क्रॉस-वेलिडेशन के लिए अंतर्निहित समर्थन।

एक्सजी बूस्ट क्यों पसंद किया जाता है

विभिन्न डेटा प्रकारों को मजबूत तरीके से संभालने और जटिल पैटर्नों को पकड़ने की क्षमता के कारण, एक्सजी बूस्ट ने निरंतर कई भविष्यवाणि मॉडलिंग कार्यों, जिसमें वर्गीकरण और रिग्रेशन शामिल हैं, में अन्य एल्गोरिदमों को पीछे छोड़ दिया है।

डेटासेट अवलोकन

जिस डेटासेट पर विचार किया जा रहा है वह बीमा डेटासेट है जो Kaggle से प्राप्त किया गया है। इसमें व्यक्तियों और उनके बीमा चार्ज के बारे में जानकारी शामिल है, जिसे मॉडल भविष्यवाणी करने का लक्ष्य रखता है। नीचे डेटासेट की एक झलक दी गई है:

आयु लिंग BMI बच्चे धूम्रपान करने वाला क्षेत्र चार्जेज़
19 महिला 27.9 0 हाँ साउथवेस्ट 16884.92400
18 पुरुष 33.77 1 नहीं साउथईस्ट 1725.55230
28 पुरुष 33.0 3 नहीं साउथईस्ट 4449.46200
33 पुरुष 22.705 0 नहीं नॉर्थवेस्ट 21984.47061
32 पुरुष 28.88 0 नहीं नॉर्थवेस्ट 3866.85520

फीचर्स:

  • आयु: व्यक्ति की आयु।
  • लिंग: व्यक्ति का जेंडर।
  • BMI: बॉडी मास इंडेक्स।
  • बच्चे: स्वास्थ्य बीमा द्वारा कवर किए गए बच्चों की संख्या।
  • धूम्रपान करने वाला: धूम्रपान की स्थिति।
  • क्षेत्र: अमेरिका में आवासीय क्षेत्र।

लक्ष्य चर:

  • चार्जेज़: स्वास्थ्य बीमा द्वारा बिल किए गए व्यक्तिगत चिकित्सा खर्च।

डेटा पूर्वप्रसंस्करण

सटीक मशीन लर्निंग मॉडल बनाने के लिए प्रभावी डेटा पूर्वप्रसंस्करण महत्वपूर्ण है। निम्नलिखित चरण बीमा डेटासेट पर लागू पूर्वप्रसंस्करण चरणों को रेखांकित करते हैं।

1. लाइब्रेरीज़ इम्पोर्ट करना

2. डेटासेट लोड करना

3. लेबल एनकोडिंग

श्रेणीबद्ध चर जैसे 'लिंग' और 'धूम्रपान करने वाला' को मशीन लर्निंग एल्गोरिदम द्वारा संसाधित करने के लिए संख्यात्मक प्रारूपों में एनकोड किया जाता है।

एनकोडेड फीचर्स:

आयु लिंग BMI बच्चे धूम्रपान करने वाला क्षेत्र
19 0 27.9 0 1 साउथवेस्ट
18 1 33.77 1 0 साउथईस्ट
... ... ... ... ... ...

4. वन-हॉट एनकोडिंग

'क्षेत्र' फीचर, जो दो से अधिक श्रेणियों वाला श्रेणीबद्ध चर है, उसे वन-हॉट एनकोडिंग का उपयोग करके प्रत्येक क्षेत्र के लिए बाइनरी कॉलम बनाने के लिए परिवर्तित किया जाता है।

5. ट्रेन-टेस्ट स्प्लिट

डेटासेट को प्रशिक्षण और परीक्षण सेटों में विभाजित करने से यह सुनिश्चित होता है कि मॉडल का प्रदर्शन अनदेखे डेटा पर मूल्यांकित किया जाता है।

एडा बूस्ट रिग्रेसर का निर्माण

जबकि मुख्य ध्यान एक्सजी बूस्ट पर है, तुलनात्मक उद्देश्यों के लिए एडा बूस्ट के कार्यान्वयन को समझना आवश्यक है।

एडा बूस्ट का मूल्यांकन करना

प्रशिक्षण के बाद, मॉडल के प्रदर्शन का मूल्यांकन R² स्कोर का उपयोग करके किया जाता है।

आउटपुट:
एडा बूस्ट R² स्कोर: 0.81

R² स्कोर यह संकेत देता है कि एडा बूस्ट लक्ष्य चर में 81% परिवर्तन को समझाता है, जो एक सराहनीय प्रदर्शन है।

एक्सजी बूस्ट रिग्रेसर का निर्माण

एक्सजी बूस्ट पारंपरिक बूस्टिंग विधियों की तुलना में बेहतर प्रदर्शन और लचीलापन प्रदान करता है। नीचे एक्सजी बूस्ट रिग्रेसर के निर्माण और मूल्यांकन के लिए चरण-दर-चरण मार्गदर्शिका दी गई है।

1. स्थापना और आयात

सबसे पहले, सुनिश्चित करें कि एक्सजी बूस्ट पुस्तकालय स्थापित है।

2. मॉडल प्रारंभिककरण

विशिष्ट हाइपरपैरामीटर के साथ एक्सजी बूस्ट रिग्रेसर को परिभाषित करें।

3. मॉडल को प्रशिक्षित करना

मॉडल को प्रशिक्षण डेटा पर फिट करें।

4. भविष्यवाणियाँ करना

परीक्षण सेट पर बीमा चार्ज की भविष्यवाणी करें।

5. एक्सजी बूस्ट का मूल्यांकन करना

मॉडल के प्रदर्शन का मूल्यांकन R² स्कोर का उपयोग करके किया जाता है।

आउटपुट:
एक्सजी बूस्ट R² स्कोर: 0.88

0.88 का R² स्कोर यह दर्शाता है कि एक्सजी बूस्ट लक्ष्य चर में 88% परिवर्तन को समझाता है, जो एडा बूस्ट रिग्रेसर से बेहतर है।

मॉडल तुलना और मूल्यांकन

एडा बूस्ट और एक्सजी बूस्ट की तुलना करने से उनके प्रदर्शन गतिशीलता में महत्वपूर्ण अंतर्दृष्टि प्राप्त होती है।

मॉडल R² स्कोर
एडा बूस्ट 0.81
एक्सजी बूस्ट 0.88

एक्सजी बूस्ट ने एडा बूस्ट की तुलना में काफी बड़ा अंतर दिखाते हुए बेहतर प्रदर्शन किया है, जिससे यह डेटा में जटिल पैटर्न और इंटरैक्शन को पकड़ने की इसकी श्रेष्ठ क्षमता को प्रदर्शित करता है। इस प्रदर्शन वृद्धि को एक्सजी बूस्ट की उन्नत नियमकरण तकनीकों और अनुकूलित ग्रेडिएंट बूस्टिंग ढांचे के कारण माना जाता है।

हाइपरपैरामीटर ट्यूनिंग और अनुकूलन

मशीन लर्निंग मॉडलों के प्रदर्शन को अधिकतम करने के लिए हाइपरपैरामीटर का अनुकूलन महत्वपूर्ण है। दो व्यापक रूप से उपयोग की जाने वाली तकनीकें ग्रिड सर्च CV और क्रॉस-वेलिडेशन हैं।

ग्रिड सर्च क्रॉस-वेलिडेशन (GridSearchCV)

GridSearchCV प्रणालीबद्ध रूप से पैरामीटर ट्यून के कई संयोजनों के माध्यम से कार्य करता है, प्रदर्शन को निर्धारित करने के लिए जैसे-जैसे यह जाता है क्रॉस-वेलिडेट करता है।

क्रॉस-वेलिडेशन

क्रॉस-वेलिडेशन यह सुनिश्चित करता है कि मॉडल का मूल्यांकन मजबूत हो और किसी विशेष ट्रेन-टेस्ट विभाजन पर निर्भर न हो।

इन हाइपरपैरामीटर का अनुकूलन मॉडल के प्रदर्शन को और भी बेहतर कर सकता है, संभवतः R² स्कोर को 0.88 से अधिक बढ़ा सकता है।

निष्कर्ष

एंसेम्बल तकनीकें जैसे एडा बूस्ट और एक्सजी बूस्ट मशीन लर्निंग मॉडलों की भविष्यवाणी क्षमताओं को बेहतर बनाने में महत्वपूर्ण भूमिकाएं निभाती हैं। इस मार्गदर्शिका के माध्यम से, हमने इन रिग्रेसर्स के बीमा डेटासेट पर कार्यान्वयन और मूल्यांकन का प्रदर्शन किया है। इस संदर्भ में, एक्सजी बूस्ट एक श्रेष्ठ मॉडल के रूप में उभरा है, जिसने एडा बूस्ट के 0.81 के मुकाबले 0.88 का R² स्कोर प्राप्त किया है।

मुख्य निष्कर्ष:

  • एडा बूस्ट मॉडल के प्रदर्शन को बढ़ाने के लिए गलत वर्गीकृत उदाहरणों पर ध्यान केंद्रित करके प्रभावी है।
  • एक्सजी बूस्ट उन्नत नियमकरण, समानांतर प्रक्रिया, और अनुकूलित ग्रेडिएंट बूस्टिंग तकनीकों के माध्यम से बेहतर प्रदर्शन प्रदान करता है।
  • लेबल एनकोडिंग और वन-हॉट एनकोडिंग सहित उचित डेटा पूर्वप्रसंस्करण मॉडल की सटीकता के लिए आवश्यक है।
  • GridSearchCV और क्रॉस-वेलिडेशन के माध्यम से हाइपरपैरामीटर ट्यूनिंग मॉडल के प्रदर्शन को महत्वपूर्ण रूप से सुधार सकती है।

जैसे-जैसे मशीन लर्निंग बढ़ती जा रही है, डेटा वैज्ञानिकों और विश्लेषकों के लिए एडा बूस्ट और एक्सजी बूस्ट जैसी शक्तिशाली एंसेम्बल विधियों को समझना और उनका लाभ उठाना महत्वपूर्ण होगा ताकि मजबूत भविष्यवाणी मॉडल बनाए जा सकें।

टैग्स

  • एंसेम्बल लर्निंग
  • एडा बूस्ट
  • एक्सजी बूस्ट
  • मशीन लर्निंग
  • रिग्रेशन विश्लेषण
  • बीमा भविष्यवाणी
  • डेटा पूर्वप्रसंस्करण
  • हाइपरपैरामीटर ट्यूनिंग
  • पाइथन
  • स्किकिट-लर्न

एसईओ कीवर्ड्स

  • एडा बूस्ट रिग्रेसर
  • एक्सजी बूस्ट रिग्रेसर
  • एंसेम्बल तकनीकें
  • मशीन लर्निंग मॉडल
  • बीमा चार्ज भविष्यवाणी
  • R² स्कोर
  • डेटा पूर्वप्रसंस्करण
  • हाइपरपैरामीटर ट्यूनिंग
  • GridSearchCV
  • क्रॉस-वेलिडेशन
  • पाइथन मशीन लर्निंग
  • प्रेडिक्टिव मॉडलिंग
  • ग्रेडिएंट बूस्टिंग
  • लेबल एनकोडिंग
  • वन-हॉट एनकोडिंग

इमेज सुझाव

  1. एडा बूस्ट एल्गोरिदम का फ्लोचार्ट: कैसे एडा बूस्ट पुनरावृत्त रूप से गलत वर्गीकृत नमूनों पर ध्यान केंद्रित करता है, इसका दृश्य प्रतिनिधित्व।
  2. एक्सजी बूस्ट आर्किटेक्चर डायग्राम: एक्सजी बूस्ट मॉडल के घटकों और प्रवाह को दर्शाते हुए।
  3. डेटासेट स्नैपशॉट: बीमा डेटासेट फीचर्स का एक तालिका या हीटमैप।
  4. मॉडल प्रदर्शन तुलना: एडा बूस्ट और एक्सजी बूस्ट के R² स्कोर की तुलना करने वाला बार चार्ट।
  5. हाइपरपैरामीटर ट्यूनिंग प्रक्रिया: GridSearchCV और क्रॉस-वेलिडेशन को दर्शाता हुआ डायग्राम।
  6. एंसेम्बल मॉडलों में निर्णय वृक्ष: एडा बूस्ट और एक्सजी बूस्ट में कई वृक्षों के साथ काम करने का दृश्य।

अतिरिक्त संसाधन

इस मार्गदर्शिका में उल्लिखित अंतर्दृष्टि और कार्यप्रणालियों का लाभ उठाकर, आप बीमा चार्ज जैसी जटिल भविष्यवाणी मॉडलिंग कार्यों को हल करने के लिए एडा बूस्ट और एक्सजी बूस्ट रिग्रेसर्स को प्रभावी रूप से लागू और अनुकूलित कर सकते हैं।

Share your love