html
एडा बूस्ट और एक्सजी बूस्ट रिग्रेसर्स के लिए व्यापक मार्गदर्शिका: बीमा चार्ज भविष्यवाणियों को बेहतर बनाना
सामग्री तालिका
- एंसेम्बल तकनीकों का परिचय
- एडा बूस्ट को समझना
- एक्सजी बूस्ट का अन्वेषण
- डेटासेट अवलोकन
- डेटा पूर्वप्रसंस्करण
- एडा बूस्ट रिग्रेसर का निर्माण
- एक्सजी बूस्ट रिग्रेसर का निर्माण
- मॉडल तुलना और मूल्यांकन
- हाइपरपैरामीटर ट्यूनिंग और अनुकूलन
- निष्कर्ष
एंसेम्बल तकनीकों का परिचय
एंसेम्बल लर्निंग एक मशीन लर्निंग परिदृश्य है जहाँ कई मॉडल, जिन्हें अक्सर वीक लर्नर्स कहा जाता है, को एक साथ मिलाकर एक मजबूत भविष्यवाणी मॉडल बनाया जाता है। मुख्य लक्ष्य व्यक्तिगत मॉडलों की विविधता और सामूहिक बुद्धिमत्ता का लाभ उठाकर भविष्यवाणियों के समग्र प्रदर्शन और मजबूती को बढ़ाना है। एंसेम्बल तकनीकों को व्यापक रूप से बैगिंग, बूस्टिंग और स्टैकिंग में वर्गीकृत किया जाता है।
- बैगिंग (बूटस्ट्रैप एग्रीगेटिंग): समानांतर में कई मॉडलों का निर्माण करता है और उनकी भविष्यवाणियों को निराकार करता है। रैंडम फॉरेस्ट इसका एक विशिष्ट उदाहरण है।
- बूस्टिंग: मॉडल्स को क्रमिक रूप से बनाता है, जहाँ प्रत्येक नया मॉडल अपने पूर्ववर्ती के त्रुटियों को सुधारने की कोशिश करता है। एडा बूस्ट और एक्सजी बूस्ट इस श्रेणी में आते हैं।
- स्टैकिंग: विभिन्न प्रकार के मॉडलों को मिलाता है और उनकी भविष्यवाणियों को एक मेटा-मॉडल द्वारा निराकार करता है।
इस मार्गदर्शिका में, हम बूस्टिंग तकनीकों पर केंद्रित हैं, विशेष रूप से एडा बूस्ट और एक्सजी बूस्ट, ताकि उनके अनुप्रयोग को रिग्रेशन कार्यों में समझा जा सके।
एडा बूस्ट को समझना
एडा बूस्ट, जिसका पूरा नाम एडैप्टिव बूस्टिंग है, योआव फ्रायेंड और रॉबर्ट स्कैपीयर द्वारा 1997 में प्रस्तुत किए गए पायनियर बूस्टिंग एल्गोरिदमों में से एक है। एडा बूस्ट कई कमजोर लर्नर्स, आमतौर पर निर्णय वृक्ष, को एक भारित योग में मिलाकर एक मजबूत भविष्यवाणी मॉडल बनाता है।
एडा बूस्ट कैसे काम करता है
- प्रारंभिककरण: सभी प्रशिक्षण नमूनों को समान भार असाइन करना।
- पुनरावृत्त प्रशिक्षण:
- भारित डेटासेट पर एक कमजोर लर्नर को प्रशिक्षित करना।
- प्रदर्शन का मूल्यांकन करना और भार समायोजित करना: गलत वर्गीकृत नमूने अगले पुनरावृत्ति में उनकी महत्ता को बढ़ाने के लिए उच्च भार प्राप्त करते हैं।
- निराकार: कमजोर लर्नर्स को उनकी सटीकता के अनुपात में भार असाइन करके अंतिम मॉडल में मिलाना।
एडा बूस्ट के लाभ
- सुधरी हुई सटीकता: पिछले मॉडलों की गलतियों पर ध्यान केंद्रित करके, एडा बूस्ट अक्सर व्यक्तिगत मॉडलों की तुलना में अधिक सटीकता प्राप्त करता है।
- लचीलापन: विभिन्न प्रकार के कमजोर लर्नर्स के साथ उपयोग किया जा सकता है।
- ओवरफिटिंग का प्रतिरोध: सामान्यतः ओवरफिटिंग के प्रति प्रतिरोधी होता है, विशेष रूप से सीमित गहराई वाले वृक्षों का उपयोग करते समय।
एक्सजी बूस्ट का अन्वेषण
एक्सजी बूस्ट का पूरा नाम एक्सट्रीम ग्रेडिएंट बूस्टिंग है। टियानकी चेन द्वारा विकसित, एक्सजी बूस्ट एक अनुकूलित वितरण ग्रेडिएंट बूस्टिंग पुस्तकालय है जिसे अत्यधिक कुशल, लचीला और पोर्टेबल बनाने के लिए डिजाइन किया गया है। यह मशीन लर्निंग प्रतियोगिताओं और वास्तविक दुनिया के अनुप्रयोगों में इसकी उत्कृष्ट प्रदर्शन और स्केलेबिलिटी के कारण अत्यधिक लोकप्रियता प्राप्त कर चुका है।
एक्सजी बूस्ट की मुख्य विशेषताएं
- नियमकरण: ओवरफिटिंग को रोकने के लिए L1 और L2 नियमकरण को शामिल करता है।
- समानांतर प्रक्रिया: प्रशिक्षण प्रक्रिया को गति देने के लिए समानांतर कंप्यूटिंग का उपयोग करता है।
- ट्री प्रूनिंग: वृक्ष संरचनाओं को अनुकूलित करने के लिए प्रूनिंग के साथ गहराई-प्रथम दृष्टिकोण अपनाता है।
- गायब मानों का प्रबंधन: बिना इम्पुटेशन की आवश्यकता के गायब डेटा को स्वचालित रूप से संभालता है।
- क्रॉस-वेलिडेशन: प्रशिक्षण के दौरान क्रॉस-वेलिडेशन के लिए अंतर्निहित समर्थन।
एक्सजी बूस्ट क्यों पसंद किया जाता है
विभिन्न डेटा प्रकारों को मजबूत तरीके से संभालने और जटिल पैटर्नों को पकड़ने की क्षमता के कारण, एक्सजी बूस्ट ने निरंतर कई भविष्यवाणि मॉडलिंग कार्यों, जिसमें वर्गीकरण और रिग्रेशन शामिल हैं, में अन्य एल्गोरिदमों को पीछे छोड़ दिया है।
डेटासेट अवलोकन
जिस डेटासेट पर विचार किया जा रहा है वह बीमा डेटासेट है जो Kaggle से प्राप्त किया गया है। इसमें व्यक्तियों और उनके बीमा चार्ज के बारे में जानकारी शामिल है, जिसे मॉडल भविष्यवाणी करने का लक्ष्य रखता है। नीचे डेटासेट की एक झलक दी गई है:
आयु
लिंग
BMI
बच्चे
धूम्रपान करने वाला
क्षेत्र
चार्जेज़
19
महिला
27.9
0
हाँ
साउथवेस्ट
16884.92400
18
पुरुष
33.77
1
नहीं
साउथईस्ट
1725.55230
28
पुरुष
33.0
3
नहीं
साउथईस्ट
4449.46200
33
पुरुष
22.705
0
नहीं
नॉर्थवेस्ट
21984.47061
32
पुरुष
28.88
0
नहीं
नॉर्थवेस्ट
3866.85520
फीचर्स:
- आयु: व्यक्ति की आयु।
- लिंग: व्यक्ति का जेंडर।
- BMI: बॉडी मास इंडेक्स।
- बच्चे: स्वास्थ्य बीमा द्वारा कवर किए गए बच्चों की संख्या।
- धूम्रपान करने वाला: धूम्रपान की स्थिति।
- क्षेत्र: अमेरिका में आवासीय क्षेत्र।
लक्ष्य चर:
- चार्जेज़: स्वास्थ्य बीमा द्वारा बिल किए गए व्यक्तिगत चिकित्सा खर्च।
डेटा पूर्वप्रसंस्करण
सटीक मशीन लर्निंग मॉडल बनाने के लिए प्रभावी डेटा पूर्वप्रसंस्करण महत्वपूर्ण है। निम्नलिखित चरण बीमा डेटासेट पर लागू पूर्वप्रसंस्करण चरणों को रेखांकित करते हैं।
1. लाइब्रेरीज़ इम्पोर्ट करना
12345
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snssns.set()
2. डेटासेट लोड करना
1234
data = pd.read_csv('S07_datasets_13720_18513_insurance.csv')X = data.iloc[:, :-1]Y = data.iloc[:, -1]data.head()
3. लेबल एनकोडिंग
श्रेणीबद्ध चर जैसे 'लिंग' और 'धूम्रपान करने वाला' को मशीन लर्निंग एल्गोरिदम द्वारा संसाधित करने के लिए संख्यात्मक प्रारूपों में एनकोड किया जाता है।
1234
from sklearn import preprocessingle = preprocessing.LabelEncoder()X['sex'] = le.fit_transform(X['sex'])X['smoker'] = le.fit_transform(X['smoker'])
एनकोडेड फीचर्स:
आयु
लिंग
BMI
बच्चे
धूम्रपान करने वाला
क्षेत्र
19
0
27.9
0
1
साउथवेस्ट
18
1
33.77
1
0
साउथईस्ट
...
...
...
...
...
...
4. वन-हॉट एनकोडिंग
'क्षेत्र' फीचर, जो दो से अधिक श्रेणियों वाला श्रेणीबद्ध चर है, उसे वन-हॉट एनकोडिंग का उपयोग करके प्रत्येक क्षेत्र के लिए बाइनरी कॉलम बनाने के लिए परिवर्तित किया जाता है।
12345
from sklearn.preprocessing import OneHotEncoderfrom sklearn.compose import ColumnTransformer columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), [5])], remainder='passthrough')X = columnTransformer.fit_transform(X)
5. ट्रेन-टेस्ट स्प्लिट
डेटासेट को प्रशिक्षण और परीक्षण सेटों में विभाजित करने से यह सुनिश्चित होता है कि मॉडल का प्रदर्शन अनदेखे डेटा पर मूल्यांकित किया जाता है।
123
from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)
एडा बूस्ट रिग्रेसर का निर्माण
जबकि मुख्य ध्यान एक्सजी बूस्ट पर है, तुलनात्मक उद्देश्यों के लिए एडा बूस्ट के कार्यान्वयन को समझना आवश्यक है।
1234
from sklearn.ensemble import AdaBoostRegressor model = AdaBoostRegressor(random_state=0, n_estimators=100)model.fit(X_train, y_train)
एडा बूस्ट का मूल्यांकन करना
प्रशिक्षण के बाद, मॉडल के प्रदर्शन का मूल्यांकन R² स्कोर का उपयोग करके किया जाता है।
12345
from sklearn.metrics import r2_score y_pred = model.predict(X_test)r2 = r2_score(y_test, y_pred)print(f"AdaBoost R² Score: {r2}")
आउटपुट:
एडा बूस्ट R² स्कोर: 0.81
R² स्कोर यह संकेत देता है कि एडा बूस्ट लक्ष्य चर में 81% परिवर्तन को समझाता है, जो एक सराहनीय प्रदर्शन है।
एक्सजी बूस्ट रिग्रेसर का निर्माण
एक्सजी बूस्ट पारंपरिक बूस्टिंग विधियों की तुलना में बेहतर प्रदर्शन और लचीलापन प्रदान करता है। नीचे एक्सजी बूस्ट रिग्रेसर के निर्माण और मूल्यांकन के लिए चरण-दर-चरण मार्गदर्शिका दी गई है।
1. स्थापना और आयात
सबसे पहले, सुनिश्चित करें कि एक्सजी बूस्ट पुस्तकालय स्थापित है।
12345
# एक्सजी बूस्ट स्थापित करें!pip install xgboost # एक्सजी बूस्ट आयात करेंimport xgboost as xgb
2. मॉडल प्रारंभिककरण
विशिष्ट हाइपरपैरामीटर के साथ एक्सजी बूस्ट रिग्रेसर को परिभाषित करें।
1234567
model = xgb.XGBRegressor( n_estimators=100, reg_lambda=1, gamma=0, max_depth=3, learning_rate=0.05)
3. मॉडल को प्रशिक्षित करना
मॉडल को प्रशिक्षण डेटा पर फिट करें।
1
model.fit(X_train, y_train)
4. भविष्यवाणियाँ करना
परीक्षण सेट पर बीमा चार्ज की भविष्यवाणी करें।
1
y_pred = model.predict(X_test)
5. एक्सजी बूस्ट का मूल्यांकन करना
मॉडल के प्रदर्शन का मूल्यांकन R² स्कोर का उपयोग करके किया जाता है।
1234
from sklearn.metrics import r2_score r2 = r2_score(y_test, y_pred)print(f"XGBoost R² Score: {r2}")
आउटपुट:
एक्सजी बूस्ट R² स्कोर: 0.88
0.88 का R² स्कोर यह दर्शाता है कि एक्सजी बूस्ट लक्ष्य चर में 88% परिवर्तन को समझाता है, जो एडा बूस्ट रिग्रेसर से बेहतर है।
मॉडल तुलना और मूल्यांकन
एडा बूस्ट और एक्सजी बूस्ट की तुलना करने से उनके प्रदर्शन गतिशीलता में महत्वपूर्ण अंतर्दृष्टि प्राप्त होती है।
मॉडल
R² स्कोर
एडा बूस्ट
0.81
एक्सजी बूस्ट
0.88
एक्सजी बूस्ट ने एडा बूस्ट की तुलना में काफी बड़ा अंतर दिखाते हुए बेहतर प्रदर्शन किया है, जिससे यह डेटा में जटिल पैटर्न और इंटरैक्शन को पकड़ने की इसकी श्रेष्ठ क्षमता को प्रदर्शित करता है। इस प्रदर्शन वृद्धि को एक्सजी बूस्ट की उन्नत नियमकरण तकनीकों और अनुकूलित ग्रेडिएंट बूस्टिंग ढांचे के कारण माना जाता है।
हाइपरपैरामीटर ट्यूनिंग और अनुकूलन
मशीन लर्निंग मॉडलों के प्रदर्शन को अधिकतम करने के लिए हाइपरपैरामीटर का अनुकूलन महत्वपूर्ण है। दो व्यापक रूप से उपयोग की जाने वाली तकनीकें ग्रिड सर्च CV और क्रॉस-वेलिडेशन हैं।
ग्रिड सर्च क्रॉस-वेलिडेशन (GridSearchCV)
GridSearchCV प्रणालीबद्ध रूप से पैरामीटर ट्यून के कई संयोजनों के माध्यम से कार्य करता है, प्रदर्शन को निर्धारित करने के लिए जैसे-जैसे यह जाता है क्रॉस-वेलिडेट करता है।
12345678910111213141516171819
from sklearn.model_selection import GridSearchCV # पैरामीटर ग्रिड परिभाषित करेंparam_grid = { 'learning_rate': [0.01, 0.05, 0.1], 'max_depth': [3, 5, 7], 'n_estimators': [100, 200, 300]} # GridSearchCV को प्रारंभिक करेंgrid_search = GridSearchCV(estimator=model, param_grid=param_grid, scoring='r2', cv=5, n_jobs=-1) # GridSearchCV को फिट करेंgrid_search.fit(X_train, y_train) # सर्वश्रेष्ठ पैरामीटरbest_params = grid_search.best_params_print(f"Best Parameters: {best_params}")
क्रॉस-वेलिडेशन
क्रॉस-वेलिडेशन यह सुनिश्चित करता है कि मॉडल का मूल्यांकन मजबूत हो और किसी विशेष ट्रेन-टेस्ट विभाजन पर निर्भर न हो।
12345678
from sklearn.model_selection import cross_val_score # क्रॉस-वेलिडेशन करेंcv_scores = cross_val_score(model, X, Y, cv=5, scoring='r2') # औसत CV स्कोरaverage_cv_score = np.mean(cv_scores)print(f"Average Cross-Validation R² Score: {average_cv_score}")
इन हाइपरपैरामीटर का अनुकूलन मॉडल के प्रदर्शन को और भी बेहतर कर सकता है, संभवतः R² स्कोर को 0.88 से अधिक बढ़ा सकता है।
निष्कर्ष
एंसेम्बल तकनीकें जैसे एडा बूस्ट और एक्सजी बूस्ट मशीन लर्निंग मॉडलों की भविष्यवाणी क्षमताओं को बेहतर बनाने में महत्वपूर्ण भूमिकाएं निभाती हैं। इस मार्गदर्शिका के माध्यम से, हमने इन रिग्रेसर्स के बीमा डेटासेट पर कार्यान्वयन और मूल्यांकन का प्रदर्शन किया है। इस संदर्भ में, एक्सजी बूस्ट एक श्रेष्ठ मॉडल के रूप में उभरा है, जिसने एडा बूस्ट के 0.81 के मुकाबले 0.88 का R² स्कोर प्राप्त किया है।
मुख्य निष्कर्ष:
- एडा बूस्ट मॉडल के प्रदर्शन को बढ़ाने के लिए गलत वर्गीकृत उदाहरणों पर ध्यान केंद्रित करके प्रभावी है।
- एक्सजी बूस्ट उन्नत नियमकरण, समानांतर प्रक्रिया, और अनुकूलित ग्रेडिएंट बूस्टिंग तकनीकों के माध्यम से बेहतर प्रदर्शन प्रदान करता है।
- लेबल एनकोडिंग और वन-हॉट एनकोडिंग सहित उचित डेटा पूर्वप्रसंस्करण मॉडल की सटीकता के लिए आवश्यक है।
- GridSearchCV और क्रॉस-वेलिडेशन के माध्यम से हाइपरपैरामीटर ट्यूनिंग मॉडल के प्रदर्शन को महत्वपूर्ण रूप से सुधार सकती है।
जैसे-जैसे मशीन लर्निंग बढ़ती जा रही है, डेटा वैज्ञानिकों और विश्लेषकों के लिए एडा बूस्ट और एक्सजी बूस्ट जैसी शक्तिशाली एंसेम्बल विधियों को समझना और उनका लाभ उठाना महत्वपूर्ण होगा ताकि मजबूत भविष्यवाणी मॉडल बनाए जा सकें।
टैग्स
- एंसेम्बल लर्निंग
- एडा बूस्ट
- एक्सजी बूस्ट
- मशीन लर्निंग
- रिग्रेशन विश्लेषण
- बीमा भविष्यवाणी
- डेटा पूर्वप्रसंस्करण
- हाइपरपैरामीटर ट्यूनिंग
- पाइथन
- स्किकिट-लर्न
एसईओ कीवर्ड्स
- एडा बूस्ट रिग्रेसर
- एक्सजी बूस्ट रिग्रेसर
- एंसेम्बल तकनीकें
- मशीन लर्निंग मॉडल
- बीमा चार्ज भविष्यवाणी
- R² स्कोर
- डेटा पूर्वप्रसंस्करण
- हाइपरपैरामीटर ट्यूनिंग
- GridSearchCV
- क्रॉस-वेलिडेशन
- पाइथन मशीन लर्निंग
- प्रेडिक्टिव मॉडलिंग
- ग्रेडिएंट बूस्टिंग
- लेबल एनकोडिंग
- वन-हॉट एनकोडिंग
इमेज सुझाव
- एडा बूस्ट एल्गोरिदम का फ्लोचार्ट: कैसे एडा बूस्ट पुनरावृत्त रूप से गलत वर्गीकृत नमूनों पर ध्यान केंद्रित करता है, इसका दृश्य प्रतिनिधित्व।
- एक्सजी बूस्ट आर्किटेक्चर डायग्राम: एक्सजी बूस्ट मॉडल के घटकों और प्रवाह को दर्शाते हुए।
- डेटासेट स्नैपशॉट: बीमा डेटासेट फीचर्स का एक तालिका या हीटमैप।
- मॉडल प्रदर्शन तुलना: एडा बूस्ट और एक्सजी बूस्ट के R² स्कोर की तुलना करने वाला बार चार्ट।
- हाइपरपैरामीटर ट्यूनिंग प्रक्रिया: GridSearchCV और क्रॉस-वेलिडेशन को दर्शाता हुआ डायग्राम।
- एंसेम्बल मॉडलों में निर्णय वृक्ष: एडा बूस्ट और एक्सजी बूस्ट में कई वृक्षों के साथ काम करने का दृश्य।
अतिरिक्त संसाधन
- Kaggle बीमा डेटासेट
- स्किकिट-लर्न दस्तावेज़ीकरण
- एक्सजी बूस्ट आधिकारिक दस्तावेज़ीकरण
- एंसेम्बल लर्निंग को समझना
- GridSearchCV के साथ हाइपरपैरामीटर ट्यूनिंग
- मशीन लर्निंग के लिए क्रॉस-वेलिडेशन तकनीकें
इस मार्गदर्शिका में उल्लिखित अंतर्दृष्टि और कार्यप्रणालियों का लाभ उठाकर, आप बीमा चार्ज जैसी जटिल भविष्यवाणी मॉडलिंग कार्यों को हल करने के लिए एडा बूस्ट और एक्सजी बूस्ट रिग्रेसर्स को प्रभावी रूप से लागू और अनुकूलित कर सकते हैं।