S25L01 – AdaBoost और XGBoost क्लासिफायर

html
AdaBoost और XGBoost क्लासिफायर में महारत हासिल करना: एक व्यापक मार्गदर्शिका

मशीन लर्निंग के तेजी से विकसित हो रहे परिदृश्य में, AdaBoost और XGBoost जैसे एन्सेम्बल विधियाँ वर्गीकरण कार्यों के लिए शक्तिशाली उपकरण के रूप में उभरी हैं। यह लेख इन एल्गोरिदम को समझने, उनके कार्यान्वयन और अन्य मॉडलों की तुलना में इनके स्थान को गहराई से जानने में मदद करता है। चाहे आप एक अनुभवी डेटा वैज्ञानिक हों या एक नवोदित उत्साही, यह मार्गदर्शिका आपके मशीन लर्निंग प्रोजेक्ट्स को बढ़ाने के लिए मूल्यवान अंतर्दृष्टि और व्यावहारिक कोड उदाहरण प्रदान करती है।

विषय सूची


    AdaBoost और XGBoost का परिचय
    AdaBoost को समझना
    XGBoost को समझना
    AdaBoost और XGBoost की तुलना
    AdaBoost और XGBoost के लिए डेटा पूर्वप्रसंस्करण
        
            गुम डेटा को संभालना
            श्रेणात्मक विशेषताओं को एन्कोड करना
            विशेषता चयन
        
    
    Python में AdaBoost और XGBoost को लागू करना
    मॉडल मूल्यांकन और विज़ुअलाइज़ेशन
    निष्कर्ष
    अतिरिक्त संसाधन


AdaBoost और XGBoost का परिचय

AdaBoost (Adaptive Boosting) और XGBoost (Extreme Gradient Boosting) एन्सेम्बल लर्निंग विधियाँ हैं जो कई कमजोर शिक्षार्थियों को जोड़कर एक मजबूत भविष्यवाणी मॉडल बनाती हैं। ये एल्गोरिदम विभिन्न मशीन लर्निंग प्रतियोगिताओं और वास्तविक दुनिया के अनुप्रयोगों में उच्च प्रदर्शन के कारण अत्यधिक लोकप्रिय हो गए हैं।


    AdaBoost गलत रूप से वर्गीकृत उदाहरणों के वजन को समायोजित करने पर ध्यान केंद्रित करता है, इस प्रकार मॉडल को पुनरावृत्त रूप से सुधारता है।
    XGBoost नियमितीकरण को शामिल करके ग्रेडिएंट बूस्टिंग को बढ़ाता है, गुम मानों को कुशलतापूर्वक संभालता है, और समानांतर प्रसंस्करण क्षमताएँ प्रदान करता है।


AdaBoost को समझना

AdaBoost फ्रॉयल्ड और शापिअरे द्वारा 1997 में विकसित की गई पहली बूस्टिंग एल्गोरिदम में से एक है। यह निम्नलिखित तरीके से काम करता है:


    प्रारंभिककरण: सभी प्रशिक्षण नमूनों को समान वजन देता है।
    पुनरावृत्त प्रशिक्षण: भारित डेटासेट पर एक कमजोर शिक्षार्थी (जैसे, निर्णय वृक्ष) को प्रशिक्षित करता है।
    त्रुटि गणना: प्रदर्शन का मूल्यांकन करता है और गलत वर्गीकृत नमूनों के वजन को बढ़ाता है।
    अंतिम मॉडल: अपनी सटीकता के भारित होते हुए सभी कमजोर शिक्षार्थियों को जोड़कर एक मजबूत क्लासिफायर बनाता है।


 AdaBoost की मुख्य विशेषताएँ


    बूस्टिंग क्षमता: कमजोर शिक्षार्थियों को एक मजबूत एन्सेम्बल मॉडल में परिवर्तित करता है।
    कठिन उदाहरणों पर ध्यान केंद्रित: उनके वजन को अपडेट करके मुश्किल से वर्गीकृत होने वाले उदाहरणों पर जोर देता है।
    ओवरफिटिंग के प्रति प्रतिरोध: सामान्यतः सही हाइपरपैरामीटर ट्यूनिंग के साथ ओवरफिटिंग के खिलाफ मजबूत होता है।


XGBoost को समझना

XGBoost, तियानकि चेन द्वारा पेश किया गया, एक अनुकूलित वितरित ग्रेडिएंट बूस्टिंग लाइब्रेरी है जिसे अत्यधिक कुशल, लचीला और पोर्टेबल बनाने के लिए डिज़ाइन किया गया है। यह अपने उन्नत फीचर्स के कारण कई अन्य एल्गोरिदम की तुलना में श्रेष्ठ प्रदर्शन करता है:


    नियमितीकरण: हानि फ़ंक्शन में पेनल्टी टर्म जोड़कर ओवरफिटिंग को रोकता है।
    समानांतर प्रसंस्करण: कई CPU कोर का उपयोग करके प्रशिक्षण में तेजी लाता है।
    गुम डेटा को संभालना: गुम मानों को संभालने के लिए सर्वोत्तम दिशा को स्वचालित रूप से सीखता है।
    ट्री प्रूनिंग: विभाजनों को बनाने के लिए गहराई-प्रथम दृष्टिकोण का उपयोग करता है, जिससे जटिलता कम होती है।


 XGBoost की मुख्य विशेषताएँ


    स्केलेबिलिटी: बड़े पैमाने पर डेटासेट के लिए उपयुक्त।
    लचीलापन: विभिन्न उद्देश्य फ़ंक्शनों का समर्थन करता है, जिसमें प्रतिगमन, वर्गीकरण और रैंकिंग शामिल हैं।
    क्षमता: गति और प्रदर्शन के लिए अनुकूलित, जिससे यह मशीन लर्निंग प्रतियोगिताओं में एक पसंदीदा बन गया है।


AdaBoost और XGBoost की तुलना

जबकि दोनों AdaBoost और XGBoost बूस्टिंग एल्गोरिदम हैं, उनके बीच स्पष्ट अंतर हैं:


    
        विशेषता
        AdaBoost
        XGBoost
    
    
        प्राथमिक फोकस
        गलत वर्गीकृत उदाहरणों के वजन को समायोजित करना
        नियमितीकरण के साथ ग्रेडिएंट बूस्टिंग
    
    
        गुम डेटा को संभालना
        सीमित
        उन्नत हैंडलिंग और स्वचालित दिशा सीखना
    
    
        समानांतर प्रसंस्करण
        स्वाभाविक रूप से समर्थित नहीं
        पूर्ण रूप से समानांतर प्रसंस्करण का समर्थन
    
    
        नियमितीकरण
        न्यूनतम
        व्यापक नियमितीकरण विकल्प
    
    
        प्रदर्शन
        अच्छा, विशेष रूप से सरल डेटासेट के साथ
        श्रेष्ठ, विशेष रूप से जटिल और बड़े डेटासेट पर
    
    
        उपयोग में सरलता
        सरल कार्यान्वयन
        ट्यून करने के लिए अधिक पैरामीटर, गहरी समझ की आवश्यकता
    


AdaBoost और XGBoost के लिए डेटा पूर्वप्रसंस्करण

AdaBoost और XGBoost क्लासिफायरों के प्रदर्शन को अधिकतम करने के लिए प्रभावी डेटा पूर्वप्रसंस्करण महत्वपूर्ण है। नीचे आवश्यक चरण दिए गए हैं:

गुम डेटा को संभालना

गुम मान मॉडल के प्रदर्शन को प्रतिकूल रूप से प्रभावित कर सकते हैं। दोनों AdaBoost और XGBoost गुम डेटा को संभाल सकते हैं, लेकिन उचित पूर्वप्रसंस्करण सटीकता बढ़ाता है।


    संख्यात्मक डेटा: गुम मानों को भरने के लिए माध्य मूल्यांकन जैसी विधियों का उपयोग करें।
    श्रेणात्मक डेटा: मानकीकरण के लिए सबसे अधिक सामान्य मान (मोड) का उपयोग करें।






		
		
			
			
Java
			
			import numpy as np
from sklearn.impute import SimpleImputer

# Numeric Imputation
imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')
X_numeric = imp_mean.fit_transform(X_numeric)

# Categorical Imputation
imp_mode = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
X_categorical = imp_mode.fit_transform(X_categorical)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
				
						import numpy as np
from sklearn.impute import SimpleImputer
 
# Numeric Imputation
imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')
X_numeric = imp_mean.fit_transform(X_numeric)
 
# Categorical Imputation
imp_mode = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
X_categorical = imp_mode.fit_transform(X_categorical)
					
				
			
		



श्रेणात्मक विशेषताओं को एन्कोड करना

मशीन लर्निंग मॉडल को संख्यात्मक इनपुट की आवश्यकता होती है। श्रेणात्मक चर को एन्कोड करना आवश्यक है:


    लेबल एन्कोडिंग: प्रत्येक श्रेणी को एक अद्वितीय पूर्णांक निर्दिष्ट करता है।
    वन-हॉट एन्कोडिंग: प्रत्येक श्रेणी के लिए द्विआधारी कॉलम बनाता है।






		
		
			
			
Java
			
			from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer

# Label Encoding
le = LabelEncoder()
X_encoded = le.fit_transform(X['Category'])

# One-Hot Encoding
column_transformer = ColumnTransformer(
    [('encoder', OneHotEncoder(), [0])],
    remainder='passthrough'
)
X = column_transformer.fit_transform(X)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
				
						from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer
 
# Label Encoding
le = LabelEncoder()
X_encoded = le.fit_transform(X['Category'])
 
# One-Hot Encoding
column_transformer = ColumnTransformer(
    [('encoder', OneHotEncoder(), [0])],
    remainder='passthrough'
)
X = column_transformer.fit_transform(X)
					
				
			
		



विशेषता चयन

प्रासंगिक विशेषताओं का चयन मॉडल के प्रदर्शन में सुधार करता है और संगणनात्मक जटिलता को कम करता है। तकनीकों में शामिल हैं:


    ची-स्क्वायर टेस्ट: विशेषताओं की स्वतंत्रता का मूल्यांकन करता है।
    रिकर्सिव फीचर एलिमिनेशन (RFE): छोटे सेटों पर पुनरावृत्त रूप से विचार करके विशेषताएं चुनता है।






		
		
			
			
Java
			
			from sklearn.feature_selection import SelectKBest, chi2

# Selecting Top 10 Features
selector = SelectKBest(score_func=chi2, k=10)
X_new = selector.fit_transform(X, y)
			
				
					
				
					1
2
3
4
5
				
						from sklearn.feature_selection import SelectKBest, chi2
 
# Selecting Top 10 Features
selector = SelectKBest(score_func=chi2, k=10)
X_new = selector.fit_transform(X, y)
					
				
			
		



Python में AdaBoost और XGBoost को लागू करना

नीचे Python की scikit-learn और xgboost लाइब्रेरी का उपयोग करके AdaBoost और XGBoost क्लासिफायरों को लागू करने के लिए चरण-दर-चरण मार्गदर्शिका दी गई है।

1. पुस्तकालयों को इम्पोर्ट करना





		
		
			
			
Java
			
			import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import accuracy_score
from sklearn.ensemble import AdaBoostClassifier
import xgboost as xgb
			
				
					
				
					1
2
3
4
5
6
7
				
						import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import accuracy_score
from sklearn.ensemble import AdaBoostClassifier
import xgboost as xgb
					
				
			
		



2. डेटासेट लोड करना





		
		
			
			
Java
			
			# Load dataset
data = pd.read_csv('weatherAUS.csv')
			
				
					
				
					1
2
				
						# Load dataset
data = pd.read_csv('weatherAUS.csv')
					
				
			
		



3. डेटा पूर्वप्रसंस्करण





		
		
			
			
Java
			
			# Drop unnecessary columns
X = data.drop(['RISK_MM', 'RainTomorrow'], axis=1)
y = data['RainTomorrow']

# Handling missing values
imp_mean = SimpleImputer(strategy='mean')
X_numeric = X.select_dtypes(include=['int64', 'float64'])
X_categorical = X.select_dtypes(include=['object'])

X_numeric = imp_mean.fit_transform(X_numeric)
imp_mode = SimpleImputer(strategy='most_frequent')
X_categorical = imp_mode.fit_transform(X_categorical)

# Encoding categorical features
le = LabelEncoder()
for col in range(X_categorical.shape[1]):
    X_categorical[:, col] = le.fit_transform(X_categorical[:, col])

# Combining numeric and categorical features
X = np.hstack((X_numeric, X_categorical))

# Feature Scaling
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
				
						# Drop unnecessary columns
X = data.drop(['RISK_MM', 'RainTomorrow'], axis=1)
y = data['RainTomorrow']
 
# Handling missing values
imp_mean = SimpleImputer(strategy='mean')
X_numeric = X.select_dtypes(include=['int64', 'float64'])
X_categorical = X.select_dtypes(include=['object'])
 
X_numeric = imp_mean.fit_transform(X_numeric)
imp_mode = SimpleImputer(strategy='most_frequent')
X_categorical = imp_mode.fit_transform(X_categorical)
 
# Encoding categorical features
le = LabelEncoder()
for col in range(X_categorical.shape[1]):
    X_categorical[:, col] = le.fit_transform(X_categorical[:, col])
 
# Combining numeric and categorical features
X = np.hstack((X_numeric, X_categorical))
 
# Feature Scaling
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
					
				
			
		



4. डेटासेट को विभाजित करना





		
		
			
			
Java
			
			X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.20, random_state=1
)
			
				
					
				
					1
2
3
				
						X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.20, random_state=1
)
					
				
			
		



5. AdaBoost क्लासिफायर को प्रशिक्षण देना





		
		
			
			
Java
			
			# Initialize AdaBoost
ada_classifier = AdaBoostClassifier(n_estimators=100, random_state=0)
ada_classifier.fit(X_train, y_train)

# Predictions
y_pred_adaboost = ada_classifier.predict(X_test)

# Accuracy
accuracy_adaboost = accuracy_score(y_pred_adaboost, y_test)
print(f'AdaBoost Accuracy: {accuracy_adaboost:.2f}')
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
				
						# Initialize AdaBoost
ada_classifier = AdaBoostClassifier(n_estimators=100, random_state=0)
ada_classifier.fit(X_train, y_train)
 
# Predictions
y_pred_adaboost = ada_classifier.predict(X_test)
 
# Accuracy
accuracy_adaboost = accuracy_score(y_pred_adaboost, y_test)
print(f'AdaBoost Accuracy: {accuracy_adaboost:.2f}')
					
				
			
		



6. XGBoost क्लासिफायर को प्रशिक्षण देना





		
		
			
			
Java
			
			# Initialize XGBoost
xgb_classifier = xgb.XGBClassifier(use_label_encoder=False, eval_metric='logloss')
xgb_classifier.fit(X_train, y_train)

# Predictions
y_pred_xgboost = xgb_classifier.predict(X_test)

# Accuracy
accuracy_xgboost = accuracy_score(y_pred_xgboost, y_test)
print(f'XGBoost Accuracy: {accuracy_xgboost:.2f}')
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
				
						# Initialize XGBoost
xgb_classifier = xgb.XGBClassifier(use_label_encoder=False, eval_metric='logloss')
xgb_classifier.fit(X_train, y_train)
 
# Predictions
y_pred_xgboost = xgb_classifier.predict(X_test)
 
# Accuracy
accuracy_xgboost = accuracy_score(y_pred_xgboost, y_test)
print(f'XGBoost Accuracy: {accuracy_xgboost:.2f}')
					
				
			
		



7. परिणामों की तुलना


    
        मॉडल
        सटीकता
    
    
        AdaBoost
        83.00%
    
    
        XGBoost
        83.02%
    


नोट: सटीकता में मामूली अंतर मॉडल प्रशिक्षण में अंतर्निहित भिन्नताओं के कारण है।

मॉडल मूल्यांकन और विज़ुअलाइज़ेशन

निर्णय सीमाएं विज़ुअलाइज़ करना यह समझने में मदद करता है कि विभिन्न वर्गीकरणकर्ता फीचर स्पेस को कैसे विभाजित करते हैं। नीचे mlxtend लाइब्रेरी का उपयोग करके निर्णय क्षेत्रों को विज़ुअलाइज़ करने के लिए एक Python फ़ंक्शन दिया गया है।





		
		
			
			
Java
			
			from mlxtend.plotting import plot_decision_regions
import matplotlib.pyplot as plt

def visualize_decision_regions(X, y, model):
    plot_decision_regions(X, y, clf=model)
    plt.xlabel('Feature 1')
    plt.ylabel('Feature 2')
    plt.title(f'Decision Regions for {model.__class__.__name__}')
    plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
				
						from mlxtend.plotting import plot_decision_regions
import matplotlib.pyplot as plt
 
def visualize_decision_regions(X, y, model):
    plot_decision_regions(X, y, clf=model)
    plt.xlabel('Feature 1')
    plt.ylabel('Feature 2')
    plt.title(f'Decision Regions for {model.__class__.__name__}')
    plt.show()
					
				
			
		



Iris डेटासेट के साथ उदाहरण विज़ुअलाइज़ेशन





		
		
			
			
Java
			
			from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier

# Load Iris dataset
iris = datasets.load_iris()
X = iris.data[:, :2]
y = iris.target

# Initialize models
models = {
    'KNN': KNeighborsClassifier(n_neighbors=3),
    'Logistic Regression': LogisticRegression(),
    'GaussianNB': GaussianNB(),
    'SVC': SVC(),
    'DecisionTree': DecisionTreeClassifier(),
    'RandomForest': RandomForestClassifier(),
    'AdaBoost': AdaBoostClassifier()
}

# Fit and visualize
for name, model in models.items():
    model.fit(X, y)
    visualize_decision_regions(X, y, model)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
				
						from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
 
# Load Iris dataset
iris = datasets.load_iris()
X = iris.data[:, :2]
y = iris.target
 
# Initialize models
models = {
    'KNN': KNeighborsClassifier(n_neighbors=3),
    'Logistic Regression': LogisticRegression(),
    'GaussianNB': GaussianNB(),
    'SVC': SVC(),
    'DecisionTree': DecisionTreeClassifier(),
    'RandomForest': RandomForestClassifier(),
    'AdaBoost': AdaBoostClassifier()
}
 
# Fit and visualize
for name, model in models.items():
    model.fit(X, y)
    visualize_decision_regions(X, y, model)
					
				
			
		



यह विज़ुअलाइज़ेशन दिखाता है कि विभिन्न वर्गीकरणकर्ता Iris डेटासेट के फीचर स्पेस को कैसे सीमांकित करते हैं, उनके strengths और weaknesses को उजागर करते हुए।

निष्कर्ष

AdaBoost और XGBoost प्रभावशाली क्लासिफायर हैं जो सही ढंग से ट्यून किए जाने पर विविध डेटासेट पर उल्लेखनीय सटीकता प्राप्त कर सकते हैं। जबकि AdaBoost अपनी सरलता और कठिन वर्गीकृत उदाहरणों पर ध्यान केंद्रित करने के लिए सराहना प्राप्त करता है, XGBoost अपने उन्नत फीचर्स, स्केलेबिलिटी और जटिल कार्यों पर श्रेष्ठ प्रदर्शन के साथ अलग दिखाई देता है।

प्रभावी डेटा पूर्वप्रसंस्करण, जिसमें गुम डेटा को संभालना और श्रेणात्मक चर को एन्कोड करना शामिल है, इन मॉडलों की क्षमता को अधिकतम करने के लिए महत्वपूर्ण है। इसके अतिरिक्त, विशेषता चयन और स्केलिंग मॉडल के प्रदर्शन और व्याख्यात्मकता को बढ़ाने में महत्वपूर्ण भूमिका निभाते हैं।

AdaBoost और XGBoost में महारत हासिल करके, डेटा वैज्ञानिक और मशीन लर्निंग पेशेवर आत्मविश्वास और सटीकता के साथ विविध वर्गीकरण चुनौतियों को हल कर सकते हैं।

अतिरिक्त संसाधन


    AdaBoost डॉक्यूमेंटेशन
    XGBoost डॉक्यूमेंटेशन
    Scikit-learn यूजर गाइड
    निर्णय क्षेत्र विज़ुअलाइज़ेशन के लिए MLxtend




AdaBoost और XGBoost की समझ और कार्यान्वयन को लगातार सुधारकर, आप मशीन लर्निंग नवाचार के अग्रिम क्षेत्र में स्वयं को स्थापित करते हैं। जिज्ञासु बने रहें, प्रयोग करते रहें, और इन शक्तिशाली एल्गोरिदम की पूरी क्षमता का उपयोग करें।
विशेषता	AdaBoost	XGBoost
प्राथमिक फोकस	गलत वर्गीकृत उदाहरणों के वजन को समायोजित करना	नियमितीकरण के साथ ग्रेडिएंट बूस्टिंग
गुम डेटा को संभालना	सीमित	उन्नत हैंडलिंग और स्वचालित दिशा सीखना
समानांतर प्रसंस्करण	स्वाभाविक रूप से समर्थित नहीं	पूर्ण रूप से समानांतर प्रसंस्करण का समर्थन
नियमितीकरण	न्यूनतम	व्यापक नियमितीकरण विकल्प
प्रदर्शन	अच्छा, विशेष रूप से सरल डेटासेट के साथ	श्रेष्ठ, विशेष रूप से जटिल और बड़े डेटासेट पर
उपयोग में सरलता	सरल कार्यान्वयन	ट्यून करने के लिए अधिक पैरामीटर, गहरी समझ की आवश्यकता