S10L02 – निर्णय वृक्ष कार्यान्वयन – 1 विशेषता

html
Scikit-Learn के साथ निर्णय वृक्ष प्रतिगमन में महारत: एक व्यापक मार्गदर्शिका

मशीन लर्निंग के लगातार बदलते परिदृश्य में, निर्णय वृक्ष वर्गीकरण और प्रतिगमन टास्क दोनों के लिए बहुमुखी और सहज मॉडल के रूप में अलग नजर आते हैं। चाहे आप एक डेटा साइंस उत्साही हों या एक अनुभवी पेशेवर, निर्णय वृक्षों को लागू करने और अनुकूलित करने की समझ आवश्यक है। इस मार्गदर्शिका में, हम Scikit-Learn का उपयोग करके निर्णय वृक्ष प्रतिगमन में गहराई से उतरेंगे, व्यावहारिक उदाहरणों और वास्तविक दुनिया के डेटासेट का उपयोग करके आपकी समझ को मजबूत करेंगे।

विषय सूची

	निर्णय वृक्षों का परिचय
	निर्णय वृक्ष संरचना को समझना
	पायथन में निर्णय वृक्ष प्रतिगमन को लागू करना
	हाइपरपैरामीटर ट्यूनिंग: अधिकतम गहराई की भूमिका
	निर्णय वृक्षों को दृश्यात्मक बनाना
	मॉडल प्रदर्शन का मूल्यांकन करना
	चुनौतियां और सीमाएं
	निष्कर्ष
	आगे की पढ़ाई




निर्णय वृक्षों का परिचय

निर्णय वृक्ष मशीन लर्निंग का एक मौलिक घटक हैं, जो उनकी सरलता और व्याख्यात्मकता के लिए मूल्यवान हैं। वे मानव निर्णय लेने की प्रक्रियाओं को नकल करते हैं, जटिल निर्णयों को सरल, द्विआधारी विकल्पों की श्रृंखला में विभाजित करते हैं। यह उन्हें वर्गीकरण (डेटा को वर्गीकृत करना) और प्रतिगमन (सतत मानों की भविष्यवाणी करना) दोनों कार्यों के लिए विशेष रूप से उपयोगी बनाता है।

निर्णय वृक्ष क्यों उपयोग करें?


	व्याख्यात्मकता: विज़ुअलाइज़ और समझने में आसान।
	गैर-पैरामीट्रिक: डेटा वितरण के बारे में कोई धारणाएं नहीं।
	बहुमुखी प्रतिभा: विभिन्न प्रकार के डेटा और समस्याओं पर लागू।


हालांकि, सभी मॉडलों की तरह, निर्णय वृक्षों के अपने चुनौतियां भी हैं, जैसे अधिक फिटिंग और गणनात्मक जटिलता, जिनकी हम इस मार्गदर्शिका में बाद में चर्चा करेंगे।

निर्णय वृक्ष संरचना को समझना

निर्णय वृक्ष के मूल में इसकी संरचना होती है, जिसमें नोड्स और शाखाएं शामिल हैं:


	रूट नोड: सबसे ऊपर का नोड जो संपूर्ण डेटासेट का प्रतिनिधित्व करता है।
	आंतरिक नोड्स: फीचर मानों के आधार पर निर्णय बिंदुओं का प्रतिनिधित्व करते हैं।
	पत्ते के नोड्स: अंतिम आउटपुट या भविष्यवाणी का प्रतिनिधित्व करते हैं।


मुख्य अवधारणाएँ


	वृक्ष की गहराई: रूट से पत्ते के नोड तक का सबसे लंबा मार्ग। एक वृक्ष की गहराई उसके प्रदर्शन को काफी प्रभावित कर सकती है।
	अधिकतम गहराई: एक हाइपरपैरामीटर जो वृक्ष की गहराई को सीमित करता है ताकि अधिक फिटिंग से बचा जा सके।
	अंडरफिटिंग और ओवरफिटिंग:
		
			अंडरफिटिंग: जब मॉडल बहुत सरल होता है (उदा., अधिकतम गहराई बहुत कम सेट करना), यह अंतर्निहित पैटर्नों को कैप्चर करने में असफल रहता है।
			ओवरफिटिंग: जब मॉडल बहुत जटिल होता है (उदा., अधिकतम गहराई बहुत अधिक सेट करना), यह प्रशिक्षण डेटा में शोर को कैप्चर करता है, जिससे सामान्यीकरण कम हो जाता है।
		
	


पायथन में निर्णय वृक्ष प्रतिगमन को लागू करना

आइए Scikit-Learn के DecisionTreeRegressor का उपयोग करके एक व्यावहारिक उदाहरण के माध्यम से चलें। हम "कनाडा प्रति व्यक्ति आय" डेटासेट का उपयोग करके वर्ष के आधार पर आय की भविष्यवाणी करेंगे।

चरण 1: पुस्तकालय आयात करना





		
		
			
			
Java
			
			import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import r2_score

sns.set()
			
				
					
				
					1
2
3
4
5
6
7
8
9
				
						import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import r2_score
 
sns.set()
					
				
			
		



चरण 2: डेटासेट लोड करना





		
		
			
			
Java
			
			# Dataset Source: https://www.kaggle.com/gurdit559/canada-per-capita-income-single-variable-data-set
data = pd.read_csv('canada_per_capita_income.csv')
X = data.iloc[:, :-1]
Y = data.iloc[:, -1]
			
				
					
				
					1
2
3
4
				
						# Dataset Source: https://www.kaggle.com/gurdit559/canada-per-capita-income-single-variable-data-set
data = pd.read_csv('canada_per_capita_income.csv')
X = data.iloc[:, :-1]
Y = data.iloc[:, -1]
					
				
			
		



चरण 3: अन्वेषणात्मक डेटा विश्लेषण





		
		
			
			
Java
			
			print(data.head())

# Visualizing the Data
sns.scatterplot(data=data, x='per capita income (US$)', y='year')
plt.show()
			
				
					
				
					1
2
3
4
5
				
						print(data.head())
 
# Visualizing the Data
sns.scatterplot(data=data, x='per capita income (US$)', y='year')
plt.show()
					
				
			
		



आउटपुट:




		
		
			
			
Java
			
			   year  per capita income (US$)
0  1970              3399.299037
1  1971              3768.297935
2  1972              4251.175484
3  1973              4804.463248
4  1974              5576.514583
			
				
					
				
					1
2
3
4
5
6
				
						   year  per capita income (US$)
0  1970              3399.299037
1  1971              3768.297935
2  1972              4251.175484
3  1973              4804.463248
4  1974              5576.514583
					
				
			
		




चरण 4: डेटा को विभाजित करना





		
		
			
			
Java
			
			X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)
			
				
					
				
					1
				
						X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)
					
				
			
		



चरण 5: मॉडल का निर्माण और प्रशिक्षण





		
		
			
			
Java
			
			model = DecisionTreeRegressor()
model.fit(X_train, y_train)
			
				
					
				
					1
2
				
						model = DecisionTreeRegressor()
model.fit(X_train, y_train)
					
				
			
		



चरण 6: भविष्यवाणियाँ करना





		
		
			
			
Java
			
			y_pred = model.predict(X_test)
print(y_pred)
			
				
					
				
					1
2
				
						y_pred = model.predict(X_test)
print(y_pred)
					
				
			
		



आउटपुट:




		
		
			
			
Java
			
			[15875.58673  17266.09769  37446.48609  25719.14715   3768.297935
 5576.514583 16622.67187  18601.39724  41039.8936   16369.31725 ]
			
				
					
				
					1
2
				
						[15875.58673  17266.09769  37446.48609  25719.14715   3768.297935
 5576.514583 16622.67187  18601.39724  41039.8936   16369.31725 ]
					
				
			
		



हाइपरपैरामीटर ट्यूनिंग: अधिकतम गहराई की भूमिका

निर्णय वृक्षों में एक महत्वपूर्ण हाइपरपैरामीटर max_depth है, जो वृक्ष की अधिकतम गहराई को नियंत्रित करता है।

अधिकतम गहराई का प्रभाव


	कम अधिकतम गहराई (उदा., 1):
		
			फायदे: सरलता, अधिक फिटिंग का कम जोखिम।
			नुकसान: संभावित अंडरफिटिंग, जटिल डेटा पर खराब प्रदर्शन।
			उदाहरण: max_depth=1 सेट करने से मॉडल केवल यह विचार कर सकता है कि क्या सप्ताहांत बैडमिंटन खेलने का निर्धारण करता है, मौसम जैसे अन्य कारकों को अनदेखा करते हुए।
		
	
	उच्च अधिकतम गहराई (उदा., 25):
		
			फायदे: जटिल पैटर्न कैप्चर करने की क्षमता।
			नुकसान: अधिक फिटिंग का बढ़ा हुआ जोखिम, लंबे प्रशिक्षण समय।
			उदाहरण: 25 की max_depth से मॉडल अत्यधिक जटिल हो सकता है, जो अंतर्निहित वितरण के बजाय शोर को कैप्चर करता है।
		
	


अनुकूलतम अधिकतम गहराई खोजना

अनुकूलतम अधिकतम गहराई पक्षपात और विचलन के बीच संतुलन बनाता है, यह सुनिश्चित करते हुए कि मॉडल अप्रत्याशित डेटा पर अच्छी तरह सामान्यीकृत हो। क्रॉस-वैलिडेशन जैसी तकनीकें सबसे अच्छी मूल्य निर्धारित करने में मदद कर सकती हैं।





		
		
			
			
Java
			
			# Example: Setting max_depth to 10
model = DecisionTreeRegressor(max_depth=10)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print(r2_score(y_test, y_pred))
			
				
					
				
					1
2
3
4
5
				
						# Example: Setting max_depth to 10
model = DecisionTreeRegressor(max_depth=10)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print(r2_score(y_test, y_pred))
					
				
			
		



आउटपुट:




		
		
			
			
Java
			
			0.9283605684543206
			
				
					
				
					1
				
						0.9283605684543206
					
				
			
		



लगभग 0.92 का R² स्कोर मजबूत फिट को दर्शाता है, लेकिन अलग-अलग गहराई और क्रॉस-वैलिडेशन के साथ इसे सत्यापित करना आवश्यक है।

निर्णय वृक्षों को दृश्यात्मक बनाना

दृश्यात्मकता यह समझने में मदद करती है कि निर्णय वृक्ष कैसे भविष्यवाणियाँ करता है।

मॉडल का दृश्यात्मककरण


	फीचर महत्व: यह निर्धारित करता है कि वृक्ष सबसे अधिक किन फीचर्स पर विचार करता है।
		



		
		
			
			
Java
			
			feature_importances = model.feature_importances_
print(feature_importances)
			
				
					
				
					1
2
				
						feature_importances = model.feature_importances_
print(feature_importances)
					
				
			
		


	
	वृक्ष संरचना: Scikit-Learn के plot_tree का उपयोग करके वृक्ष की संरचना प्रदर्शित करें।
		



		
		
			
			
Java
			
			from sklearn import tree

plt.figure(figsize=(12,8))
tree.plot_tree(model, filled=True, feature_names=X.columns, rounded=True)
plt.show()
			
				
					
				
					1
2
3
4
5
				
						from sklearn import tree
 
plt.figure(figsize=(12,8))
tree.plot_tree(model, filled=True, feature_names=X.columns, rounded=True)
plt.show()
					
				
			
		


	




व्यावहारिक असाइनमेंट


	मॉडल को दृश्यात्मक बनाएं: plot_tree का उपयोग करके यह देखें कि निर्णय विभाजन कैसे किए जाते हैं।
	निर्णय वृक्ष को सीधे प्रदर्शित करें: फीचर निर्णयों को समझने के लिए वृक्ष की व्याख्या करें।
	आगे की खोज करें: Scikit-Learn के निर्णय वृक्ष प्रतिगमन उदाहरण पर गहराई से समझने के लिए जाएं।


मॉडल प्रदर्शन का मूल्यांकन करना

मॉडल के प्रदर्शन का मूल्यांकन करना इसके विश्वसनीयता सुनिश्चित करने के लिए महत्वपूर्ण है।





		
		
			
			
Java
			
			from sklearn.metrics import r2_score

r2 = r2_score(y_test, y_pred)
print(f"R² Score: {r2:.2f}")
			
				
					
				
					1
2
3
4
				
						from sklearn.metrics import r2_score
 
r2 = r2_score(y_test, y_pred)
print(f"R² Score: {r2:.2f}")
					
				
			
		



आउटपुट:




		
		
			
			
Java
			
			R² Score: 0.93
			
				
					
				
					1
				
						R² Score: 0.93
					
				
			
		



1 के करीब R² स्कोर यह संकेत देता है कि मॉडल लक्ष्य चर में विचलन के उच्च अनुपात को समझाता है।

चुनौतियां और सीमाएं

हालांकि निर्णय वृक्ष शक्तिशाली हैं, उनके साथ कुछ खामियां भी हैं:


	ओवरफिटिंग: गहरे वृक्ष शोर को कैप्चर कर सकते हैं, जिससे सामान्यीकरण कम हो जाता है।
	समय जटिलता: डेटासेट के आकार और फीचर आयामीकरण के साथ प्रशिक्षण समय बढ़ता है।
	स्थान जटिलता: बड़े वृक्षों को संग्रहित करने से महत्वपूर्ण मात्रा में मेमोरी खर्च हो सकती है।
	कैटेगोरिकल डेटा के साथ पक्षपात: निर्णय वृक्ष उच्च कार्डिनैलिटी वाले कैटेगोरिकल वेरिएबल्स के साथ संघर्ष कर सकते हैं।


सीमाओं को संबोधित करना


	प्रूनिंग: वृक्ष की गहराई को सीमित करना और उन शाखाओं को समाप्त करना जो लक्ष्य चर की भविष्यवाणी में कम शक्ति रखती हैं।
	एन्सेम्बल विधियाँ: रैंडम फॉरेस्ट या ग्रेडिएंट बूस्टिंग जैसी तकनीकें ओवरफिटिंग को कम कर सकती हैं और प्रदर्शन को बेहतर बना सकती हैं।
	फीचर इंजीनियरिंग: फीचर आयामों को कम करना और कैटेगोरिकल वेरिएबल्स को प्रभावी ढंग से एन्कोड करना।


निष्कर्ष

निर्णय वृक्ष प्रतिगमन मशीन लर्निंग में एक मौलिक तकनीक है, जो सरलता और व्याख्यात्मकता प्रदान करती है। इसकी संरचना को समझकर, max_depth जैसे हाइपरपैरामीटर्स को अनुकूलित करके, और इसकी सीमाओं को संबोधित करके, आप इसकी पूरी क्षमता का उपयोग कर सकते हैं। चाहे आप आय स्तर, घर के दाम या किसी भी सतत चर की भविष्यवाणी कर रहे हों, निर्णय वृक्ष एक मजबूत प्रारंभिक बिंदु प्रदान करते हैं।

आगे की पढ़ाई


	Scikit-Learn निर्णय वृक्ष प्रलेखन
	पक्षपात और विचलन को समझना
	मशीन लर्निंग में एन्सेम्बल विधियाँ




अपने डेटा साइंस टूलकिट में निर्णय वृक्ष की शक्ति को अपनाएं, और अपने मॉडलों को नई ऊंचाइयों पर ले जाने के लिए उन्नत विषयों की खोज जारी रखें।