S11L02 – रैंडम फॉरेस्ट

html
रैंडम फॉरेस्ट के साथ भविष्यवाणी मॉडल को सुदृढ़ करना: एक व्यावहारिक मार्गदर्शिका

विषय सूची

निर्णय वृक्ष मॉडल का पुन: अवलोकन
रैंडम फॉरेस्ट का परिचय
    
        क्यों रैंडम फॉरेस्ट?
        कार्यान्वयन कदम
        पर्यवेक्षण
    

रैंडम फॉरेस्ट को दूसरे डेटासेट पर लागू करना
    
        कार्यान्वयन कदम
        टेकअवे
    

हाइपरपैरामीटर ट्यूनिंग
निष्कर्ष


निर्णय वृक्ष मॉडल का पुन: अवलोकन

पहले, हमने एक डेटासेट पर आयु, लिंग, BMI, बच्चों की संख्या, धूम्रपान की स्थिति, और क्षेत्र जैसे विशेषताओं के आधार पर बीमा शुल्क की भविष्यवाणी करने के लिए एक निर्णय वृक्ष रिग्रेसर का उपयोग किया था। निर्णय वृक्ष मॉडल ने R² स्कोर 0.87 प्राप्त किया, जो अच्छी प्रदर्शन को दर्शाता है।

मुख्य बिंदु:

उपयोग किया गया मॉडल: Decision Tree Regressor
R² स्कोर: 0.87
डेटासेट की विशेषताएँ: आयु, लिंग, BMI, बच्चे, धूम्रपान, क्षेत्र
लक्ष्य चर: बीमा शुल्क


रैंडम फॉरेस्ट का परिचय

रैंडम फॉरेस्ट एल्गोरिथ्म एक एन्सेम्बल विधि है जो कई निर्णय वृक्ष बनाता है और उन्हें मिलाकर अधिक सटीक और स्थिर भविष्यवाणी प्राप्त करता है। पायथन में एक एकल निर्णय वृक्ष से रैंडम फॉरेस्ट में परिवर्तन करना सीधा है, आमतौर पर केवल दो अतिरिक्त कोड लाइनों की आवश्यकता होती है।

क्यों रैंडम फॉरेस्ट?

एन्सेम्बल विधि: प्रदर्शन में सुधार के लिए कई वृक्षों को संयोजित करता है।
हाइपरपैरामीटर: एस्टिमेटर्स (वृक्षों) की संख्या और पुनरुत्पादकता के लिए रैंडम स्थिति।
रैंडम सबसैंपलिंग: प्रत्येक वृक्ष को डेटा के एक रैंडम उपसमुच्चय पर प्रशिक्षित किया जाता है, मॉडल की मजबूती बढ़ाते हैं।


कार्यान्वयन कदम

रैंडम फॉरेस्ट रिग्रेसर को आयात करें:




		
		
			
			
Java
			
			from sklearn.ensemble import RandomForestRegressor
			
				
					
				
					1
				
						from sklearn.ensemble import RandomForestRegressor
					
				
			
		


मॉडल को इंस्टैंटिएट करें:
डिसीजन ट्री रिग्रेसर को रैंडम फॉरेस्ट रिग्रेसर से बदलें। उदाहरण के लिए:




		
		
			
			
Java
			
			model = RandomForestRegressor(n_estimators=50, random_state=10)
			
				
					
				
					1
				
						model = RandomForestRegressor(n_estimators=50, random_state=10)
					
				
			
		



n_estimators: जंगल में वृक्षों की संख्या (डिफ़ॉल्ट 100 है)।
random_state: पुनरुत्पादक परिणाम सुनिश्चित करता है।


मॉडल को प्रशिक्षित करें और इसका मूल्यांकन करें:
मॉडल को अपडेट करने के बाद, इसे प्रशिक्षण डेटा पर फिट करें और इसके प्रदर्शन का मूल्यांकन R² स्कोर का उपयोग करके करें।



पर्यवेक्षण

प्रारंभिक प्रदर्शन: रैंडम फॉरेस्ट मॉडल ने शुरू में निर्णय वृक्ष की तुलना में कम प्रदर्शन किया, R² स्कोर 0.85 प्राप्त किया।
हाइपरपैरामीटर समायोजन: एस्टिमेटर्स की संख्या को 150 तक बढ़ाने से न्यूनतम सुधार हुआ। इसके विपरीत, एस्टिमेटर्स की संख्या को 25 तक कम करने से प्रदर्शन में थोड़ा अवनति आई।


मुख्य अंतर्दृष्टि: रैंडम फॉरेस्ट हमेशा निर्णय वृक्षों से बेहतर प्रदर्शन नहीं करता है। प्रदर्शन डेटासेट और चुने गए हाइपरपैरामीटर पर निर्भर कर सकता है।

रैंडम फॉरेस्ट को दूसरे डेटासेट पर लागू करना

रैंडम फॉरेस्ट की प्रभावशीलता का और मूल्यांकन करने के लिए, केवल एक विशेषता वाले एक अलग डेटासेट पर विचार करें। पहले, इस डेटासेट पर एक निर्णय वृक्ष का उपयोग करने से एक प्रभावशाली R² स्कोर 0.92 प्राप्त हुआ था।

कार्यान्वयन कदम

इम्पोर्ट स्टेटमेंट को अपडेट करें:




		
		
			
			
Java
			
			from sklearn.ensemble import RandomForestRegressor
			
				
					
				
					1
				
						from sklearn.ensemble import RandomForestRegressor
					
				
			
		


हाइपरपैरामीटर के साथ मॉडल को इंस्टैंटिएट करें:




		
		
			
			
Java
			
			model = RandomForestRegressor(n_estimators=50, random_state=10)
			
				
					
				
					1
				
						model = RandomForestRegressor(n_estimators=50, random_state=10)
					
				
			
		


प्रशिक्षण करें और मूल्यांकन करें:
प्रशिक्षण के बाद, रैंडम फॉरेस्ट मॉडल ने निर्णय वृक्ष की तुलना में बेहतर प्रदर्शन किया, R² स्कोर अधिक प्राप्त किया (सटीक मान निर्दिष्ट नहीं)।



टेकअवे
इस विशेष परिदृश्य में, रैंडम फॉरेस्ट अधिक प्रभावी साबित हुआ, विभिन्न मॉडलों और हाइपरपैरामीटर के साथ प्रयोग करने के महत्व को दर्शाते हुए।

हाइपरपैरामीटर ट्यूनिंग

रैंडम फॉरेस्ट में एस्टिमेटर्स की संख्या एक महत्वपूर्ण हाइपरपैरामीटर है:

उच्च मान: सामान्यतः बेहतर प्रदर्शन की ओर ले जाते हैं लेकिन गणनात्मक लागत बढ़ाते हैं।
निम्न मान: तेज होते हैं लेकिन डेटा को कम फिट कर सकते हैं।


10, 50, 150, या यहां तक कि 500 जैसे मानों के साथ प्रयोग करना प्रदर्शन और दक्षता के बीच इष्टतम संतुलन की पहचान करने में मदद कर सकता है, जो डेटासेट के आकार और जटिलता पर आधारित होता है।

निष्कर्ष

रैंडम फॉरेस्ट प्रतिगमन और वर्गीकरण कार्यों के लिए एक शक्तिशाली और लचीला उपकरण है। जबकि यह अक्सर एकल निर्णय वृक्षों की तुलना में ओवरफिटिंग को कम करके और सटीकता बढ़ाकर बेहतर प्रदर्शन करता है, यह आपके विशिष्ट डेटासेट के लिए सबसे अच्छे परिणाम प्राप्त करने के लिए विभिन्न मॉडलों और हाइपरपैरामीटर के साथ प्रयोग करना महत्वपूर्ण है।

अगले कदम:

डाउनलोड करें और प्रयोग करें: अपने डेटासेट पर रैंडम फॉरेस्ट को आजमाने के लिए प्रदान किए गए जुपिटर नोटबुक्स तक पहुंच प्राप्त करें।
नए मॉडल का अन्वेषण करें: अन्य मशीन लर्निंग मॉडलों पर आगामी ट्यूटोरियल के लिए जुड़े रहें ताकि आप अपनी भविष्यवाणी विश्लेषण टूलकिट को और भी बढ़ा सकें।


पढ़ने के लिए धन्यवाद! खुश मॉडलिंग, और अगले ट्यूटोरियल में मिलते हैं!