html
रैंडम फॉरेस्ट के साथ भविष्यवाणी मॉडल को सुदृढ़ करना: एक व्यावहारिक मार्गदर्शिका
विषय सूची
- निर्णय वृक्ष मॉडल का पुन: अवलोकन
- रैंडम फॉरेस्ट का परिचय
- क्यों रैंडम फॉरेस्ट?
- कार्यान्वयन कदम
- पर्यवेक्षण
- रैंडम फॉरेस्ट को दूसरे डेटासेट पर लागू करना
- कार्यान्वयन कदम
- टेकअवे
- हाइपरपैरामीटर ट्यूनिंग
- निष्कर्ष
निर्णय वृक्ष मॉडल का पुन: अवलोकन
पहले, हमने एक डेटासेट पर आयु, लिंग, BMI, बच्चों की संख्या, धूम्रपान की स्थिति, और क्षेत्र जैसे विशेषताओं के आधार पर बीमा शुल्क की भविष्यवाणी करने के लिए एक निर्णय वृक्ष रिग्रेसर का उपयोग किया था। निर्णय वृक्ष मॉडल ने R² स्कोर 0.87 प्राप्त किया, जो अच्छी प्रदर्शन को दर्शाता है।
मुख्य बिंदु:
- उपयोग किया गया मॉडल: Decision Tree Regressor
- R² स्कोर: 0.87
- डेटासेट की विशेषताएँ: आयु, लिंग, BMI, बच्चे, धूम्रपान, क्षेत्र
- लक्ष्य चर: बीमा शुल्क
रैंडम फॉरेस्ट का परिचय
रैंडम फॉरेस्ट एल्गोरिथ्म एक एन्सेम्बल विधि है जो कई निर्णय वृक्ष बनाता है और उन्हें मिलाकर अधिक सटीक और स्थिर भविष्यवाणी प्राप्त करता है। पायथन में एक एकल निर्णय वृक्ष से रैंडम फॉरेस्ट में परिवर्तन करना सीधा है, आमतौर पर केवल दो अतिरिक्त कोड लाइनों की आवश्यकता होती है।
क्यों रैंडम फॉरेस्ट?
- एन्सेम्बल विधि: प्रदर्शन में सुधार के लिए कई वृक्षों को संयोजित करता है।
- हाइपरपैरामीटर: एस्टिमेटर्स (वृक्षों) की संख्या और पुनरुत्पादकता के लिए रैंडम स्थिति।
- रैंडम सबसैंपलिंग: प्रत्येक वृक्ष को डेटा के एक रैंडम उपसमुच्चय पर प्रशिक्षित किया जाता है, मॉडल की मजबूती बढ़ाते हैं।
कार्यान्वयन कदम
- रैंडम फॉरेस्ट रिग्रेसर को आयात करें:
1
from sklearn.ensemble import RandomForestRegressor
- मॉडल को इंस्टैंटिएट करें:
डिसीजन ट्री रिग्रेसर को रैंडम फॉरेस्ट रिग्रेसर से बदलें। उदाहरण के लिए:
1
model = RandomForestRegressor(n_estimators=50, random_state=10)
- n_estimators: जंगल में वृक्षों की संख्या (डिफ़ॉल्ट 100 है)।
- random_state: पुनरुत्पादक परिणाम सुनिश्चित करता है।
- मॉडल को प्रशिक्षित करें और इसका मूल्यांकन करें:
मॉडल को अपडेट करने के बाद, इसे प्रशिक्षण डेटा पर फिट करें और इसके प्रदर्शन का मूल्यांकन R² स्कोर का उपयोग करके करें।
पर्यवेक्षण
- प्रारंभिक प्रदर्शन: रैंडम फॉरेस्ट मॉडल ने शुरू में निर्णय वृक्ष की तुलना में कम प्रदर्शन किया, R² स्कोर 0.85 प्राप्त किया।
- हाइपरपैरामीटर समायोजन: एस्टिमेटर्स की संख्या को 150 तक बढ़ाने से न्यूनतम सुधार हुआ। इसके विपरीत, एस्टिमेटर्स की संख्या को 25 तक कम करने से प्रदर्शन में थोड़ा अवनति आई।
मुख्य अंतर्दृष्टि: रैंडम फॉरेस्ट हमेशा निर्णय वृक्षों से बेहतर प्रदर्शन नहीं करता है। प्रदर्शन डेटासेट और चुने गए हाइपरपैरामीटर पर निर्भर कर सकता है।
रैंडम फॉरेस्ट को दूसरे डेटासेट पर लागू करना
रैंडम फॉरेस्ट की प्रभावशीलता का और मूल्यांकन करने के लिए, केवल एक विशेषता वाले एक अलग डेटासेट पर विचार करें। पहले, इस डेटासेट पर एक निर्णय वृक्ष का उपयोग करने से एक प्रभावशाली R² स्कोर 0.92 प्राप्त हुआ था।
कार्यान्वयन कदम
- इम्पोर्ट स्टेटमेंट को अपडेट करें:
1
from sklearn.ensemble import RandomForestRegressor
- हाइपरपैरामीटर के साथ मॉडल को इंस्टैंटिएट करें:
1
model = RandomForestRegressor(n_estimators=50, random_state=10)
- प्रशिक्षण करें और मूल्यांकन करें:
प्रशिक्षण के बाद, रैंडम फॉरेस्ट मॉडल ने निर्णय वृक्ष की तुलना में बेहतर प्रदर्शन किया, R² स्कोर अधिक प्राप्त किया (सटीक मान निर्दिष्ट नहीं)।
टेकअवे
इस विशेष परिदृश्य में, रैंडम फॉरेस्ट अधिक प्रभावी साबित हुआ, विभिन्न मॉडलों और हाइपरपैरामीटर के साथ प्रयोग करने के महत्व को दर्शाते हुए।
हाइपरपैरामीटर ट्यूनिंग
रैंडम फॉरेस्ट में एस्टिमेटर्स की संख्या एक महत्वपूर्ण हाइपरपैरामीटर है:
- उच्च मान: सामान्यतः बेहतर प्रदर्शन की ओर ले जाते हैं लेकिन गणनात्मक लागत बढ़ाते हैं।
- निम्न मान: तेज होते हैं लेकिन डेटा को कम फिट कर सकते हैं।
10, 50, 150, या यहां तक कि 500 जैसे मानों के साथ प्रयोग करना प्रदर्शन और दक्षता के बीच इष्टतम संतुलन की पहचान करने में मदद कर सकता है, जो डेटासेट के आकार और जटिलता पर आधारित होता है।
निष्कर्ष
रैंडम फॉरेस्ट प्रतिगमन और वर्गीकरण कार्यों के लिए एक शक्तिशाली और लचीला उपकरण है। जबकि यह अक्सर एकल निर्णय वृक्षों की तुलना में ओवरफिटिंग को कम करके और सटीकता बढ़ाकर बेहतर प्रदर्शन करता है, यह आपके विशिष्ट डेटासेट के लिए सबसे अच्छे परिणाम प्राप्त करने के लिए विभिन्न मॉडलों और हाइपरपैरामीटर के साथ प्रयोग करना महत्वपूर्ण है।
अगले कदम:
- डाउनलोड करें और प्रयोग करें: अपने डेटासेट पर रैंडम फॉरेस्ट को आजमाने के लिए प्रदान किए गए जुपिटर नोटबुक्स तक पहुंच प्राप्त करें।
- नए मॉडल का अन्वेषण करें: अन्य मशीन लर्निंग मॉडलों पर आगामी ट्यूटोरियल के लिए जुड़े रहें ताकि आप अपनी भविष्यवाणी विश्लेषण टूलकिट को और भी बढ़ा सकें।
पढ़ने के लिए धन्यवाद! खुश मॉडलिंग, और अगले ट्यूटोरियल में मिलते हैं!