S16L02 – मास्टर टेम्पलेट प्रतिगमन मॉडल – मॉडल्स और मूल्यांकन

उन्नत प्रतिगमन मॉडलों के साथ कार मूल्य पूर्वानुमान में महारत: एक व्यापक मार्गदर्शिका

सामग्री सूचि

  1. परिचय
  2. डेटासेट अवलोकन
  3. डेटा आयात और प्रारंभिक अन्वेषण
  4. डेटा सफाई और पूर्वप्रसंस्करण
    1. गुम संख्यात्मक डेटा को संभालना
    2. गुम श्रेणीबद्ध डेटा को संभालना
  5. विशेषता चयन और एन्कोडिंग
    1. अनुचित विशेषताओं को हटाना
    2. श्रृंगारी परिवर्तनीयों का वन-हॉट एन्कोडिंग
  6. प्रशिक्षण-परीक्षण विभाजन
  7. विशेषता स्केलिंग
  8. प्रतिगमन मॉडलों का निर्माण और मूल्यांकन
    1. 1. रैखिक प्रतिगमन
    2. 2. बहुपद रैखिक प्रतिगमन
    3. 3. निर्णय वृक्ष प्रतिगमन
    4. 4. रैंडम फॉरेस्ट प्रतिगमन
    5. 5. एडा बूस्ट प्रतिगमन
    6. 6. एक्सजीबूस्ट प्रतिगमन
    7. 7. सपोर्ट वेक्टर प्रतिगमन (SVR)
  9. मॉडल प्रदर्शन तुलना
  10. निष्कर्ष

परिचय

पूर्वानुमानात्मक विश्लेषिकी व्यवसायों को भविष्य के रुझानों की भविष्यवाणी करने, संचालन को अनुकूलित करने और निर्णय-निर्माण प्रक्रियाओं को बेहतर बनाने में सक्षम बनाती है। कार मूल्य पूर्वानुमान एक मौलिक उदाहरण है जहां मशीन लर्निंग मॉडल वाहन के ब्रांड, इंजन विनिर्देशों, ईंधन प्रकार और अन्य गुणों के आधार पर कार की कीमत का पूर्वानुमान लगा सकते हैं। यह मार्गदर्शिका डेटा पूर्वप्रसंस्करण से लेकर कई प्रतिगमन एल्गोरिदम के मूल्यांकन तक एक व्यापक प्रतिगमन मॉडल पाइपलाइन बनाने के चरणों के माध्यम से आपके मार्गदर्शन के लिए तैयार की गई है।

डेटासेट अवलोकन

Kaggle पर कार मूल्य पूर्वानुमान डेटासेट 205 प्रविष्टियों के साथ 26 विशेषताओं वाला एक समृद्ध संसाधन है। इन विशेषताओं में कारों के विभिन्न पहलू शामिल हैं, जैसे दरवाजों की संख्या, इंजन आकार, हॉर्सपावर, ईंधन प्रकार, और अन्य, जो सभी कार की बाजार कीमत को प्रभावित करते हैं।

मुख्य विशेषताएं:

  • CarName: कार का नाम (ब्रांड और मॉडल)
  • FuelType: उपयोग किया गया ईंधन का प्रकार (जैसे, गैस, डीजल)
  • Aspiration: इंजन प्रेरणा प्रकार
  • Doornumber: दरवाजों की संख्या (दो या चार)
  • Enginesize: इंजन का आकार
  • Horsepower: इंजन की शक्ति
  • Price: कार की बाजार कीमत (लक्ष्य चर)

डेटा आयात और प्रारंभिक अन्वेषण

सबसे पहले, हम pandas का उपयोग करके डेटासेट को आयात करते हैं और डेटा संरचना पर एक प्रारंभिक नजर डालते हैं।

नमूना आउटपुट:

डेटा सफाई और पूर्वप्रसंस्करण

गुम संख्यात्मक डेटा को संभालना

गुम मान मशीन लर्निंग मॉडलों के प्रदर्शन को काफी हद तक प्रभावित कर सकते हैं। हम सबसे पहले गुम संख्यात्मक डेटा को माध्य मान के साथ प्रतिपूर्ति करके उसे संबोधित करते हैं।

गुम श्रेणीबद्ध डेटा को संभालना

श्रेणीबद्ध परिवर्तनीयों के लिए, गुम मानों को सबसे सामान्य रणनीति का उपयोग करके प्रतिपूर्ति किया जाता है।

विशेषता चयन और एन्कोडिंग

अनुचित विशेषताओं को हटाना

car_ID कॉलम एक अद्वितीय पहचानकर्ता है और मॉडल की भविष्यवाणी क्षमता में योगदान नहीं देता है। इसलिए, इसे हटा दिया जाता है।

श्रृंगारी परिवर्तनीयों का वन-हॉट एन्कोडिंग

मशीन लर्निंग एल्गोरिदम को संख्यात्मक इनपुट की आवश्यकता होती है। इसलिए, श्रेणीबद्ध परिवर्तनीयों को वन-हॉट एन्कोडिंग का उपयोग करके परिवर्तित किया जाता है।

एन्कोडिंग से पहले:

  • आकृति: (205, 24)

एन्कोडिंग के बाद:

  • आकृति: (205, 199)

प्रशिक्षण-परीक्षण विभाजन

डेटासेट को प्रशिक्षण और परीक्षण सेटों में विभाजित करना मॉडल के प्रदर्शन के मूल्यांकन के लिए महत्वपूर्ण है।

आउटपुट:

विशेषता स्केलिंग

विशेषता स्केलिंग यह सुनिश्चित करती है कि सभी विशेषताएं मॉडल के प्रदर्शन में समान रूप से योगदान दें। यहां, हम मानकीकरण का उपयोग करते हैं।

प्रतिगमन मॉडलों का निर्माण और मूल्यांकन

हम कई प्रतिगमन मॉडलों का अन्वेषण करेंगे, प्रत्येक का मूल्यांकन R² स्कोर के आधार पर करेंगे।

1. रैखिक प्रतिगमन

रैखिक प्रतिगमन एक आधाररेखा मॉडल के रूप में कार्य करता है।

R² स्कोर: 0.097
व्याख्या: यह मॉडल कार की कीमत के विचलन का लगभग 9.7% व्याख्या करता है।

2. बहुपद रैखिक प्रतिगमन

गैर-रेखीय संबंधों को पकड़ने के लिए, हम बहुपद विशेषताओं को पेश करते हैं।

R² स्कोर: -0.45
व्याख्या: यह मॉडल आधाररेखा से भी खराब प्रदर्शन करता है, कार कीमत के विचलन का -45% व्याख्या करता है।

3. निर्णय वृक्ष प्रतिगमन

निर्णय वृक्ष डेटा को विभाजित करके जटिल संबंधों की मॉडलिंग कर सकता है।

R² स्कोर: 0.88
व्याख्या: एक महत्वपूर्ण सुधार, विचलन का 88% व्याख्या करता है।

4. रैंडम फॉरेस्ट प्रतिगमन

रैंडम फॉरेस्ट कई निर्णय वृक्षों को समेकित करके प्रदर्शन को बढ़ाता है और ओवरफिटिंग को कम करता है।

R² स्कोर: 0.91
व्याख्या: उत्कृष्ट प्रदर्शन, कार कीमत के विचलन का 91% व्याख्या करता है।

5. एडा बूस्ट प्रतिगमन

एडा बूस्ट कमजोर शिक्षार्थियों को एक साथ जोड़कर एक मजबूत भविष्यवक्ता बनाता है, गलतियों पर ध्यान केंद्रित करके।

R² स्कोर: 0.88
व्याख्या: निर्णय वृक्ष के समान, विचलन का 88% व्याख्या करता है।

6. एक्सजीबूस्ट प्रतिगमन

एक्सजीबूस्ट एक शक्तिशाली ग्रेडिएंट बूस्टिंग फ्रेमवर्क है, जो इसकी दक्षता और प्रदर्शन के लिए जाना जाता है।

R² स्कोर: 0.89
व्याख्या: मजबूत प्रदर्शन, विचलन का 89% व्याख्या करता है।

7. सपोर्ट वेक्टर प्रतिगमन (SVR)

SVR उच्च-आयामी स्थानों में प्रभावी है लेकिन बड़े डेटासेट के साथ अंडरपरफॉर्म कर सकता है।

R² स्कोर: -0.03
व्याख्या: खराब प्रदर्शन, विचलन का -3% व्याख्या करता है।

मॉडल प्रदर्शन तुलना

मॉडल R² स्कोर
रैखिक प्रतिगमन 0.10
बहुपद रैखिक प्रतिगमन -0.45
निर्णय वृक्ष प्रतिगमन 0.88
रैंडम फॉरेस्ट प्रतिगमन 0.91
एडा बूस्ट प्रतिगमन 0.88
एक्सजीबूस्ट प्रतिगमन 0.89
सपोर्ट वेक्टर प्रतिगमन (SVR) -0.03

जानकारी:

  • रैंडम फॉरेस्ट प्रतिगमन ने सभी अन्य मॉडलों की तुलना में उत्कृष्ट प्रदर्शन किया है, R² स्कोर 0.91 के साथ, जो यह दर्शाता है कि यह कार कीमत के विचलन का 91% व्याख्या करता है।
  • बहुपद रैखिक प्रतिगमन ने सबसे खराब प्रदर्शन किया, यहां तक कि आधाररेखा मॉडल से भी खराब, जो ओवरफिटिंग या अनुचित विशेषता रूपांतरण का सुझाव देता है।
  • सपोर्ट वेक्टर प्रतिगमन (SVR) ने इस डेटासेट के साथ संघर्ष किया, संभवतः एन्कोडिंग के बाद उच्च आयामीता के कारण।

निष्कर्ष

कार मूल्य पूर्वानुमान के लिए पूर्वानुमानात्मक मॉडलिंग सही एल्गोरिदम चुनने और व्यापक डेटा पूर्वप्रसंस्करण के महत्व को रेखांकित करती है। हमारे अन्वेषण में:

  • निर्णय वृक्ष और रैंडम फॉरेस्ट मॉडल ने उत्कृष्ट प्रदर्शन दिखाया, जिसमें रैंडम फॉरेस्ट थोड़ा आगे था।
  • एन्सेम्बल विधियाँ जैसे एडा बूस्ट और एक्सजीबूस्ट ने भी मजबूत परिणाम दिखाए, जो जटिल डेटासेट को संभालने में उनकी क्षमता को दर्शाते हैं।
  • रैखिक मॉडल, विशेष रूप से जब उन्हें बहुपद विशेषताओं में विस्तारित किया जाता है, हमेशा बेहतर प्रदर्शन नहीं दे सकते और कभी-कभी मॉडल की दक्षता को कम कर सकते हैं।
  • सपोर्ट वेक्टर प्रतिगमन (SVR) उच्च आयामीता वाले डेटासेट या जहां गैर-रेखीय पैटर्न कम स्पष्ट हैं, उन डेटासेट के लिए सबसे अच्छा फिट नहीं हो सकता है।

मुख्य निष्कर्ष:

  1. डेटा पूर्वप्रसंस्करण: गुम मानों को संभालना और श्रेणीबद्ध परिवर्तनीयों को एन्कोड करना महत्वपूर्ण कदम हैं जो मॉडल के प्रदर्शन को काफी प्रभावित करते हैं।
  2. विशेषता स्केलिंग: यह सुनिश्चित करता है कि सभी विशेषताएं समान रूप से योगदान दें, जो ग्रेडिएंट-आधारित एल्गोरिदम की दक्षता में सुधार करता है।
  3. मॉडल चयन: एन्सेम्बल विधियाँ जैसे रैंडम फॉरेस्ट और एक्सजीबूस्ट अक्सर प्रतिगमन कार्यों में श्रेष्ठ प्रदर्शन प्रदान करती हैं।
  4. मॉडल मूल्यांकन: R² स्कोर एक मूल्यवान मीट्रिक है यह आंकलन करने के लिए कि भविष्यवाणियाँ वास्तविक परिणामों के कितनी करीब हैं।

उन्नत प्रतिगमन मॉडलों का उपयोग करके कार मूल्य पूर्वानुमान पर काम करना न केवल भविष्यवाणी की सटीकता को बढ़ाता है बल्कि स्टेकहोल्डर्स को बाजार की गतिशीलताओं में व्यावहारिक अंतर्दृष्टि भी प्रदान करता है। जैसे-जैसे मशीन लर्निंग का क्षेत्र विकसित होता रहता है, नवीनतम एल्गोरिदम और तकनीकों के साथ अपडेट रहना डेटा प्रेमियों और पेशेवरों दोनों के लिए आवश्यक है।

Share your love