S18L06 – पूर्व प्रसंस्करण का पुनर्विचार जारी

html

मशीन लर्निंग के लिए डेटा प्रीप्रोसेसिंग और मॉडल निर्माण का व्यापक मार्गदर्शिका

सामग्री की सूची

  1. परिचय
  2. डेटा आयात करना और उसका अन्वेषण करना
  3. गायब डेटा को संभालना
  4. श्रेणीबद्ध वेरिएबल्स को एन्कोड करना
  5. फीचर चयन
  6. ट्रेन-टेस्ट विभाजन
  7. फीचर स्केलिंग
  8. रेग्रेशन मॉडल का निर्माण
  9. मॉडल मूल्यांकन
  10. निष्कर्ष

1. परिचय

डेटा प्रीप्रोसेसिंग मशीन लर्निंग पाइपलाइन का एक महत्वपूर्ण चरण है। इसमें कच्चे डेटा को मॉडलिंग के लिए उपयुक्त प्रारूप में परिवर्तित करना शामिल है, जिससे भविष्यवाणी मॉडल की प्रदर्शन और सटीकता में सुधार होता है। यह लेख एक चरण-दर-चरण प्रक्रिया को दर्शाता है जिसमें डेटा प्रीप्रोसेसिंग और मॉडल निर्माण शामिल है, जिसका उपयोग एक मौसम डेटा सेट से किया गया है जो कागल से प्राप्त किया गया है।

2. डेटा आयात करना और उसका अन्वेषण करना

प्रीप्रोसेसिंग में डुबकी लगाने से पहले, यह आवश्यक है कि डेटा सेट को लोड किया जाए और उसकी समझ हासिल की जाए।

नमूना आउटपुट:

डेटासेट की संरचना को समझना प्रभावी प्रीप्रोसेसिंग के लिए अत्यंत महत्वपूर्ण है। डेटा प्रकार और सांख्यिकीय सारांशों की जानकारी प्राप्त करने के लिए .info() और .describe() का उपयोग करें।

3. गायब डेटा को संभालना

गायब डेटा आपके विश्लेषण के परिणामों को विकृत कर सकता है। उन्हें उचित तरीके से संभालना अत्यंत आवश्यक है।

संख्यात्मक डेटा

संख्यात्मक स्तंभों के लिए, गायब मानों को मीन, मेडियन, या मोड जैसी रणनीतियों का उपयोग करके इम्युट किया जा सकता है।

श्रेणीबद्ध डेटा

श्रेणीबद्ध स्तंभों के लिए, गायब मानों को सबसे अधिक बार आने वाले मान का उपयोग करके इम्युट किया जा सकता है।

4. श्रेणीबद्ध वेरिएबल्स को एन्कोड करना

मशीन लर्निंग मॉडल्स को संख्यात्मक इनपुट की आवश्यकता होती है। इसलिए, श्रेणीबद्ध वेरिएबल्स को उपयुक्त रूप से एन्कोड करना आवश्यक है।

लेबल एन्कोडिंग

लेबल एन्कोडिंग श्रेणीबद्ध लेबल्स को संख्यात्मक मानों में परिवर्तित करती है। यह द्विआधारी श्रेणियों या क्रमबद्ध डेटा के लिए उपयुक्त है।

वन-हॉट एन्कोडिंग

वन-हॉट एन्कोडिंग श्रेणीबद्ध वेरिएबल्स को बाइनरी मैट्रिक्स में परिवर्तित करती है। यह दो से अधिक श्रेणियों वाले नाममात्र डेटा के लिए आदर्श है।

थ्रेशोल्ड के आधार पर एन्कोडिंग चयन

एन्कोडिंग प्रक्रिया को सरल बनाने के लिए, आप एक ऐसी फंक्शन बना सकते हैं जो प्रत्येक स्तंभ में श्रेणियों की संख्या के आधार पर एन्कोडिंग विधि का चयन करे।

5. फीचर चयन

फीचर चयन में मॉडल निर्माण के लिए सबसे प्रासंगिक फीचर्स का चयन शामिल है। सहसंबंध विश्लेषण, हीटमैप्स, और SelectKBest जैसी विधियों का उपयोग करके प्रभावी फीचर्स की पहचान की जा सकती है।

6. ट्रेन-टेस्ट विभाजन

डेटासेट को प्रशिक्षण और परीक्षण सेट में विभाजित करना यह सुनिश्चित करने के लिए अनिवार्य है कि मॉडल अप्रत्यक्ष डेटा पर प्रभावी ढंग से कार्य करे।

7. फीचर स्केलिंग

फीचर स्केलिंग यह सुनिश्चित करती है कि सभी फीचर्स परिणाम में समान रूप से योगदान दें। यह ग्रेडियेंट डिसेंट के सममिलन को तेज करने में सहायक होती है।

मानकीकरण

मानकीकरण डेटा को शून्य के माध्य और एक के मानक विचलन के साथ परिवर्तित करती है।

सामानिकीकरण

सामानिकीकरण डेटा को एक निश्चित सीमा, आमतौर पर 0 और 1 के बीच बढ़ाती है।

8. रेग्रेशन मॉडल का निर्माण

एक बार डेटा प्रीप्रोसेस हो जाने के बाद, विभिन्न रेग्रेशन मॉडल बनाए जा सकते हैं और उनका मूल्यांकन किया जा सकता है। नीचे कई लोकप्रिय रेग्रेशन एल्गोरिदम का कार्यान्वयन दिया गया है।

लीनियर रेग्रेशन

एक मौलिक एल्गोरिदम जो आश्रित वेरिएबल और एक या अधिक स्वतंत्र वेरिएबल्स के बीच संबंध को मॉडल करता है।

पॉलीनोमियल रेग्रेशन

लीनियर मॉडल को पॉलीनोमियल टर्म्स जोड़कर बढ़ाता है, जिससे गैर-रेखीय संबंधों को कैप्चर किया जा सके।

नोट: नकारात्मक R² स्कोर खराब मॉडल प्रदर्शन को दर्शाता है।

डिसीजन ट्री रेग्रेशन

एक गैर-रेखीय मॉडल जो फीचर मानों के आधार पर डेटा को उपसमूहों में विभाजित करता है।

रैंडम फॉरेस्ट रेग्रेशन

एक एंसेंबल मेथड जो कई डिसीजन ट्रीज़ को मिलाकर प्रदर्शन में सुधार करता है और ओवरफिटिंग को कम करता है।

एडा-बूस्ट रेग्रेशन

एक और एंसेंबल तकनीक जो कमजोर शिक्षकों को मिलाकर एक मजबूत भविष्यवक्ता बनाती है।

एक्सजीबूस्ट रेग्रेशन

एक शक्तिशाली ग्रेडियेंट बूस्टिंग फ्रेमवर्क जो गति और प्रदर्शन के लिए अनुकूलित है।

सपोर्ट वैक्टर मशीन (SVM) रेग्रेशन

SVM को रेग्रेशन कार्यों के लिए अनुकूलित किया जा सकता है, जो जटिल संबंधों को कैप्चर करता है।

नोट: नकारात्मक R² स्कोर यह दर्शाता है कि मॉडल क्षैतिज रेखा से भी खराब प्रदर्शन करता है।

9. मॉडल मूल्यांकन

R² स्कोर रेग्रेशन मॉडलों का मूल्यांकन करने के लिए एक सामान्य मीट्रिक है। यह बताता है कि स्वतंत्र वेरिएबल्स से dependent वेरिएबल में परिवर्तन का कितना हिस्सा भविष्यवाणी किया जा सकता है।

  • सकारात्मक R²: मॉडल परिवर्तन के एक हिस्से को समझाता है।
  • नकारात्मक R²: मॉडल परिवर्तन को समझाने में विफल रहता है, और मीन-आधारित मॉडल की तुलना में खराब प्रदर्शन करता है।

इस मार्गदर्शिका में, रैंडम फॉरेस्ट रेग्रेशन ने लगभग 0.91 के उच्चतम R² स्कोर को प्राप्त किया, जो परीक्षण डेटा पर मजबूत प्रदर्शन को दर्शाता है।

10. निष्कर्ष

प्रभावी डेटा प्रीप्रोसेसिंग मजबूत मशीन लर्निंग मॉडल बनाने की नींव रखती है। गायब डेटा को सावधानीपूर्वक संभालकर, उपयुक्त एन्कोडिंग तकनीकों का चयन करके, और फीचर्स को स्केल करके, आप अपने डेटा की गुणवत्ता में सुधार करते हैं, जिससे मॉडल प्रदर्शन में सुधार होता है। अन्वेषण किए गए रेग्रेशन मॉडलों में से, एंसेंबल मेथड्स जैसे रैंडम फॉरेस्ट और एडा-बूस्ट ने मौसम डेटा सेट पर श्रेष्ठ भविष्यवाणी क्षमताएँ प्रदर्शित कीं। हमेशा याद रखें कि अपने मॉडलों का पूरी तरह से मूल्यांकन करें और उस मॉडल को चुनें जो आपके प्रोजेक्ट उद्देश्यों के साथ सबसे उपयुक्त हो।

इन प्रीप्रोसेसिंग और मॉडलिंग रणनीतियों को अपनाकर अपने डेटा सेट्स की पूरी क्षमता को उजागर करें और प्रभावशाली मशीन लर्निंग समाधानों को संचालित करें।

Share your love