S18L08 – संक्षिप्त चर्चा

मशीन लर्निंग में वर्गीकरण समस्याओं के लिए डेटा पूर्वप्रसंस्करण के बारे में व्यापक गाइड

सामग्री सूची

  1. वर्गीकरण समस्याओं का परिचय
  2. डेटा आयात और अवलोकन
  3. गुम डेटा को संभालना
  4. श्रेणिय चर को एन्कोड करना
  5. फ़ीचर चयन
  6. ट्रेन-टेस्ट विभाजन
  7. फ़ीचर स्केलिंग
  8. निष्कर्ष

वर्गीकरण समस्याओं का परिचय

वर्गीकरण एक पर्यवेक्षित शिक्षण तकनीक है जिसका उपयोग श्रेणिय लेबल की भविष्यवाणी के लिए किया जाता है। यह ऐतिहासिक डेटा के आधार पर इनपुट डेटा को पूर्वनिर्धारित श्रेणियों में वर्गीकृत करने में शामिल है। वर्गीकरण मॉडल सरल एल्गोरिदम जैसे लॉजिस्टिक रिग्रेशन से लेकर अधिक जटिल एल्गोरिदम जैसे रैंडम फॉरेस्ट और न्यूरल नेटवर्क तक के बीच विविध होते हैं। इन मॉडलों की सफलता न केवल चुने गए एल्गोरिदम पर निर्भर करती है बल्कि काफी हद तक इस बात पर भी निर्भर करती है कि डेटा को कैसे तैयार और पूर्वप्रसंस्कृत किया गया है।

डेटा आयात और अवलोकन

पूर्वप्रसंस्करण में गोता लगाने से पहले, डेटासेट को समझना और आयात करना आवश्यक है। इस गाइड के लिए, हम Kaggle से WeatherAUS डेटासेट का उपयोग करेंगे, जिसमें ऑस्ट्रेलिया भर में दैनिक मौसम अवलोकन शामिल हैं।

आउटपुट:

डेटासेट में तापमान, वर्षा, आर्द्रता, वायु गति और अन्य विभिन्न विशेषताएं शामिल हैं, जो यह भविष्यवाणी करने के लिए महत्वपूर्ण हैं कि क्या कल वर्षा होगी (RainTomorrow)।

गुम डेटा को संभालना

वास्तविक दुनिया के डेटासेट अक्सर गुम या अधूरे डेटा के साथ आते हैं। इन अंतरालों को संभालना मॉडल की विश्वसनीयता सुनिश्चित करने के लिए महत्वपूर्ण है। हम गुम डेटा को दो श्रेणियों में विभाजित करेंगे: संख्यात्मक और श्रेणिय

क. संख्यात्मक डेटा

संख्यात्मक विशेषताओं के लिए, एक सामान्य रणनीति गुम मानों को सांख्यिकीय उपायों जैसे माध्य, माध्यिका, या बहुलक के साथ प्रतिस्थापित करना है। यहां, हम गुम मानों को भरने के लिए माध्य का उपयोग करेंगे।

ख. श्रेणिय डेटा

श्रेणिय विशेषताओं के लिए, सबसे बार-बार होने वाला मान (बहुलक) गुम डेटा के लिए उपयुक्त प्रतिस्थापन है।

श्रेणिय चर को एन्कोड करना

मशीन लर्निंग मॉडल को संख्यात्मक इनपुट की आवश्यकता होती है। इसलिए, श्रेणिय चर को संख्यात्मक प्रारूपों में बदलना आवश्यक है। हम यह लेबल एन्कोडिंग और वन-हॉट एन्कोडिंग का उपयोग करके प्राप्त कर सकते हैं।

क. लेबल एन्कोडिंग

लेबल एन्कोडिंग एक फीचर में प्रत्येक अद्वितीय श्रेणी को एक अद्वितीय पूर्णांक असाइन करता है। यह सरल है लेकिन इसमें ऐसी क्रमबद्ध संबंधों को पेश कर सकता है जो वास्तव में नहीं होते।

ख. वन-हॉट एन्कोडिंग

वन-हॉट एन्कोडिंग प्रत्येक श्रेणी के लिए बाइनरी कॉलम बनाता है, क्रमबद्ध संबंधों को समाप्त करता है और सुनिश्चित करता है कि प्रत्येक श्रेणी को विशिष्ट रूप से माना जाए।

फ़ीचर के लिए एन्कोडिंग चयन

अद्वितीय श्रेणियों की संख्या पर निर्भर करते हुए, लेबल एन्कोडिंग और वन-हॉट एन्कोडिंग के बीच चयन करना कुशल होता है।

आउटपुट:

यह चरण फीचर स्पेस को इस प्रकार कम करता है कि केवल सबसे प्रासंगिक एन्कोडेड फीचर्स का चयन हो।

फ़ीचर चयन

सभी फीचर्स समान रूप से भविष्यवाणी कार्य में योगदान नहीं करते हैं। फ़ीचर चयन सबसे जानकारीपूर्ण फीचर्स की पहचान करने और उन्हें बनाए रखने में मदद करता है, मॉडल के प्रदर्शन को बढ़ाता है और गणनात्मक ओवरहेड को कम करता है।

आउटपुट:

यह प्रक्रिया फीचर सेट को 23 से 13 तक कम करती है, हमारे वर्गीकरण कार्य के लिए सबसे प्रभावशाली फीचर्स पर ध्यान केंद्रित करती है।

ट्रेन-टेस्ट विभाजन

हमारे वर्गीकरण मॉडल के प्रदर्शन का मूल्यांकन करने के लिए, हमें डेटासेट को प्रशिक्षण और परीक्षण उपसमूहों में विभाजित करने की आवश्यकता है।

आउटपुट:

फ़ीचर स्केलिंग

फ़ीचर स्केलिंग सुनिश्चित करती है कि सभी फीचर्स परिणाम में समान रूप से योगदान दें, विशेष रूप से उन एल्गोरिदम के लिए महत्वपूर्ण है जो फीचर मैग्निट्यूड के प्रति संवेदनशील होते हैं जैसे सपोर्ट वेक्टर मशीन या K-नज़दीकी पड़ोसी

मानकीकरण

मानकीकरण डेटा को इस प्रकार पुनः स्केल करता है कि इसका माध्य शून्य और मानक विचलन एक हो।

आउटपुट:

नोट: पैरामीटर with_mean=False का उपयोग वन-हॉट एन्कोडिंग से उत्पन्न स्पार्स डेटा मैट्रिक्स के साथ समस्याओं से बचने के लिए किया जाता है।

निष्कर्ष

डेटा पूर्वप्रसंस्करण मजबूत और सटीक वर्गीकरण मॉडल के निर्माण में एक महत्वपूर्ण चरण है। गुम डेटा को व्यवस्थित रूप से संभाल कर, श्रेणिय चर को एन्कोड कर, प्रासंगिक फीचर्स का चयन कर और स्केलिंग करके, हम किसी भी मशीन लर्निंग मॉडल के लिए एक मजबूत आधार स्थापित करते हैं। इस गाइड ने Python और इसकी शक्तिशाली लाइब्रेरीज का उपयोग करते हुए एक व्यावहारिक दृष्टिकोण प्रदान किया है, यह सुनिश्चित करते हुए कि आपकी वर्गीकरण समस्याएँ मॉडल प्रशिक्षण और मूल्यांकन के लिए अच्छी तरह से तैयार हैं। याद रखें, कहावत “कचरा अंदर, कचरा बाहर” मशीन लर्निंग में सही रहती है; इसलिए, डेटा पूर्वप्रसंस्करण में समय निवेश करना मॉडल के प्रदर्शन में लाभ देता है।


कीवर्ड्स: वर्गीकरण समस्याएँ, डेटा पूर्वप्रसंस्करण, मशीन लर्निंग, डेटा क्लीनिंग, फीचर चयन, लेबल एन्कोडिंग, वन-हॉट एन्कोडिंग, फीचर स्केलिंग, Python, Pandas, Scikit-learn, वर्गीकरण मॉडल्स

Share your love