S05L07 – असाइनमेंट समाधान और वनहॉट इनकोडिंग – भाग 01

html

डेटा प्रीप्रोसेसिंग के व्यापक मार्गदर्शिका: वन-हॉट एनकोडिंग और पाइथन के साथ मिसिंग डेटा को संभालना

डेटा साइंस और मशीन लर्निंग के क्षेत्र में, डेटा प्रीप्रोसेसिंग एक महत्वपूर्ण कदम के रूप में खड़ा होता है जो आपके मॉडलों के प्रदर्शन और सटीकता पर महत्वपूर्ण प्रभाव डाल सकता है। यह व्यापक मार्गदर्शिका आवश्यक प्रीप्रोसेसिंग तकनीकों जैसे वन-हॉट एनकोडिंग, मिसिंग डेटा को संभालना, फीचर चयन, और अधिक पर गहराई से अध्ययन करती है, जिसमें पाइथन की शक्तिशाली पुस्तकालयों जैसे पांडा और साइकीट-लर्न का उपयोग किया गया है। हम इन अवधारणाओं को वेदर ऑस्ट्रेलिया डेटासेट का उपयोग करके एक व्यावहारिक उदाहरण के साथ समझेंगे।

सूची

  1. परिचय
  2. डेटासेट को समझना
  3. मिसिंग डेटा को संभालना
  4. फीचर चयन
  5. लेबल एनकोडिंग
  6. वन-हॉट एनकोडिंग
  7. असंतुलित डेटा को संभालना
  8. ट्रेन-टेस्ट स्प्लिट
  9. फीचर स्केलिंग
  10. निष्कर्ष

परिचय

डेटा प्रीप्रोसेसिंग वह आधारशिला है जिस पर मजबूत मशीन लर्निंग मॉडल बनाए जाते हैं। इसमें कच्चे डेटा को साफ और संगठित प्रारूप में परिवर्तित करना शामिल है, जिससे यह विश्लेषण के लिए उपयुक्त हो सके। इस प्रक्रिया में शामिल हैं:

  • मिसिंग डेटा को संभालना: डेटासेट में अंतराल को संबोधित करना।
  • श्रेणीबद्ध वेरिएबल्स को एनकोड करना: गैर-संख्यात्मक डेटा को संख्यात्मक प्रारूप में बदलना।
  • फीचर चयन: सबसे प्रासंगिक फीचर्स की पहचान करना और उन्हें बनाए रखना।
  • डेटासेट का संतुलन: वर्गों का समान वितरण सुनिश्चित करना।
  • फीचर्स को स्केल करना: मॉडल के प्रदर्शन को बढ़ाने के लिए डेटा को सामान्यीकृत करना।

आइए पाइथन का उपयोग करके इन अवधारणाओं को चरण-दर-चरण देखते हैं।

डेटासेट को समझना

प्रीप्रोसेसिंग में गोता लगाने से पहले, यह समझना महत्वपूर्ण है कि हम किस डेटासेट के साथ काम कर रहे हैं। हम वेदर ऑस्ट्रेलिया डेटासेट का उपयोग करेंगे, जिसमें 142,193 रिकॉर्ड और 24 कॉलम शामिल हैं। इस डेटासेट में तापमान, वर्षा, आर्द्रता जैसे विभिन्न मौसमीय गुण शामिल हैं, साथ ही एक लक्ष्य वेरिएबल भी है जो यह दर्शाता है कि अगले दिन बारिश होगी या नहीं।

डेटासेट का नमूना

मिसिंग डेटा को संभालना

वास्तविक दुनिया के डेटासेट में अक्सर मिसिंग मान होते हैं। इन अंतरालों को सही ढंग से संभालना आवश्यक है ताकि परिणामों में गड़बड़ी न हो और मॉडल की सटीकता सुनिश्चित हो सके।

संख्यात्मक डेटा

हमारे डेटासेट में संख्यात्मक कॉलम में MinTemp, MaxTemp, Rainfall, Evaporation आदि शामिल हैं। इन कॉलमों में मिसिंग मानों को मीन, मीडियन, या मोड जैसी सांख्यिकीय मापों से पूर्ण किया जा सकता है।

श्रेणीबद्ध डेटा

जैसे Location, WindGustDir, WindDir9am आदि श्रेणीबद्ध कॉलमों में मिसिंग मानों को मीन या मीडियन से पूर्ण नहीं किया जा सकता। इसके बजाय, हम इन अंतरालों को भरने के लिए सबसे बार-बार आने वाले मान (मोड) का उपयोग करते हैं।

फीचर चयन

फीचर चयन में सबसे प्रासंगिक वेरिएबल्स की पहचान करना शामिल है जो भविष्यवाणी कार्य में योगदान देती हैं। हमारे मामले में, हम Date और RISK_MM जैसे अप्रासंगिक या अतिरिक्‍त कॉलमों को हटा देंगे।

लेबल एनकोडिंग

लेबल एनकोडिंग श्रेणीबद्ध लक्ष्य वेरिएबल्स को संख्यात्मक प्रारूप में बदलता है। बारिश कल (Yes या No) की भविष्यवाणी जैसे बाइनरी वर्गीकरण कार्यों के लिए यह विधि सरल है।

वन-हॉट एनकोडिंग

जबकि लेबल एनकोडिंग ऑर्डिनल डेटा के लिए उपयुक्त है, वन-हॉट एनकोडिंग नामिनल डेटा के लिए पसंदीदा है जहां श्रेणियों का कोई अंतर्निहित क्रम नहीं होता है। इस तकनीक से प्रत्येक श्रेणी के लिए बाइनरी कॉलम बनते हैं, जो मॉडल को श्रेणीबद्ध वेरिएबल्स को समझने में मदद करता है।

नोट: कॉलम [0,6,8,9,20] श्रेणीबद्ध फीचर्स जैसे Location, WindGustDir आदि के अनुरूप हैं।

असंतुलित डेटा को संभालना

असंतुलित डेटासेट्स, जहां एक क्लास अत्यधिक दूसरे की तुलना में होती है, मॉडल को बायस कर सकती हैं। ओवरसैंपलिंग और अंडरसैंपलिंग जैसी तकनीकें डेटासेट को संतुलित करने में मदद करती हैं।

ओवरसैंपलिंग

रैंडम ओवरसैंपलिंग अल्पसंख्यक क्लास से उदाहरणों को डुप्लिकेट करके क्लास वितरण को संतुलित करता है।

आउटपुट:

अंडरसैंपलिंग

रैंडम अंडरसैंपलिंग बहुसंख्यक क्लास से उदाहरणों को कम करता है लेकिन इससे जानकारी खो सकती है। इस मार्गदर्शिका में, हमने सभी डेटा पॉइंट्स को बनाए रखने के लिए ओवरसैंपलिंग का उपयोग किया है।

ट्रेन-टेस्ट स्प्लिट

डेटासेट को प्रशिक्षण और परीक्षण सेट में विभाजित करना अज्ञात डेटा पर मॉडल के प्रदर्शन का मूल्यांकन करने के लिए महत्वपूर्ण है।

फीचर स्केलिंग

फीचर स्केलिंग सुनिश्चित करती है कि सभी संख्यात्मक फीचर्स समान रूप से मॉडल के प्रदर्शन में योगदान दें।

स्टैंडर्डाइजेशन

स्टैंडर्डाइजेशन डेटा को मीन 0 और स्टैंडर्ड डिविएशन 1 के साथ ट्रांसफॉर्म करता है।

नॉर्मलाइजेशन

नॉर्मलाइजेशन फीचर्स को 0 और 1 के बीच के रेंज में स्केल करती है। हालांकि इसे इस मार्गदर्शिका में शामिल नहीं किया गया है, यह डेटासेट और मॉडल आवश्यकताओं के आधार पर एक अन्य मूल्यवान स्केलिंग तकनीक है।

निष्कर्ष

प्रभावी डेटा प्रीप्रोसेसिंग उच्च-प्रदर्शन वाले मशीन लर्निंग मॉडल बनाने में सहायक होती है। मिसिंग डेटा को सावधानीपूर्वक संभालने, श्रेणीबद्ध वेरिएबल्स को एनकोड करने, डेटासेट को संतुलित करने, और फीचर्स को स्केल करने के द्वारा, आप अपने भविष्यवाणी कार्यों के लिए एक ठोस आधार स्थापित करते हैं। इस मार्गदर्शिका ने पाइथन की मजबूत पुस्तकालयों का उपयोग करके एक व्यावहारिक दृष्टिकोण प्रदान किया, यह दर्शाते हुए कि ये तकनीकें आपके डेटा साइंस वर्कफ़्लो में कैसे सहजता से शामिल की जा सकती हैं।

याद रखें, आपके डेटा की गुणवत्ता सीधे तौर पर आपके मॉडलों की सफलता को प्रभावित करती है। अपने डेटासेट्स की पूरी क्षमता को उजागर करने के लिए प्रीप्रोसेसिंग में समय निवेश करें।


कीवर्ड्स

  • डेटा प्रीप्रोसेसिंग
  • वन-हॉट एनकोडिंग
  • मिसिंग डेटा को संभालना
  • पाइथन पांडा
  • साइकीट-लर्न
  • मशीन लर्निंग
  • फीचर स्केलिंग
  • असंतुलित डेटा
  • लेबल एनकोडिंग
  • श्रेणीबद्ध वेरिएबल्स

Share your love