S18L07 – फीचर चयन

html

मशीन लर्निंग में फीचर चयन में महारत हासिल करना: एक व्यापक मार्गदर्शिका

सामग्री

  1. फीचर चयन का परिचय
  2. फीचर चयन क्यों महत्वपूर्ण है
  3. SelectKBest और CHI2 को समझना
  4. कदम-दर-कदम फीचर चयन प्रक्रिया
    1. 1. लाइब्रेरी और डेटा इम्पोर्ट करना
    2. 2. अन्वेषणात्मक डेटा विश्लेषण (EDA)
    3. 3. लापता डेटा को संभालना
    4. 4. श्रेणीबद्ध चर को एन्कोड करना
    5. 5. फीचर स्केलिंग
    6. 6. CHI2 के साथ SelectKBest लागू करना
    7. 7. फीचर्स का चयन और ड्रॉप करना
    8. 8. डेटासेट को विभाजित करना
  5. व्यावहारिक उदाहरण: मौसम डेटासेट
  6. फीचर चयन में सर्वश्रेष्ठ प्रथाएँ
  7. निष्कर्ष
  8. अतिरिक्त संसाधन

फीचर चयन का परिचय

फीचर चयन में मॉडल निर्माण के लिए प्रासंगिक फीचर्स (चर, भविष्यवाणियों) के एक उपसमुच्चय का चयन शामिल है। अप्रासंगिक या अधीकृत डेटा को समाप्त करके, फीचर चयन मॉडल के प्रदर्शन में सुधार करता है, ओवरफिटिंग को कम करता है, और संगणनात्मक लागत को घटाता है।

फीचर चयन क्यों महत्वपूर्ण है

  1. बेहतर मॉडल प्रदर्शन: अप्रासंगिक फीचर्स की संख्या को कम करने से मॉडल की सटीकता में सुधार हो सकता है।
  2. ओवरफिटिंग में कमी: कम फीचर्स डेटा में शोर को कैप्चर करने की संभावना को कम करते हैं।
  3. तेजी से प्रशिक्षण: कम डेटा का अर्थ है घटित संगणनात्मक संसाधन और तेज मॉडल प्रशिक्षण समय।
  4. संवेदनशीलता में वृद्धि: सरल मॉडल को समझना और व्याख्या करना आसान होता है।

SelectKBest और CHI2 को समझना

SelectKBest स्किकिट-लर्न द्वारा प्रदान किया गया एक फीचर चयन विधि है, जो स्कोरिंग फ़ंक्शन के आधार पर शीर्ष 'k' फीचर्स का चयन करती है। जब इसे CHI2 (Chi-squared) के साथ जोड़ा जाता है, तो यह प्रत्येक फीचर की स्वतंत्रता को लक्ष्य चर के संदर्भ में आकलन करता है, जिससे यह विशेष रूप से श्रेणीबद्ध डेटा के लिए उपयोगी होता है।

CHI2 परीक्षण: यह आकलन करता है कि क्या दो चर के बीच उनकी आवृत्तियों को ध्यान में रखते हुए महत्वपूर्ण संघ है।

कदम-दर-कदम फीचर चयन प्रक्रिया

1. लाइब्रेरी और डेटा इम्पोर्ट करना

डेटासेट: इस मार्गदर्शिका के लिए, हम कग्गल से मौसम डेटासेट का उपयोग करेंगे।

2. अन्वेषणात्मक डेटा विश्लेषण (EDA)

डेटा की संरचना और सहसंबंधों को समझना आवश्यक है।

मुख्य अवलोकन:

  • कुछ तापमान चर के बीच मजबूत सहसंबंध मौजूद हैं।
  • आर्द्रता और दबाव गुणों का लक्ष्य चर के साथ महत्वपूर्ण संबंध दिखाता है।

3. लापता डेटा को संभालना

लापता डेटा परिणामों को विकृत कर सकता है। इन्हें उचित रूप से संभालना महत्वपूर्ण है।

संख्यात्मक डेटा

लापता संख्यात्मक मानों को भरने के लिए SimpleImputer का 'mean' रणनीति के साथ उपयोग करें।

श्रेणीबद्ध डेटा

श्रेणीबद्ध चर के लिए, सबसे अधिक सामान्य मान का उपयोग करके लापता प्रविष्टियों को भरें।

4. श्रेणीबद्ध चर को एन्कोड करना

मशीन लर्निंग मॉडल को संख्यात्मक इनपुट की आवश्यकता होती है, इसलिए श्रेणीबद्ध चर को एन्कोड करना आवश्यक है।

वन-हॉट एन्कोडिंग

दो से अधिक श्रेणियों वाले श्रेणीबद्ध चर के लिए आदर्श।

लेबल एन्कोडिंग

द्विआधारी श्रेणियों वाले श्रेणीबद्ध चर के लिए उपयुक्त।

एन्कोडिंग चयन

यूनिक श्रेणियों की संख्या के आधार पर एन्कोडिंग प्रक्रिया को स्वचालित करें।

5. फीचर स्केलिंग

फीचर्स को मानकीकृत करना सुनिश्चित करता है कि प्रत्येक फीचर परिणाम में समान रूप से योगदान देता है।

6. CHI2 के साथ SelectKBest लागू करना

शीर्ष 'k' फीचर्स का चयन करें जिनका लक्ष्य चर के साथ सबसे मजबूत संबंध है।

7. फीचर्स का चयन और ड्रॉप करना

सबसे प्रासंगिक फीचर्स की पहचान करें और उन्हें बनाए रखें जबकि सबसे कम महत्वपूर्ण को हटा दें।

8. डेटासेट को विभाजित करना

मॉडल के प्रदर्शन का मूल्यांकन करने के लिए डेटा को प्रशिक्षण और परीक्षण सेट में विभाजित करें।

व्यावहारिक उदाहरण: मौसम डेटासेट

मौसम डेटासेट का उपयोग करते हुए, हमने पूरे फीचर चयन पाइपलाइन को प्रदर्शित किया:

  1. डेटा इम्पोर्टेशन: पांडा का उपयोग करके डेटासेट लोड किया।
  2. EDA: सेबोर्न के हीटमैप का उपयोग करके सहसंबंधों का दृश्यीकरण किया।
  3. लापता डेटा हैंडलिंग: लापता संख्यात्मक और श्रेणीबद्ध मानों को इम्प्यूट किया।
  4. एन्कोडिंग: श्रेणी कार्डिनैलिटी के आधार पर वन-हॉट और लेबल एन्कोडिंग लागू किया।
  5. स्केलिंग: डेटा को सामान्यीकृत करने के लिए फीचर्स को मानकीकृत किया।
  6. फीचर चयन: SelectKBest के साथ CHI2 का उपयोग करके शीर्ष प्रदर्शन करने वाले फीचर्स की पहचान की।
  7. डेटा स्प्लिटिंग: मॉडल प्रशिक्षण के लिए डेटा को प्रशिक्षण और परीक्षण उपसेट में विभाजित किया।

परिणाम: फीचर डाइमेंशन्स को 23 से 13 तक सफलतापूर्वक कम किया, जिससे मॉडल की दक्षता में सुधार हुआ बिना सटीकता में समझौता किए।

फीचर चयन में सर्वश्रेष्ठ प्रथाएँ

  1. अपने डेटा को समझें: फीचर संबंधों को समझने के लिए व्यापक EDA करें।
  2. लापता मानों को संभालें: डेटा की अखंडता बनाए रखने के लिए लापता डेटा को उचित रूप से इम्प्यूट करें।
  3. सही एन्कोडिंग तकनीक चुनें: श्रेणीबद्ध चर की प्रकृति के अनुसार एन्कोडिंग विधियों को मिलाएं।
  4. फीचर्स को स्केल करें: मानकीकरण या सामान्यीकरण सुनिश्चित करता है कि फीचर्स समान रूप से योगदान दें।
  5. आवृत्त फीचर चयन: मॉडल विकसित करते समय फीचर चयन का निरंतर मूल्यांकन और परिष्करण करें।
  6. डेटा लीक से बचें: विभाजित करने से पहले केवल प्रशिक्षण डेटा पर फीचर चयन किया जाए यह सुनिश्चित करें।

निष्कर्ष

फीचर चयन मशीन लर्निंग पाइपलाइन का एक अनिवार्य घटक है। प्रासंगिक फीचर्स का सावधानीपूर्वक चयन करके, आप न केवल अपने मॉडलों को बेहतर प्रदर्शन के लिए अनुकूलित करते हैं बल्कि संगणनात्मक संसाधनों को भी सुव्यवस्थित करते हैं। SelectKBest और CHI2 जैसे टूल्स सबसे प्रभावशाली फीचर्स का मूल्यांकन और चयन करने के लिए मजबूत विधियाँ प्रदान करते हैं, यह सुनिश्चित करते हुए कि आपके मॉडल कुशल और प्रभावी दोनों हैं।

अतिरिक्त संसाधन

इन अंतर्दृष्टियों के साथ अपने फीचर चयन यात्रा पर निकलें और अपने मशीन लर्निंग मॉडलों को नई ऊंचाइयों पर ले जाएं!

Share your love