S05L04 – टेस्ट और ट्रेन डेटा विभाजन और फीचर स्केलिंग

html

मशीन लर्निंग में डेटा स्प्लिटिंग और फीचर स्केलिंग को समझना

विषय सूची

  1. डेटा स्प्लिटिंग: प्रशिक्षण और परीक्षण सेट्स
    1. परीक्षण सेट क्या है?
    2. प्रशिक्षण सेट क्या है?
    3. टिपिकल स्प्लिट अनुपात
    4. scikit-learn के साथ डेटा स्प्लिटिंग लागू करना
  2. फीचर स्केलिंग: मानकीकरण और सामान्यीकरण
    1. फीचर स्केलिंग क्यों?
    2. मानकीकरण बनाम सामान्यीकरण
    3. अनुशंसित दृष्टिकोण
    4. scikit-learn के साथ फीचर स्केलिंग लागू करना
  3. कदमों का सारांश
  4. निष्कर्ष

डेटा स्प्लिटिंग: प्रशिक्षण और परीक्षण सेट्स

परीक्षण सेट क्या है?

एक परीक्षण सेट आपके डेटासेट का एक उपसमुच्चय होता है जिसे आपके मशीन लर्निंग मॉडल के प्रदर्शन का मूल्यांकन करने के लिए आरक्षित किया जाता है। मॉडल को यह होल्डआउट डेटा प्रदान करके, आप यह आकलन कर सकते हैं कि यह नए, अनदेखे डेटा की भविष्यवाणी कितनी सटीकता से करता है, जिससे मॉडल के वास्तविक दुनिया के प्रदर्शन को समझा जा सकता है।

प्रशिक्षण सेट क्या है?

इसके विपरीत, एक प्रशिक्षण सेट आपके डेटा का वह हिस्सा है जिसका उपयोग मॉडल को प्रशिक्षित करने के लिए किया जाता है। मॉडल इस डेटा में पैटर्न, संबंध और संरचनाओं को सीखता है ताकि यह नए डेटा पर भविष्यवाणियाँ या वर्गीकरण कर सके।

टिपिकल स्प्लिट अनुपात

एक सामान्य अभ्यास यह है कि डेटा को 80% प्रशिक्षण और 20% परीक्षण में विभाजित किया जाए। यह अनुपात मॉडल को सीखने के लिए पर्याप्त डेटा प्रदान करने और इसके प्रदर्शन का मजबूती से मूल्यांकन करने के लिए पर्याप्त डेटा बनाए रखने के बीच संतुलन प्रदान करता है।

scikit-learn के साथ डेटा स्प्लिटिंग लागू करना

scikit-learn के train_test_split फ़ंक्शन का उपयोग करके अपने डेटा को विभाजित करने के लिए यहाँ चरण-दर-चरण गाइड है:

  1. आवश्यक लाइब्रेरी इम्पोर्ट करें
  2. अपना डेटा तैयार करें

    मान लीजिए आपके पास फीचर्स X में संग्रहीत हैं और आपका लक्ष्य चर Y में है:

  3. डेटा को विभाजित करें
    • test_size=0.2: परीक्षण के लिए डेटा का 20% आवंटित करता है।
    • random_state=42: शफलिंग प्रक्रिया को नियंत्रित करके पुनरुत्पादन सुनिश्चित करता है। एक स्थिर random_state का उपयोग करने का मतलब है कि आप हर बार कोड चलाने पर वही विभाजन प्राप्त करेंगे, जो स्थिर मॉडल मूल्यांकन के लिए महत्वपूर्ण है।
  4. स्प्लिट की पुष्टि करें

    आप प्रत्येक सेट में रिकॉर्डों की संख्या की जांच कर सकते हैं:

फीचर स्केलिंग: मानकीकरण और सामान्यीकरण

फीचर स्केलिंग क्यों?

मशीन लर्निंग एल्गोरिदम बेहतर प्रदर्शन करते हैं जब संख्यात्मक इनपुट फीचर्स तुलनीय स्केल पर होते हैं। बड़े दायरे वाले फीचर्स मॉडल पर अनुपातिक रूप से अधिक प्रभाव डाल सकते हैं, जिससे उपयुक्त प्रदर्शन नहीं होता है। फीचर स्केलिंग फीचर्स की श्रेणियों को मानकीकृत कर देता है, जिससे मॉडल की दक्षता और सटीकता बढ़ती है।

मानकीकरण बनाम सामान्यीकरण

  1. मानकीकरण:
    • सूत्र: \( z = \frac{(X - \mu)}{\sigma} \)
    • डेटा को 0 के माध्य और 1 के मानक विचलन के साथ रूपांतरित करता है।
    • गॉसियन (नॉर्मल) वितरण वाले फीचर्स के लिए उपयुक्त।
    • व्यापक रूप से प्रयुक्त और सामान्यतः प्रभावी, भले ही डेटा पूरी तरह से सामान्य न हो।
  2. सामान्यीकरण:
    • सूत्र: \( X_{norm} = \frac{(X - X_{min})}{(X_{max} - X_{min})} \)
    • डेटा को एक निश्चित सीमा पर स्केल करता है, आमतौर पर 0 से 1
    • जब डेटा ज्ञात वितरण का पालन करता है या जब सीमाएँ आवश्यक होती हैं, तो यह सबसे अच्छा है।

अनुशंसित दृष्टिकोण

आमतौर पर यह सलाह दी जाती है कि डेटा को फीचर स्केलिंग करने से पहले विभाजित करें। यह अभ्यास सुनिश्चित करता है कि स्केलिंग पैरामीटर्स (जैसे कि माध्य और मानक विचलन) केवल प्रशिक्षण डेटा से निकाले गए हैं, डेटा लीक होने से बचाते हैं और यह सुनिश्चित करते हैं कि परीक्षण डेटा वास्तविक होल्डआउट सेट बना रहे।

scikit-learn के साथ फीचर स्केलिंग लागू करना

  1. StandardScaler को इम्पोर्ट करें
  2. Scaler को इनिशियलाइज़ करें
  3. प्रशिक्षण डेटा पर फिट करें और ट्रांसफॉर्म करें
  4. परीक्षण डेटा को ट्रांसफॉर्म करें
    • महत्वपूर्ण: स्केलर को केवल प्रशिक्षण डेटा पर फिट करें। उसी ट्रांसफॉर्मेशन को परीक्षण डेटा पर लागू किया जाता है। यह सुनिश्चित करता है कि परीक्षण डेटा को समान रूप से स्केल किया जाए बिना परीक्षण सेट से जानकारी प्रशिक्षण प्रक्रिया में शामिल किए।
  5. श्रेणीबद्ध चर को संभालना

    यदि आपके डेटासेट में श्रेणीबद्ध चर संख्यात्मक मानों के रूप में एन्कोड किए गए हैं (जैसे, 0, 1, 2), तो इन स्तंभों पर स्केलिंग लागू करने से बचें, क्योंकि यह उनके अर्थ को विकृत कर सकता है। सुनिश्चित करें कि केवल निरंतर संख्यात्मक फीचर्स को स्केल किया जाए।

कदमों का सारांश

  1. डेटा इम्पोर्ट करें: अपने डेटासेट को एक उपयुक्त प्रारूप में लोड करें (जैसे, pandas DataFrame)।
  2. डेटा विभाजित करें: डेटासेट को फीचर्स (X) और लक्ष्य (Y) में विभाजित करें, फिर 80/20 ट्रेन-टेस्ट स्प्लिट करें।
  3. मिसिंग डेटा को संभालें: किसी भी गैप्स को इम्प्युटेशन या रिमूवल के माध्यम से संबोधित करें।
  4. फीचर चयन: अप्रासंगिक या अतिरिक्त फीचर्स को हटा कर मॉडल के प्रदर्शन में सुधार करें।
  5. डेटा को एन्कोड करें: यदि आवश्यक हो तो श्रेणीबद्ध चर को संख्यात्मक प्रारूप में परिवर्तित करें।
  6. फीचर स्केलिंग: सुनिश्चित करें कि सभी फीचर्स मॉडल में समान रूप से योगदान दें इसके लिए मानकीकरण या सामान्यीकरण लागू करें।

निष्कर्ष

उचित डेटा तैयारी सफल मशीन लर्निंग परियोजनाओं की एक आधारशिला है। अपने डेटा को बारीकी से विभाजित करके और उपयुक्त फीचर स्केलिंग लागू करके, आप ऐसी मॉडल बनाने के लिए मंच तैयार करते हैं जो न केवल सटीक बल्कि विश्वसनीय भी हैं। जैसे-जैसे आप मशीन लर्निंग का और अध्ययन करेंगे, ये बुनियादी प्रथाएं आपको अधिक जटिल चुनौतियों से निपटने में अच्छी तरह से सेवा देंगी।


हमारा अगला लेख देखें, जिसमें हम पूर्व-संसाधन तकनीकों और मजबूत मशीन लर्निंग मॉडल बनाने के अन्य महत्वपूर्ण पक्षों में गहराई से जाएंगे।

Share your love