S27L01 – वर्गीकरण मॉडल मास्टर टेम्पलेट

html

वर्गीकरण मॉडलों में महारत: डेटा विज्ञान के लिए एक व्यापक पाइथन टेम्पलेट

सामग्री तालिका

  1. वर्गीकरण मॉडलों का परिचय
  2. अपने परिवेश की स्थापना
  3. डेटा आयात और खोज
  4. मिसिंग डेटा को संभालना
  5. श्रेणीबद्ध परिवर्तनीयों का एनकोडिंग
  6. फीचर चयन
  7. ट्रेन-टेस्ट विभाजन
  8. फीचर स्केलिंग
  9. मॉडल निर्माण और मूल्यांकन
  10. निष्कर्ष

1. वर्गीकरण मॉडलों का परिचय

वर्गीकरण मॉडल्स पर्यवेक्षित मशीन लर्निंग के मूलाधार हैं, जो इनपुट विशेषताओं के आधार पर विविक्त लेबल की भविष्यवाणी करने में सक्षम बनाते हैं। ये मॉडल्स विभिन्न अनुप्रयोगों में महत्वपूर्ण भूमिका निभाते हैं, जैसे ईमेल स्पैम डिटेक्शन से लेकर चिकित्सा निदान तक। इन मॉडलों में महारत हासिल करने के लिए डेटा प्रीप्रोसेसिंग, फीचर इंजीनियरिंग, मॉडल चयन और मूल्यांकन मेट्रिक्स की समझ आवश्यक है।

2. अपने परिवेश की स्थापना

मॉडल निर्माण में गहराई से उतरने से पहले, सुनिश्चित करें कि आपका पाइथन परिवेश आवश्यक पुस्तकालयों से सुसज्जित है। यहाँ बताया गया है कि आप अपने परिवेश को कैसे सेट अप कर सकते हैं:

आवश्यक पुस्तकालयों को आयात करें:

3. डेटा आयात और खोज

इस ट्यूटोरियल के लिए, हम कग्गल से Weather Australia Dataset का उपयोग करेंगे। यह व्यापक डेटासेट विविध मौसम-संबंधी विशेषताएं प्रदान करता है जो वर्गीकरण मॉडलों के निर्माण के लिए आदर्श हैं।

उदाहरण आउटपुट:

4. मिसिंग डेटा को संभालना

डेटा की अखंडता विश्वसनीय मॉडल निर्माण के लिए महत्वपूर्ण है। आइए हम संख्यात्मक और श्रेणीबद्ध विशेषताओं दोनों में मिसिंग मानों को संबोधित करें।

संख्यात्मक मिसिंग डेटा को संभालना

Scikit-learn से SimpleImputer का उपयोग करके प्रत्येक कॉलम के औसत से मिसिंग संख्यात्मक मानों को भरें।

श्रेणीबद्ध मिसिंग डेटा को संभालना

श्रेणीबद्ध परिवर्तनीयों के लिए, मिसिंग मानों को सबसे अधिक सामान्य (मोड) मान से भरें।

5. श्रेणीबद्ध परिवर्तनीयों का एनकोडिंग

मशीन लर्निंग मॉडल्स को संख्यात्मक इनपुट की आवश्यकता होती है। इसलिए, श्रेणीबद्ध परिवर्तनीयों को एनकोड करना आवश्यक है। हम बाइनरी श्रेणियों के लिए लेबल एनकोडिंग और बहु-श्रेणीबद्ध श्रेणियों के लिए वन-हॉट एनकोडिंग का उपयोग करेंगे।

लेबल एनकोडिंग

वन-हॉट एनकोडिंग

विभिन्न श्रेणियों की संख्या के आधार पर एनकोडिंग को संभालने के लिए एक विधि लागू करें।

वैकल्पिक रूप से, अद्वितीय श्रेणी सीमा के आधार पर एनकोडिंग प्रक्रिया को स्वचालित करें।

6. फीचर चयन

फीचर्स की संख्या कम करने से मॉडल प्रदर्शन में सुधार हो सकता है और कम्प्यूटेशनल लागत घट सकती है। हम SelectKBest का उपयोग करेंगे जो Chi-Squared परीक्षण के साथ शीर्ष फीचर्स का चयन करता है।

7. ट्रेन-टेस्ट विभाजन

डेटासेट को ट्रेनिंग और परीक्षण सेट में विभाजित करना आवश्यक है ताकि मॉडल के प्रदर्शन का मूल्यांकन अनदेखे डेटा पर किया जा सके।

आउटपुट:

8. फीचर स्केलिंग

फीचर्स का मानकीकरण यह सुनिश्चित करता है कि प्रत्येक फीचर अल्गोरिदम जैसे KNN और SVM में दूरी गणनाओं में समान रूप से योगदान दे।

आउटपुट:

9. मॉडल निर्माण और मूल्यांकन

डेटा को प्रीप्रोसेस करने के बाद, हम विभिन्न वर्गीकरण मॉडलों का निर्माण और मूल्यांकन कर सकते हैं। हम मॉडलों का आकलन उनके एक्युरेसी स्कोर्स के आधार पर करेंगे।

K-Nearest Neighbors (KNN)

आउटपुट:

लॉजिस्टिक रिग्रेशन

आउटपुट:

गौसियन नाइव बेयस

आउटपुट:

सपोर्ट वेक्टर मशीन (SVM)

आउटपुट:

डिसीजन ट्री क्लासिफायर

आउटपुट:

रैंडम फॉरेस्ट क्लासिफायर

आउटपुट:

AdaBoost क्लासिफायर

आउटपुट:

XGBoost क्लासिफायर

आउटपुट:

नोट: XGBoost में इवाल्यूशन मेट्रिक के संबंध में चेतावनी को स्पष्ट रूप से eval_metric पैरामीटर सेट करके दबाया जा सकता है, जैसा ऊपर दिखाया गया है।

10. निष्कर्ष

वर्गीकरण मॉडल्स का निर्माण डरावना नहीं होना चाहिए। डेटा प्रीप्रोसेसिंग, एनकोडिंग, फीचर चयन और मॉडल मूल्यांकन के लिए एक संरचित दृष्टिकोण के साथ, आप अपनी विशेष आवश्यकताओं के अनुसार मजबूत मॉडल्स का कुशलतापूर्वक विकास कर सकते हैं। इस लेख में चित्रित मास्टर टेम्पलेट एक व्यापक गाइड के रूप में कार्य करता है, जो डेटा अंतरण से लेकर मॉडल मूल्यांकन तक के वर्कफ्लो को सरल बनाता है। चाहे आप एक शुरुआती हों या एक अनुभवी डेटा वैज्ञानिक, ऐसे टेम्पलेट्स का उपयोग करने से उत्पादकता और मॉडल प्रदर्शन में वृद्धि हो सकती है।

मुख्य बिंदु:

  • डेटा प्रीप्रोसेसिंग: मॉडल की सटीकता सुनिश्चित करने के लिए अपने डेटा को सावधानीपूर्वक साफ और तैयार करें।
  • एनकोडिंग तकनीक: विभिन्न एल्गोरिदम के अनुरूप श्रेणीबद्ध परिवर्तनीयों को उचित रूप से एनकोड करें।
  • फीचर चयन: मॉडल की दक्षता और प्रदर्शन बढ़ाने के लिए फीचर चयन विधियों का उपयोग करें।
  • मॉडल विविधता: अपने डेटासेट के लिए सबसे अच्छा प्रदर्शन करने वाले मॉडल की पहचान करने के लिए विभिन्न मॉडलों के साथ प्रयोग करें।
  • मूल्यांकन मेट्रिक्स: सटीकता से परे जाएं; समग्र मूल्यांकन के लिए प्रिसिजन, रीकॉल और F1-स्कोर जैसी अन्य मेट्रिक्स पर विचार करें।

इन प्रथाओं को अपनाएं, और अपने डेटा विज्ञान परियोजनाओं को स्पष्टता और सटीकता के साथ सशक्त बनाएं!

Share your love