S06L03 – पाइथन में रैखिक प्रतिगमन कार्यान्वयन – भाग 2

html

पायथन में रैखिक प्रतिगमन को लागू करना और मूल्यांकन करना: एक व्यापक मार्गदर्शिका

रैखिक प्रतिगमन

रैखिक प्रतिगमन का परिचय

रैखिक प्रतिगमन मशीन लर्निंग और डेटा विश्लेषण में सबसे मौलिक और व्यापक रूप से उपयोग किए जाने वाले एल्गोरिदम में से एक है। यह अवलोकित डेटा पर एक रैखिक समीकरण फिट करके एक आश्रित चर और एक या अधिक स्वतंत्र चरों के बीच संबंध को मॉडल करता है। इस मार्गदर्शिका में, हम आपको scikit-learn लाइब्रेरी का उपयोग करके पायथन में रैखिक प्रतिगमन लागू करने, वास्तविक बनाम पूर्वानुमानित परिणामों की तुलना करने, और R-स्क्वायर मीट्रिक का उपयोग करके मॉडल के प्रदर्शन का मूल्यांकन करने के बारे में बताएंगे।

चाहे आप डेटा साइंस के उत्साही हों या अनुभवी पेशेवर, यह व्यापक ट्यूटोरियल आपको एक रैखिक प्रतिगमन मॉडल को प्रभावी ढंग से बनाने और आंका करने के लिए ज्ञान और व्यावहारिक कौशल प्रदान करेगा।

विषय सूची

  1. डेटासेट अवलोकन
  2. अपने पर्यावरण की सेटअप
  3. आवश्यक लाइब्रेरियों को आयात करना
  4. डेटा लोड करना और उसकी खोज करना
  5. डेटा का दृश्यांकन
  6. प्रशिक्षण के लिए डेटा तैयार करना
  7. रैखिक प्रतिगमन मॉडल बनाना
  8. भविष्यवाणियाँ करना
  9. वास्तविक बनाम पूर्वानुमानित परिणामों की तुलना करना
  10. R-स्क्वायर के साथ मॉडल का मूल्यांकन करना
  11. निष्कर्ष
  12. अधिक पठन सामग्री

डेटासेट अवलोकन

इस ट्यूटोरियल के लिए, हम Kaggle से कनाडा प्रति व्यक्ति आय डेटासेट का उपयोग करेंगे। यह डेटासेट कनाडा में कई वर्षों में वार्षिक प्रति व्यक्ति आय की जानकारी प्रदान करता है, जिससे हमें आय के रुझानों का विश्लेषण करने और एक भविष्यवाणी मॉडल बनाने में मदद मिलती है।

अपने पर्यावरण की सेटअप

कोड में गोता लगाने से पहले, सुनिश्चित करें कि आपके सिस्टम पर पायथन स्थापित है। अपने प्रोजेक्ट की निर्भरताओं को प्रबंधित करने के लिए वर्चुअल वातावरण का उपयोग करना सलाह दी जाती है। आप venv या conda जैसे टूल का उपयोग करके वर्चुअल वातावरण सेटअप कर सकते हैं।

आवश्यक लाइब्रेरियों को आयात करना

हम डेटा हेरफेर, दृश्यांकन, और हमारे प्रतिगमन मॉडल के निर्माण के लिए आवश्यक मूल लाइब्रेरियों को आयात करके शुरू करेंगे।

डेटा लोड करना और उसकी खोज करना

अगला, हम डेटासेट को Pandas DataFrame में लोड करेंगे और उसकी संरचना पर प्रारंभिक नज़र डालेंगे।

आउटपुट:

आउटपुट से, हम देख सकते हैं कि डेटासेट में दो कॉलम हैं: year और per capita income (US$).

डेटा का दृश्यांकन

विज़ुअलाइज़ेशन डेटा के अंतर्निहित पैटर्न और संबंधों को समझने में मदद करता है। हम वर्ष और प्रति व्यक्ति आय के बीच संबंध को देखने के लिए एक स्कैटर प्लॉट बनाएंगे।

स्कैटर प्लॉट

स्कैटर प्लॉट से वर्षों में प्रति व्यक्ति आय में वृद्धि के रुझान का पता चलता है। हालांकि, संबंध पूरी तरह से रैखिक नहीं हो सकता है, जो डेटा में संभावित परिवर्तनशीलता को दर्शाता है।

प्रशिक्षण के लिए डेटा तैयार करना

अपने मॉडल को प्रशिक्षण देने से पहले, हमें डेटा को तैयार करना होगा जिसमें विशेषताओं (स्वतंत्र चर) को लक्ष्य चर (आश्रित चर) से अलग किया जाता है।

इस मामले में, X में year कॉलम शामिल है, और Y में per capita income (US$) शामिल है।

रैखिक प्रतिगमन मॉडल बनाना

हम अब डेटा को प्रशिक्षण और परीक्षण सेट में विभाजित करेंगे ताकि मॉडल के प्रदर्शन का अवलोकन न किए गए डेटा पर किया जा सके।

व्याख्या:

  • X_train & y_train: मॉडल को प्रशिक्षण देने के लिए उपयोग किया जाता है।
  • X_test & y_test: मॉडल के प्रदर्शन का परीक्षण करने के लिए उपयोग किया जाता है।
  • test_size=0.20: डेटा का 20% परीक्षण के लिए आरक्षित है।
  • random_state=1: विभाजन की पुनरुत्पादन सुनिश्चित करता है।

अब, आइए रैखिक प्रतिगमन मॉडल को इन्स्टेंसिएट और प्रशिक्षित करें।

आउटपुट:

भविष्यवाणियाँ करना

प्रशिक्षित मॉडल के साथ, हम अब परीक्षण सेट पर भविष्यवाणियाँ कर सकते हैं।

आउटपुट:

ये मान परीक्षण सेट में श्रेणीबद्ध वर्षों के आधार पर प्रति व्यक्ति आय की मॉडल की भविष्यवाणियों का प्रतिनिधित्व करते हैं।

वास्तविक बनाम पूर्वानुमानित परिणामों की तुलना करना

यह आंकना करने के लिए कि हमारा मॉडल कितना अच्छा प्रदर्शन कर रहा है, हम वास्तविक मानों (y_test) की तुलना पूर्वानुमानित मानों (y_pred) से करेंगे।

आउटपुट:

विश्लेषण:

  • अच्छी भविष्यवाणियाँ: जहाँ Actual और Predicted मान करीब हैं, यह दर्शाता है कि मॉडल अच्छा प्रदर्शन कर रहा है।
  • अंतर: महत्वपूर्ण अंतर उन क्षेत्रों को उजागर करते हैं जहाँ मॉडल में सुधार की आवश्यकता हो सकती है या जहाँ संबंध पूरी तरह से रैखिक नहीं है।

उदाहरण के लिए, जबकि अधिकांश भविष्यवाणियाँ वास्तविक मानों के करीब हैं, कुछ अंतर, जैसे वास्तविक मान 4,251.18 बनाम पूर्वानुमानित मान 1,248.95, से पता चलता है कि डेटा में ऐसी परिवर्तनशीलता है जिसे मॉडल ने कैप्चर नहीं किया।

R-स्क्वायर के साथ मॉडल का मूल्यांकन करना

मॉडल के प्रदर्शन का मात्रात्मक मूल्यांकन करने के लिए, हम R-स्क्वायर (R²) मीट्रिक का उपयोग करेंगे। R-स्क्वायर उस प्रतिशत का प्रतिनिधित्व करता है जिसमें आश्रित चर के लिए विचलन का हिस्सा स्वतंत्र चर(ओं) द्वारा मॉडलित किया गया है।

आउटपुट:

व्याख्या:

  • एक R-squared मान 0.80 दर्शाता है कि प्रति व्यक्ति आय में 80% विचलन को वर्ष द्वारा समझाया गया है।
  • 80% एक अच्छे फिट का मजबूत संकेत है, लेकिन इसका मतलब यह भी है कि 20% विचलन अस्पष्ट रहता है, जिसे मॉडल में विचार न किए गए अन्य कारकों या अंतर्निहित डेटा परिवर्तनशीलता के कारण हो सकता है।

R-squared मानों को समझना:

  • 1: उत्कृष्ट फिट। मॉडल सभी परिवर्तनशीलता को समझाता है।
  • 0: कोई व्याख्यात्मक शक्ति नहीं। मॉडल कोई भी परिवर्तनशीलता नहीं समझाता।
  • नकारात्मक मान: यह दर्शाता है कि मॉडल क्षैतिज रेखा (लक्ष्य चर का माध्य) से भी बदतर प्रदर्शन कर रहा है।

निष्कर्ष

इस मार्गदर्शिका में, हमने सफलतापूर्वक पायथन में एक रैखिक प्रतिगमन मॉडल को लागू किया है ताकि कनाडा की वर्षों में प्रति व्यक्ति आय की भविष्यवाणी की जा सके। इन चरणों का पालन करके, आप:

  1. डेटा लोड और एक्सप्लोर करना: डेटासेट की संरचना और प्रारंभिक रुझानों को समझना।
  2. संबंधों का दृश्यांकन: संभावित रैखिक संबंधों की पहचान के लिए स्कैटर प्लॉट का उपयोग करना।
  3. डेटा तैयार करना: निष्पक्ष मूल्यांकन के लिए डेटा को प्रशिक्षण और परीक्षण सेट में विभाजित करना।
  4. मॉडल बनाना और प्रशिक्षण देना: scikit-learn के LinearRegression का उपयोग करके मॉडल को फिट करना।
  5. भविष्यवाणियाँ करना: प्रशिक्षित मॉडल का उपयोग करके भविष्यवाणियाँ उत्पन्न करना।
  6. परिणामों की तुलना करना: यह विश्लेषण करना कि पूर्वानुमानित मान वास्तविक डेटा के साथ कितने मेल खाते हैं।
  7. प्रदर्शन का मूल्यांकन करना: मॉडल की व्याख्यात्मक शक्ति को मात्रात्मक रूप से जानने के लिए R-squared का उपयोग करना।

हालांकि मॉडल ने सराहनीय R-squared मान दिखाया है, इसमें सुधार की गुंजाइश है। अतिरिक्त विशेषताओं की खोज, चर का परिवर्तन, या अधिक जटिल एल्गोरिदम का उपयोग करना भविष्यवाणी प्रदर्शन को बेहतर बना सकता है।

अधिक पठन सामग्री

इस रैखिक प्रतिगमन यात्रा पर निकलना आपको विभिन्न डेटा-संचालित क्षेत्रों में लागू होने वाले बुनियादी कौशल से लैस करता है। अपने समझ और मशीन लर्निंग में दक्षता को गहराने के लिए विविध डेटासेट के साथ अभ्यास जारी रखें।

#LinearRegression #Python #MachineLearning #DataScience #ScikitLearn #R2Score #DataVisualization #PredictiveModeling #PythonTutorial

Share your love