S06L02 – पायथन में रैखिक प्रतिगमन कार्यान्वयन – भाग 1

पायथन में रैखिक प्रतिगमन मॉडल बनाने के लिए चरण-दर-चरण गाइड

डेटा-संचालित निर्णय लेने की शक्ति को अनलॉक करें इस व्यापक गाइड के साथ जो पायथन में रैखिक प्रतिगमन को लागू करने पर केंद्रित है। चाहे आप डेटा विज्ञान में एक शुरुआतकर्ता हों या अपनी मशीन लर्निंग कौशल को परिष्कृत करना चाहते हों, यह ट्यूटोरियल आपको संपूर्ण प्रक्रिया के माध्यम से मार्गदर्शित करेगा, डेटा सेट को समझने से लेकर सटीक भविष्यवाणियाँ करने तक।


विषय सूची

  1. रैखिक प्रतिगमन का परिचय
  2. डेटासेट को समझना
  3. अपना पायथन वातावरण सेट करना
  4. डेटा आयात करना और अन्वेषण करना
  5. डेटा की पूर्वप्रसंस्करण
  6. रैखिक प्रतिगमन मॉडल बनाना
  7. भविष्यवाणियाँ करना
  8. मॉडल का मूल्यांकन
  9. निष्कर्ष
  10. अतिरिक्त संसाधन

रैखिक प्रतिगमन का परिचय

रैखिक प्रतिगमन मशीन लर्निंग और सांख्यिकी के क्षेत्र में एक मौलिक एल्गोरिदम है। यह अवलोकित डेटा पर एक रैखिक समीकरण फिट करके एक आश्रित चर और एक या अधिक स्वतंत्र चरों के बीच संबंध स्थापित करता है। इस तकनीक का व्यापक रूप से भविष्यसूचक विश्लेषण, पूर्वानुमान और पूर्वानुमानकर्ताओं की ताकत को समझने के लिए उपयोग किया जाता है।

मुख्य विषय:

  • रैखिक प्रतिगमन क्या है?
  • रैखिक प्रतिगमन के अनुप्रयोग
  • रैखिक vs. गैर-रैखिक प्रतिगमन
  • लागत फ़ंक्शन और अनुकूलन

डेटासेट को समझना

इस ट्यूटोरियल के लिए, हम कनाडा प्रति व्यक्ति आय डेटासेट का उपयोग करेंगे, जो Kaggle पर उपलब्ध है। इस डेटासेट में कनाडा में सालाना प्रति व्यक्ति आय शामिल है, जिसे यूएस डॉलर में मापा गया है।

डेटासेट अवलोकन:

  • कॉलम:
    • year: रिकॉर्ड की गई आय का वर्ष।
    • per capita income (US$): प्रति व्यक्ति आय USD में।

नमूना डेटा:

year per capita income (US$)
1970 3399.299037
1971 3768.297935
1972 4251.175484
1973 4804.463248
1974 5576.514583

अपना पायथन वातावरण सेट करना

कोड में गहराई से जाने से पहले, सुनिश्चित करें कि आपका पायथन वातावरण आवश्यक लाइब्रेरी के साथ सेट किया गया है। हम निम्नलिखित का उपयोग करेंगे:

  • NumPy: संख्यात्मक संचालन के लिए।
  • Pandas: डेटा हेरफेर और विश्लेषण के लिए।
  • Matplotlib & Seaborn: डेटा विज़ुअलाइज़ेशन के लिए।
  • Scikit-Learn: रैखिक प्रतिगमन मॉडल बनाने और मूल्यांकन करने के लिए।

स्थापना आदेश:


डेटा आयात करना और अन्वेषण करना

आवश्यक लाइब्रेरी को आयात करके और डेटासेट को पांडा DataFrame में लोड करके शुरू करें।

आउटपुट:

डेटा का विज़ुअलाइज़ेशन:

डेटा को विज़ुअलाइज़ करना महत्वपूर्ण है ताकि अंतर्निहित पैटर्न और संबंधों को समझा जा सके।

*यह स्कैटर प्लॉट एक सकारात्मक रैखिक प्रवृत्ति को दर्शाता है, जो इंगित करता है कि प्रति व्यक्ति आय सामान्यतः वर्षों के साथ बढ़ी है।*


डेटा की पूर्वप्रसंस्करण

डेटा की पूर्वप्रसंस्करण यह सुनिश्चित करती है कि डेटासेट स्वच्छ और एक प्रभावी मॉडल बनाने के लिए उपयुक्त है।

1. गुम मानों की जाँच करना

आउटपुट:

*कोई गुम मान नहीं पाए गए।*

2. फीचर्स और लक्ष्य चर को विभाजित करना

3. ट्रेन-टेस्ट विभाजन

डेटासेट को प्रशिक्षण और परीक्षण सेट में विभाजित करने से हमें अप्रत्याशित डेटा पर मॉडल के प्रदर्शन का मूल्यांकन करने की अनुमति मिलती है।

*एक रैंडम स्टेट का उपयोग परिणामों की पुनरुत्पादकता सुनिश्चित करता है।*


रैखिक प्रतिगमन मॉडल बनाना

डेटा तैयार होने के बाद, हम अब रैखिक प्रतिगमन मॉडल बना सकते हैं।

मॉडल सारांश:

आउटपुट:

*यह आउटपुट संकेत करता है कि हमारा मॉडल भविष्यवाणियाँ करने के लिए तैयार है।*


भविष्यवाणियाँ करना

प्रशिक्षित मॉडल का उपयोग करके, हम परीक्षण डेटासेट के लिए प्रति व्यक्ति आय की भविष्यवाणी कर सकते हैं।

*यह तुलना हमें यह देखने में मदद करती है कि हमारे मॉडल की भविष्यवाणियाँ वास्तविक डेटा से कितनी मेल खाती हैं।*


मॉडल का मूल्यांकन

मॉडल के प्रदर्शन का मूल्यांकन यह समझने के लिए महत्वपूर्ण है कि इसकी सटीकता और विश्वसनीयता कितनी है।

1. R² स्कोर की गणना

R² स्कोर, जिसे निर्धारण गुणांक के रूप में भी जाना जाता है, इंगित करता है कि डेटा प्रतिगमन मॉडल में कितनी अच्छी तरह फिट होता है।

व्याख्या:

  • R² = 1: परफेक्ट फिट।
  • R² = 0: मॉडल किसी भी परिवर्तनशीलता की व्याख्या नहीं करता।
  • 0 < R² < 1: मॉडल द्वारा व्याख्यायित वैरिएंस का अनुपात सूचित करता है।

*हमारे मामले में, उच्च R² मान बेहतर फिट का संकेत देता है।*

2. भविष्यवाणियाँ बनाम वास्तविक मूल्यों का विज़ुअलाइज़ेशन

*यह विज़ुअलाइज़ेशन विभिन्न वर्षों में भविष्यवाणियों की सटीकता का आकलन करने में मदद करता है।*


निष्कर्ष

इस ट्यूटोरियल में, हमने कनाडा प्रति व्यक्ति आय डेटासेट का उपयोग करके पायथन में रैखिक प्रतिगमन मॉडल बनाने की प्रक्रिया में गहराई से पहुँचा। डेटासेट को समझने से लेकर पूर्वप्रसंस्करण, मॉडल निर्माण, भविष्यवाणी, और मूल्यांकन तक, प्रत्येक चरण सटीक और विश्वसनीय भविष्यसूचक मॉडल विकसित करने के लिए महत्वपूर्ण है।

मुख्य निष्कर्ष:

  • रैखिक प्रतिगमन सतत चर की भविष्यवाणी के लिए एक शक्तिशाली उपकरण है।
  • सही डेटा पूर्वप्रसंस्करण मॉडल के प्रदर्शन को बढ़ाता है।
  • विज़ुअलाइज़ेशन डेटा प्रवृत्तियों और मॉडल की सटीकता को समझने में मदद करती है।
  • R² जैसे मूल्यांकन मीट्रिक मॉडल की प्रभावशीलता का आकलन करने के लिए आवश्यक हैं।

आगे के कदम:

  • अधिक जटिल डेटासेट की खोज करें जिनमें कई फीचर्स हों।
  • रिज़ और लासो प्रतिगमन जैसी अन्य प्रतिगमन तकनीकों के बारे में जानें।
  • श्रेणीबद्ध डेटा समस्याओं के लिए वर्गीकरण एल्गोरिदम में गहराई से जाएँ।

अतिरिक्त संसाधन


अपने डेटा विज्ञान की यात्रा को पायथन में रैखिक प्रतिगमन में महारत हासिल करके सशक्त बनाएं। मशीन लर्निंग और डेटा विश्लेषण में और अधिक ट्यूटोरियल और अंतर्दृष्टि के लिए बने रहें!

Share your love