S18L03 – सह-संबंध

सहसंबंध को समझना: परिभाषा, महत्व, और गणना

सामग्री सूची

  1. सहसंबंध क्या है?
    1. कोवैरीएन्स बनाम सहसंबंध
  2. पियर्सन सहसंबंध गुणांक
    1. पियर्सन सहसंबंध गुणांक के गुण
    2. पियर्सन सहसंबंध की गणना
    3. उदाहरण: वाइन में अवशिष्ट शर्करा बनाम गुणवत्ता
  3. सहसंबंध महत्वपूर्ण क्यों है?
  4. सहसंबंध की गणना के लिए उपकरण और पुस्तकालय
  5. सहसंबंध परिणामों की व्याख्या
  6. निष्कर्ष

सहसंबंध क्या है?

सहसंबंध दो चरों के बीच रैखिक संबंध की ताकत और दिशा को मापता है। चरों के पैमाने से प्रभावित होने वाले कच्चे डेटा मापों के विपरीत, सहसंबंध यह आंकलन करने का एक मानकीकृत तरीका प्रदान करता है कि चर एक-दूसरे के सापेक्ष कैसे चलते हैं।

कोवैरीएन्स बनाम सहसंबंध

सहसंबंध में गहराई से जाने से पहले, इसके पूर्ववर्ती को समझना आवश्यक है: कोवैरीएन्स। कोवैरीएन्स चरों के बीच रैखिक संबंध की दिशा को दर्शाता है। हालांकि, इसके महत्वपूर्ण सीमाएँ हैं:

  • पैमाना संवेदनशीलता: कोवैरीएन्स मान चरों की इकाइयों से प्रभावित होते हैं, जिससे संबंध की ताकत की व्याख्या करना चुनौतीपूर्ण हो जाता है।
  • अस्पष्ट ताकत: जबकि कोवैरीएन्स यह दिखा सकता है कि चर एक ही दिशा में या विपरीत दिशा में चलते हैं, यह यह नहीं बताता कि वह संबंध कितना मजबूत है।

सहसंबंध, दूसरी ओर, कोवैरीएन्स को सामान्यीकृत करता है, जिससे एक आयामी माप प्रदान होता है जो -1 और +1 के बीच होता है। यह सामान्यीकरण कोवैरीएन्स की सीमाओं को दूर करता है और संबंध की दिशा और ताकत दोनों का आकलन करने के लिए एक मानकीकृत मीट्रिक प्रदान करता है।

पियर्सन सहसंबंध गुणांक

सबसे व्यापक रूप से उपयोग किया जाने वाला सहसंबंध माप पियर्सन सहसंबंध गुणांक (r) है, जिसका नाम कार्ल पियर्सन के नाम पर रखा गया है। यह दो निरंतर चरों के बीच रैखिक संबंध का आकलन करता है।

पियर्सन सहसंबंध गुणांक के गुण

  1. रेंज: \( r \) का मान -1 और +1 के बीच होता है।
    • \( r = +1 \): पूर्ण सकारात्मक रैखिक संबंध।
    • \( r = -1 \): पूर्ण नकारात्मक रैखिक संबंध।
    • \( r = 0 \): कोई रैखिक संबंध नहीं।
  2. दिशा:
    • सकारात्मक सहसंबंध: जैसे ही एक चर बढ़ता है, दूसरा भी बढ़ता है।
    • नकारात्मक सहसंबंध: जैसे ही एक चर बढ़ता है, दूसरा घटता है।
  3. ताकत:
    • |r| = 1: मजबूत संबंध।
    • |r| = 0.5: मध्यम संबंध।
    • |r| = 0.3: कमजोर संबंध।
    • |r| = 0: कोई संबंध नहीं।

पियर्सन सहसंबंध की गणना

पियर्सन सहसंबंध गुणांक को निम्नलिखित सूत्र का उपयोग करके गणना किया जाता है:

\[ r = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y} \]

जहाँ:

  • Cov(X, Y): चर X और Y के बीच कोवैरीएन्स।
  • \( \sigma_X \): X का मानक विचलन।
  • \( \sigma_Y \): Y का मानक विचलन।

यह सूत्र कोवैरीएन्स को मानक विचलनों के गुणनफल से सामान्यीकृत करता है, यह सुनिश्चित करते हुए कि सहसंबंध गुणांक -1 और +1 के बीच ही रहे, चाहे चरों के मूल पैमाने कुछ भी हों।

उदाहरण: वाइन में अवशिष्ट शर्करा बनाम गुणवत्ता

विभिन्न वाइन नमूनों में अवशिष्ट शर्करा और गुणवत्ता का विश्लेषण करने वाले एक डेटासेट पर विचार करें। यहाँ सहसंबंध को कैसे व्याख्यायित किया जा सकता है:

सकारात्मक सहसंबंध (\( r = +0.96 \)): यह एक मजबूत सकारात्मक संबंध को दर्शाता है जहाँ उच्च अवशिष्ट शर्करा उच्च गुणवत्ता से जुड़ा है।

सकारात्मक सहसंबंध

चित्र: अवशिष्ट शर्करा और गुणवत्ता के बीच सकारात्मक सहसंबंध

नकारात्मक सहसंबंध (\( r = -0.99 \)): यह एक मजबूत नकारात्मक संबंध का सुझाव देता है जहाँ उच्च अवशिष्ट शर्करा निम्न गुणवत्ता से जुड़ी है।

नकारात्मक सहसंबंध

चित्र: अवशिष्ट शर्करा और गुणवत्ता के बीच नकारात्मक सहसंबंध

ये उदाहरण यह दर्शाते हैं कि कैसे सहसंबंध डेटा के अंतर्निहित पैटर्न और संबंधों को समझने में मदद करता है, जो निर्णय लेने और पूर्वानुमान मॉडलिंग में मार्गदर्शन करता है।

सहसंबंध महत्वपूर्ण क्यों है?

सहसंबंध को समझना कई कारणों से मौलिक है:

  1. संबंधों की पहचान करना: यह निर्धारित करता है कि क्या और कितनी मजबूती से जोड़ी के चरों संबंधित हैं।
  2. पूर्वानुमान मॉडलिंग: प्रतिगमन मॉडल और अन्य पूर्वानुमान विश्लेषिकी उपकरणों के निर्माण के लिए आधार के रूप में कार्य करता है।
  3. डेटा में कमी: अनावश्यक चरों की पहचान में मदद करता है, जिससे आयाम की कमी संभव होती है।
  4. जोखिम प्रबंधन: वित्त में, परिसंपत्ति सहसंबंधों को समझना पोर्टफोलियो विविधीकरण और जोखिम आकलन में मदद करता है।

सहसंबंध की गणना के लिए उपकरण और पुस्तकालय

हालांकि मैन्युअली पियर्सन सहसंबंध गुणांक की गणना करना शैक्षिक है, व्यवहार में, विभिन्न उपकरण और पुस्तकालय इस प्रक्रिया को सरल बनाते हैं:

  • पाइथन पुस्तकालय:
    • Pandas: युग्मपार सहसंबंध की गणना करने के लिए का उपयोग करें।
    • NumPy: सहसंबंध मैट्रिक्स के लिए का उपयोग करें।
    • SciPy: पियर्सन सहसंबंध और p-मूल्यों के लिए का उपयोग करें।
  • वेब अनुप्रयोग:
    • विभिन्न ऑनलाइन सहसंबंध कैलकुलेटर उपयोगकर्ताओं को डेटा सेट इनपुट करने और बिना किसी कोडिंग के तुरंत सहसंबंध गुणांक की गणना करने की अनुमति देते हैं।
वेब सहसंबंध कैलकुलेटर

चित्र: ऑनलाइन सहसंबंध कैलकुलेटर इंटरफेस

सहसंबंध परिणामों की व्याख्या

डेटा के संदर्भ में सहसंबंध गुणांकों की व्याख्या करना आवश्यक है:

  • ताकत बनाम महत्व: उच्च सहसंबंध गुणांक कारण-संबंध नहीं दर्शाता। कारणता का अनुमान लगाने के लिए अन्य सांख्यिकीय परीक्षण और क्षेत्र ज्ञान आवश्यक हैं।
  • आउटलायर्स का प्रभाव: अत्यधिक मान सहसंबंध गुणांक को विकृत कर सकते हैं, जिससे गलत व्याख्याओं का जन्म हो सकता है।
  • अरेखीय संबंध: पियर्सन का सहसंबंध रैखिक संबंधों को मापता है। अरेखीय संबंधों के लिए स्पीयरमैन की श्रेणी सहसंबंध जैसी विभिन्न मेट्रिक्स की आवश्यकता हो सकती है।

निष्कर्ष

सहसंबंध एक शक्तिशाली सांख्यिकीय उपकरण है जो चरों के बीच के संबंधों में अमूल्य अंतर्दृष्टि प्रदान करता है। सहसंबंध गुणांकों को समझकर और सही तरीके से व्याख्यायित करके, डेटा पेशेवर सूचित निर्णय ले सकते हैं, मजबूत मॉडल बना सकते हैं, और डेटा के भीतर छिपे पैटर्न को उजागर कर सकते हैं। चाहे आप अवशिष्ट शर्करा के आधार पर वाइन की गुणवत्ता का विश्लेषण कर रहे हों या बाजार के रुझानों का आकलन कर रहे हों, सहसंबंध में महारत हासिल करना आपको डेटा विश्लेषण की जटिल दुनिया में प्रभावी ढंग से नेविगेट करने के कौशल से लैस करता है।


सांख्यिकीय विश्लेषण और डेटा विज्ञान पर अधिक विस्तृत ट्यूटोरियल और संसाधनों के लिए, हमारे डेटा एनालिटिक्स हब का अन्वेषण करें।

Share your love