सहसंबंध को समझना: परिभाषा, महत्व, और गणना
सामग्री सूची
- सहसंबंध क्या है?
- पियर्सन सहसंबंध गुणांक
- सहसंबंध महत्वपूर्ण क्यों है?
- सहसंबंध की गणना के लिए उपकरण और पुस्तकालय
- सहसंबंध परिणामों की व्याख्या
- निष्कर्ष
सहसंबंध क्या है?
सहसंबंध दो चरों के बीच रैखिक संबंध की ताकत और दिशा को मापता है। चरों के पैमाने से प्रभावित होने वाले कच्चे डेटा मापों के विपरीत, सहसंबंध यह आंकलन करने का एक मानकीकृत तरीका प्रदान करता है कि चर एक-दूसरे के सापेक्ष कैसे चलते हैं।
कोवैरीएन्स बनाम सहसंबंध
सहसंबंध में गहराई से जाने से पहले, इसके पूर्ववर्ती को समझना आवश्यक है: कोवैरीएन्स। कोवैरीएन्स चरों के बीच रैखिक संबंध की दिशा को दर्शाता है। हालांकि, इसके महत्वपूर्ण सीमाएँ हैं:
- पैमाना संवेदनशीलता: कोवैरीएन्स मान चरों की इकाइयों से प्रभावित होते हैं, जिससे संबंध की ताकत की व्याख्या करना चुनौतीपूर्ण हो जाता है।
- अस्पष्ट ताकत: जबकि कोवैरीएन्स यह दिखा सकता है कि चर एक ही दिशा में या विपरीत दिशा में चलते हैं, यह यह नहीं बताता कि वह संबंध कितना मजबूत है।
सहसंबंध, दूसरी ओर, कोवैरीएन्स को सामान्यीकृत करता है, जिससे एक आयामी माप प्रदान होता है जो -1 और +1 के बीच होता है। यह सामान्यीकरण कोवैरीएन्स की सीमाओं को दूर करता है और संबंध की दिशा और ताकत दोनों का आकलन करने के लिए एक मानकीकृत मीट्रिक प्रदान करता है।
पियर्सन सहसंबंध गुणांक
सबसे व्यापक रूप से उपयोग किया जाने वाला सहसंबंध माप पियर्सन सहसंबंध गुणांक (r) है, जिसका नाम कार्ल पियर्सन के नाम पर रखा गया है। यह दो निरंतर चरों के बीच रैखिक संबंध का आकलन करता है।
पियर्सन सहसंबंध गुणांक के गुण
- रेंज: \( r \) का मान -1 और +1 के बीच होता है।
- \( r = +1 \): पूर्ण सकारात्मक रैखिक संबंध।
- \( r = -1 \): पूर्ण नकारात्मक रैखिक संबंध।
- \( r = 0 \): कोई रैखिक संबंध नहीं।
- दिशा:
- सकारात्मक सहसंबंध: जैसे ही एक चर बढ़ता है, दूसरा भी बढ़ता है।
- नकारात्मक सहसंबंध: जैसे ही एक चर बढ़ता है, दूसरा घटता है।
- ताकत:
- |r| = 1: मजबूत संबंध।
- |r| = 0.5: मध्यम संबंध।
- |r| = 0.3: कमजोर संबंध।
- |r| = 0: कोई संबंध नहीं।
पियर्सन सहसंबंध की गणना
पियर्सन सहसंबंध गुणांक को निम्नलिखित सूत्र का उपयोग करके गणना किया जाता है:
\[ r = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y} \]
जहाँ:
- Cov(X, Y): चर X और Y के बीच कोवैरीएन्स।
- \( \sigma_X \): X का मानक विचलन।
- \( \sigma_Y \): Y का मानक विचलन।
यह सूत्र कोवैरीएन्स को मानक विचलनों के गुणनफल से सामान्यीकृत करता है, यह सुनिश्चित करते हुए कि सहसंबंध गुणांक -1 और +1 के बीच ही रहे, चाहे चरों के मूल पैमाने कुछ भी हों।
उदाहरण: वाइन में अवशिष्ट शर्करा बनाम गुणवत्ता
विभिन्न वाइन नमूनों में अवशिष्ट शर्करा और गुणवत्ता का विश्लेषण करने वाले एक डेटासेट पर विचार करें। यहाँ सहसंबंध को कैसे व्याख्यायित किया जा सकता है:
सकारात्मक सहसंबंध (\( r = +0.96 \)): यह एक मजबूत सकारात्मक संबंध को दर्शाता है जहाँ उच्च अवशिष्ट शर्करा उच्च गुणवत्ता से जुड़ा है।

चित्र: अवशिष्ट शर्करा और गुणवत्ता के बीच सकारात्मक सहसंबंध
नकारात्मक सहसंबंध (\( r = -0.99 \)): यह एक मजबूत नकारात्मक संबंध का सुझाव देता है जहाँ उच्च अवशिष्ट शर्करा निम्न गुणवत्ता से जुड़ी है।

चित्र: अवशिष्ट शर्करा और गुणवत्ता के बीच नकारात्मक सहसंबंध
ये उदाहरण यह दर्शाते हैं कि कैसे सहसंबंध डेटा के अंतर्निहित पैटर्न और संबंधों को समझने में मदद करता है, जो निर्णय लेने और पूर्वानुमान मॉडलिंग में मार्गदर्शन करता है।
सहसंबंध महत्वपूर्ण क्यों है?
सहसंबंध को समझना कई कारणों से मौलिक है:
- संबंधों की पहचान करना: यह निर्धारित करता है कि क्या और कितनी मजबूती से जोड़ी के चरों संबंधित हैं।
- पूर्वानुमान मॉडलिंग: प्रतिगमन मॉडल और अन्य पूर्वानुमान विश्लेषिकी उपकरणों के निर्माण के लिए आधार के रूप में कार्य करता है।
- डेटा में कमी: अनावश्यक चरों की पहचान में मदद करता है, जिससे आयाम की कमी संभव होती है।
- जोखिम प्रबंधन: वित्त में, परिसंपत्ति सहसंबंधों को समझना पोर्टफोलियो विविधीकरण और जोखिम आकलन में मदद करता है।
सहसंबंध की गणना के लिए उपकरण और पुस्तकालय
हालांकि मैन्युअली पियर्सन सहसंबंध गुणांक की गणना करना शैक्षिक है, व्यवहार में, विभिन्न उपकरण और पुस्तकालय इस प्रक्रिया को सरल बनाते हैं:
- पाइथन पुस्तकालय:
- Pandas: युग्मपार सहसंबंध की गणना करने के लिए
1DataFrame.corr()
- NumPy: सहसंबंध मैट्रिक्स के लिए
1numpy.corrcoef()
- SciPy: पियर्सन सहसंबंध और p-मूल्यों के लिए
1scipy.stats.pearsonr()
- Pandas: युग्मपार सहसंबंध की गणना करने के लिए
- वेब अनुप्रयोग:
- विभिन्न ऑनलाइन सहसंबंध कैलकुलेटर उपयोगकर्ताओं को डेटा सेट इनपुट करने और बिना किसी कोडिंग के तुरंत सहसंबंध गुणांक की गणना करने की अनुमति देते हैं।
1 2 3 4 5 |
import pandas as pd df = pd.read_csv('wine_data.csv') correlation_matrix = df[['quality', 'residual_sugar']].corr() print(correlation_matrix) |

चित्र: ऑनलाइन सहसंबंध कैलकुलेटर इंटरफेस
सहसंबंध परिणामों की व्याख्या
डेटा के संदर्भ में सहसंबंध गुणांकों की व्याख्या करना आवश्यक है:
- ताकत बनाम महत्व: उच्च सहसंबंध गुणांक कारण-संबंध नहीं दर्शाता। कारणता का अनुमान लगाने के लिए अन्य सांख्यिकीय परीक्षण और क्षेत्र ज्ञान आवश्यक हैं।
- आउटलायर्स का प्रभाव: अत्यधिक मान सहसंबंध गुणांक को विकृत कर सकते हैं, जिससे गलत व्याख्याओं का जन्म हो सकता है।
- अरेखीय संबंध: पियर्सन का सहसंबंध रैखिक संबंधों को मापता है। अरेखीय संबंधों के लिए स्पीयरमैन की श्रेणी सहसंबंध जैसी विभिन्न मेट्रिक्स की आवश्यकता हो सकती है।
निष्कर्ष
सहसंबंध एक शक्तिशाली सांख्यिकीय उपकरण है जो चरों के बीच के संबंधों में अमूल्य अंतर्दृष्टि प्रदान करता है। सहसंबंध गुणांकों को समझकर और सही तरीके से व्याख्यायित करके, डेटा पेशेवर सूचित निर्णय ले सकते हैं, मजबूत मॉडल बना सकते हैं, और डेटा के भीतर छिपे पैटर्न को उजागर कर सकते हैं। चाहे आप अवशिष्ट शर्करा के आधार पर वाइन की गुणवत्ता का विश्लेषण कर रहे हों या बाजार के रुझानों का आकलन कर रहे हों, सहसंबंध में महारत हासिल करना आपको डेटा विश्लेषण की जटिल दुनिया में प्रभावी ढंग से नेविगेट करने के कौशल से लैस करता है।
सांख्यिकीय विश्लेषण और डेटा विज्ञान पर अधिक विस्तृत ट्यूटोरियल और संसाधनों के लिए, हमारे डेटा एनालिटिक्स हब का अन्वेषण करें।