html
Python के साथ डेटा विश्लेषण में सहसंबंध और हीटमैप को समझना
सामग्री तालिका
- परिचय
- सहसंबंध क्या है?
- Python में सहसंबंध की गणना
- हीटमैप का परिचय
- Seaborn हीटमैप के साथ सहसंबंधों का विज़ुअलाइज़ेशन
- हीटमैप की व्याख्या
- प्रायोगिक अनुप्रयोग: Iris डेटासेट उदाहरण
- कोड वॉकथ्रू
- निष्कर्ष
- संदर्भ और आगे की पढ़ाई
परिचय
डेटा विज़ुअलाइज़ेशन प्रभावी डेटा विश्लेषण का एक मुख्य आधार है। विभिन्न विज़ुअलाइज़ेशन तकनीकों में, हीटमैप उनकी क्षमता के लिए विशेष रूप से प्रमुख हैं जो जटिल डेटा मैट्रिक्स को सहज और आसानी से व्याख्यायित करने योग्य तरीके से प्रदर्शित करते हैं। जब सहसंबंध मैट्रिक्स के साथ संयोजित किया जाता है, तो हीटमैप एक साथ कई चर के बीच जटिल संबंधों का खुलासा कर सकते हैं।
यह लेख Python में सहसंबंध विश्लेषण करने और परिणामों को हीटमैप का उपयोग करके विज़ुअलाइज़ करने के तरीके की खोज करता है। Iris डेटासेट—मशीन लर्निंग और सांख्यिकी में एक क्लासिक डेटासेट का उपयोग करके, हम सहसंबंधों की गणना करने और सूचनात्मक विज़ुअलाइज़ेशन बनाने की प्रक्रिया के माध्यम से चलेंगे।
सहसंबंध क्या है?
परिभाषा
सहसंबंध यह मापता है कि दो चर कितने संबंधित हैं। यह -1 से +1 के बीच होता है, जहां:
- +1 एक पूर्ण सकारात्मक सहसंबंध को दर्शाता है: जैसे ही एक चर बढ़ता है, दूसरा भी समानुपातिक रूप से बढ़ता है।
- -1 एक पूर्ण नकारात्मक सहसंबंध को दर्शाता है: जैसे ही एक चर बढ़ता है, दूसरा समानुपातिक रूप से घटता है।
- 0 कोई सहसंबंध नहीं दर्शाता: दो चर के बीच कोई स्पष्ट रैखिक संबंध नहीं होता है।
सहसंबंध के प्रकार
- सकारात्मक सहसंबंध: दोनों चर एक ही दिशा में बढ़ते हैं।
- नकारात्मक सहसंबंध: चर विपरीत दिशाओं में बढ़ते हैं।
- कोई सहसंबंध नहीं: दो चर के बीच कोई पूर्वानुमान योग्य पैटर्न नहीं होता है।
इन संबंधों को समझना फीचर चयन, प्रत्याशा मॉडल में मल्टिकोलिनियरिटी की पहचान, और अंतर्निहित डेटा संरचना में अंतर्दृष्टि प्राप्त करने के लिए महत्वपूर्ण है।
Python में सहसंबंध की गणना
Python मजबूत पुस्तकालय प्रदान करता है जैसे Pandas और NumPy सहसंबंधों की गणना को आसानी से करने के लिए। Pandas में DataFrame.corr() विधि कॉलमों का जोड़ीवार सहसंबंध गणना करती है, जिसमें NA/शून्य मानों को छोड़ दिया जाता है।
उदाहरण:
		
		
			
			
			
			
				
					
				
					123456789
				 
						import pandas as pd # Load the Iris datasetnames = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']iris = pd.read_csv('iris.data', names=names) # Calculate correlation matrixcorrelation_matrix = iris.corr()print(correlation_matrix) 
					 
				
			
		
आउटपुट:
sepal_length 
sepal_width 
petal_length 
petal_width 
 
sepal_length 
1.000000 
-0.109369 
0.871754 
0.817954 
 
sepal_width 
-0.109369 
1.000000 
-0.420516 
-0.356544 
 
petal_length 
0.871754 
-0.420516 
1.000000 
0.962757 
 
petal_width 
0.817954 
-0.356544 
0.962757 
1.000000 
 
हीटमैप का परिचय
हीटमैप क्या है?
हीटमैप डेटा का एक ग्राफिकल प्रतिनिधित्व है जहां व्यक्तिगत मानों को रंगों द्वारा दर्शाया जाता है। सहसंबंध मैट्रिक्स के संदर्भ में, हीटमैप चर के बीच संबंधों का एक दृश्य अवलोकन प्रदान करते हैं, जिससे पैटर्न, सहसंबंधों की ताकत और दिशा को पहचानना आसान हो जाता है।
हीटमैप क्यों उपयोग करें?
- स्पष्टता: जटिल डेटा मैट्रिक्स को एक आसानी से व्याख्यायित प्रारूप में सरल बनाता है।
- कुशलता: मजबूत और कमजोर सहसंबंधों को जल्दी से हाइलाइट करता है।
- विज़ुअलाइज़ेशन: रंगों के ग्रेडेशन के माध्यम से डेटा संबंधों की समझ को बढ़ाता है।
Seaborn हीटमैप के साथ सहसंबंधों का विज़ुअलाइज़ेशन
Seaborn Matplotlib के ऊपर बनी एक Python डेटा विज़ुअलाइज़ेशन लाइब्रेरी है, जो आकर्षक और सूचनापूर्ण सांख्यिकीय ग्राफिक्स बनाने के लिए एक उच्च-स्तरीय इंटरफ़ेस प्रदान करती है। Seaborn में heatmap() फ़ंक्शन विशेष रूप से सहसंबंध मैट्रिक्स को प्रभावी ढंग से विज़ुअलाइज़ करने के लिए डिज़ाइन किया गया है।
उदाहरण:
		
		
			
			
			
			
				
					
				
					1234567891011
				 
						import seaborn as snsimport matplotlib.pyplot as plt # Set the style for the heatmapsns.set() # Create the heatmapsns.heatmap(correlation_matrix, annot=True, fmt='.2f') # Display the heatmapplt.show() 
					 
				
			
		
परिमाण:
- correlation_matrix: विज़ुअलाइज़ करने के लिए डेटा।
- annot=True: प्रत्येक सेल को सहसंबंध गुणांक के साथ चिह्नित करता है।
- fmt='.2f': एनोटेशन टेक्स्ट को दो दशमलव स्थानों पर प्रारूपित करता है।
हीटमैप की व्याख्या
एक बार हीटमैप उत्पन्न हो जाने पर, इसके तत्वों को समझना महत्वपूर्ण होता है:
- रंग की तीव्रता: सहसंबंध की ताकत को दर्शाती है।
  
    - गहरे रंग: मजबूत सकारात्मक सहसंबंध को इंगित करते हैं।
- हल्के रंग: मजबूत नकारात्मक सहसंबंध को इंगित करते हैं।
 
- एनोटेशन मान: सटीक व्याख्या के लिए सटीक सहसंबंध गुणांक प्रदान करते हैं।
- वामभाजक रेखा: हमेशा 1.00 का सहसंबंध दिखाती है क्योंकि एक चर स्वयं के साथ पूरी तरह से सहसंबंधित होता है।
मुख्य अंतर्दृष्टियाँ:
- उच्च सकारात्मक सहसंबंध (उदा., पराग की लंबाई और पराग की चौड़ाई): सुझाव देता है कि जैसे-जैसे पराग की लंबाई बढ़ती है, पराग की चौड़ाई भी बढ़ने की प्रवृत्ति रखती है।
- उच्च नकारात्मक सहसंबंध (उदा., सेपल चौड़ाई और पराग की लंबाई): दर्शाता है कि जैसे ही एक चर बढ़ता है, दूसरा घटने की प्रवृत्ति रखता है।
- निम्न या निकट-शून्य सहसंबंध: चर के बीच नगण्य या कोई रैखिक संबंध नहीं होने का संकेत देता है।
प्रायोगिक अनुप्रयोग: Iris डेटासेट उदाहरण
Iris डेटासेट डेटा विज्ञान में एक महत्वपूर्ण विषय है, जिसे वर्गीकरण एल्गोरिदम को प्रदर्शित करने में इसकी सादगी और स्पष्टता के लिए प्रसिद्ध किया गया है। इसमें Iris फूलों के तीन प्रजातियों से 150 नमूने शामिल हैं, जिनमें प्रत्येक नमूने के लिए चार विशेषताएँ मापी गई हैं:
- सेपल लंबाई
- सेपल चौड़ाई
- पराग की लंबाई
- पराग की चौड़ाई
इन विशेषताओं के बीच सहसंबंधों का विश्लेषण करके, हम डेटासेट की संरचना में मूल्यवान अंतर्दृष्टि प्राप्त कर सकते हैं और मशीन लर्निंग मॉडलों के लिए फीचर चयन को सूचित कर सकते हैं।
कोड वॉकथ्रू
नीचे Iris डेटासेट का उपयोग करके सहसंबंध विश्लेषण और हीटमैप विज़ुअलाइज़ेशन को लागू करने के लिए चरण-दर-चरण मार्गदर्शिका दी गई है।
1. आवश्यक लाइब्रेरी आयात करें
		
		
			
			
			
			
				
					
				
					12345678
				 
						import numpy as npimport pandas as pd import matplotlib.pyplot as pltimport seaborn as sns # Configure seabornsns.set()%matplotlib inline 
					 
				
			
		
2. Iris डेटासेट लोड करें
		
		
			
			
			
			
				
					
				
					12345678
				 
						# Define column namesnames = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class'] # Load datasetiris = pd.read_csv('iris.data', names=names) # Display the first few rowsprint(iris.head()) 
					 
				
			
		
नमूना आउटपुट:
sepal_length 
sepal_width 
petal_length 
petal_width 
class 
 
5.1 
3.5 
1.4 
0.2 
Iris-setosa 
 
4.9 
3.0 
1.4 
0.2 
Iris-setosa 
 
4.7 
3.2 
1.3 
0.2 
Iris-setosa 
 
4.6 
3.1 
1.5 
0.2 
Iris-setosa 
 
5.0 
3.6 
1.4 
0.2 
Iris-setosa 
 
3. सहसंबंध मैट्रिक्स की गणना करें
		
		
			
			
			
			
				
					
				
					12345
				 
						# Compute correlation matrixcorrelation_matrix = iris.corr() # Display the correlation matrixprint(correlation_matrix) 
					 
				
			
		
आउटपुट:
sepal_length 
sepal_width 
petal_length 
petal_width 
 
sepal_length 
1.000000 
-0.109369 
0.871754 
0.817954 
 
sepal_width 
-0.109369 
1.000000 
-0.420516 
-0.356544 
 
petal_length 
0.871754 
-0.420516 
1.000000 
0.962757 
 
petal_width 
0.817954 
-0.356544 
0.962757 
1.000000 
 
4. हीटमैप उत्पन्न करें
		
		
			
			
			
			
				
					
				
					12345
				 
						# Create heatmapsns.heatmap(correlation_matrix, annot=True, fmt='.2f') # Display the heatmapplt.show() 
					 
				
			
		
परिणाम:

नोट: कोड को Python वातावरण में चलाने पर वास्तविक हीटमैप छवि प्रदर्शित होगी।
5. हीटमैप की व्याख्या
- वामभाजक मान (1.00): अपेक्षित रूप से, प्रत्येक विशेषता स्वयं के साथ पूरी तरह से सहसंबंधित है।
- उच्च सकारात्मक सहसंबंध:
  
    - petal_lengthऔर- petal_width(0.96)
- sepal_lengthऔर- petal_length(0.87)
 
- मध्यम नकारात्मक सहसंबंध:
  
    - sepal_lengthऔर- sepal_width(-0.11)
- petal_lengthऔर- sepal_width(-0.42)
 
ये अंतर्दृष्टियाँ सुझाव देती हैं कि पराग की आयाम अत्यधिक पारस्परिक रूप से संबंधित हैं, जो मशीन लर्निंग मॉडलों में फीचर चयन जैसे कार्यों के लिए महत्वपूर्ण हैं।
निष्कर्ष
सहसंबंध विश्लेषण और हीटमैप डेटा विज्ञान में अनिवार्य उपकरण हैं, जो चर के बीच संबंधों में गहन अंतर्दृष्टि प्रदान करते हैं। इन सहसंबंधों को विज़ुअलाइज़ करके, विश्लेषक फीचर चयन पर सूचित निर्णय ले सकते हैं, संभावित मल्टिकोलिनियरिटी मुद्दों की पहचान कर सकते हैं, और मशीन लर्निंग मॉडलों की व्याख्या क्षमता को बढ़ा सकते हैं।
Python की Pandas और Seaborn लाइब्रेरीज का उपयोग करके, कोई भी आसानी से सहसंबंध मैट्रिक्स की गणना और विज़ुअलाइज़ेशन कर सकता है, जटिल डेटासेट्स को सहज विज़ुअल प्रतिनिधित्व में बदलते हुए। Iris डेटासेट इन अवधारणाओं को प्रदर्शित करने के लिए एक उत्कृष्ट उदाहरण के रूप में कार्य करता है, इन विश्लेषणात्मक तकनीकों की शक्ति और सादगी को उजागर करता है।
संदर्भ और आगे की पढ़ाई
- Pandas दस्तावेज़ीकरण: सहसंबंध और सहवेरिएंस
- Seaborn दस्तावेज़ीकरण: हीटमैप
- Iris डेटासेट अवलोकन
- सहसंबंध गुणांक को समझना
- Python के साथ डेटा विज़ुअलाइज़ेशन: एक व्यापक गाइड
- मशीन लर्निंग प्रसंस्करण तकनीकें
सही उपकरणों और ज्ञान के साथ डेटा विश्लेषण की यात्रा शुरू करने से विश्लेषकों को छिपे हुए पैटर्न खोजने और डेटा-आधारित निर्णय लेने की शक्ति मिलती है। सहसंबंध विश्लेषण और हीटमैप विज़ुअलाइज़ेशन में महारत हासिल करना डेटा विज्ञान और मशीन लर्निंग में दक्षता प्राप्त करने की दिशा में एक महत्वपूर्ण कदम है।

