S03L08 – हीटमैप

html
Python के साथ डेटा विश्लेषण में सहसंबंध और हीटमैप को समझना

सामग्री तालिका

परिचय
सहसंबंध क्या है?
Python में सहसंबंध की गणना
हीटमैप का परिचय
Seaborn हीटमैप के साथ सहसंबंधों का विज़ुअलाइज़ेशन
हीटमैप की व्याख्या
प्रायोगिक अनुप्रयोग: Iris डेटासेट उदाहरण
कोड वॉकथ्रू
निष्कर्ष
संदर्भ और आगे की पढ़ाई


परिचय
डेटा विज़ुअलाइज़ेशन प्रभावी डेटा विश्लेषण का एक मुख्य आधार है। विभिन्न विज़ुअलाइज़ेशन तकनीकों में, हीटमैप उनकी क्षमता के लिए विशेष रूप से प्रमुख हैं जो जटिल डेटा मैट्रिक्स को सहज और आसानी से व्याख्यायित करने योग्य तरीके से प्रदर्शित करते हैं। जब सहसंबंध मैट्रिक्स के साथ संयोजित किया जाता है, तो हीटमैप एक साथ कई चर के बीच जटिल संबंधों का खुलासा कर सकते हैं।
यह लेख Python में सहसंबंध विश्लेषण करने और परिणामों को हीटमैप का उपयोग करके विज़ुअलाइज़ करने के तरीके की खोज करता है। Iris डेटासेट—मशीन लर्निंग और सांख्यिकी में एक क्लासिक डेटासेट का उपयोग करके, हम सहसंबंधों की गणना करने और सूचनात्मक विज़ुअलाइज़ेशन बनाने की प्रक्रिया के माध्यम से चलेंगे।

सहसंबंध क्या है?
परिभाषा
सहसंबंध यह मापता है कि दो चर कितने संबंधित हैं। यह -1 से +1 के बीच होता है, जहां:

+1 एक पूर्ण सकारात्मक सहसंबंध को दर्शाता है: जैसे ही एक चर बढ़ता है, दूसरा भी समानुपातिक रूप से बढ़ता है।
-1 एक पूर्ण नकारात्मक सहसंबंध को दर्शाता है: जैसे ही एक चर बढ़ता है, दूसरा समानुपातिक रूप से घटता है।
0 कोई सहसंबंध नहीं दर्शाता: दो चर के बीच कोई स्पष्ट रैखिक संबंध नहीं होता है।

सहसंबंध के प्रकार

सकारात्मक सहसंबंध: दोनों चर एक ही दिशा में बढ़ते हैं।
नकारात्मक सहसंबंध: चर विपरीत दिशाओं में बढ़ते हैं।
कोई सहसंबंध नहीं: दो चर के बीच कोई पूर्वानुमान योग्य पैटर्न नहीं होता है।

इन संबंधों को समझना फीचर चयन, प्रत्याशा मॉडल में मल्टिकोलिनियरिटी की पहचान, और अंतर्निहित डेटा संरचना में अंतर्दृष्टि प्राप्त करने के लिए महत्वपूर्ण है।

Python में सहसंबंध की गणना
Python मजबूत पुस्तकालय प्रदान करता है जैसे Pandas और NumPy सहसंबंधों की गणना को आसानी से करने के लिए। Pandas में DataFrame.corr() विधि कॉलमों का जोड़ीवार सहसंबंध गणना करती है, जिसमें NA/शून्य मानों को छोड़ दिया जाता है।

उदाहरण:





		
		
			
			
Java
			
			import pandas as pd

# Load the Iris dataset
names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']
iris = pd.read_csv('iris.data', names=names)

# Calculate correlation matrix
correlation_matrix = iris.corr()
print(correlation_matrix)
			
				
					
				
					1
2
3
4
5
6
7
8
9
				
						import pandas as pd
 
# Load the Iris dataset
names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']
iris = pd.read_csv('iris.data', names=names)
 
# Calculate correlation matrix
correlation_matrix = iris.corr()
print(correlation_matrix)
					
				
			
		



आउटपुट:




sepal_length
sepal_width
petal_length
petal_width


sepal_length
1.000000
-0.109369
0.871754
0.817954


sepal_width
-0.109369
1.000000
-0.420516
-0.356544


petal_length
0.871754
-0.420516
1.000000
0.962757


petal_width
0.817954
-0.356544
0.962757
1.000000



हीटमैप का परिचय
हीटमैप क्या है?
हीटमैप डेटा का एक ग्राफिकल प्रतिनिधित्व है जहां व्यक्तिगत मानों को रंगों द्वारा दर्शाया जाता है। सहसंबंध मैट्रिक्स के संदर्भ में, हीटमैप चर के बीच संबंधों का एक दृश्य अवलोकन प्रदान करते हैं, जिससे पैटर्न, सहसंबंधों की ताकत और दिशा को पहचानना आसान हो जाता है।
हीटमैप क्यों उपयोग करें?

स्पष्टता: जटिल डेटा मैट्रिक्स को एक आसानी से व्याख्यायित प्रारूप में सरल बनाता है।
कुशलता: मजबूत और कमजोर सहसंबंधों को जल्दी से हाइलाइट करता है।
विज़ुअलाइज़ेशन: रंगों के ग्रेडेशन के माध्यम से डेटा संबंधों की समझ को बढ़ाता है।


Seaborn हीटमैप के साथ सहसंबंधों का विज़ुअलाइज़ेशन
Seaborn Matplotlib के ऊपर बनी एक Python डेटा विज़ुअलाइज़ेशन लाइब्रेरी है, जो आकर्षक और सूचनापूर्ण सांख्यिकीय ग्राफिक्स बनाने के लिए एक उच्च-स्तरीय इंटरफ़ेस प्रदान करती है। Seaborn में heatmap() फ़ंक्शन विशेष रूप से सहसंबंध मैट्रिक्स को प्रभावी ढंग से विज़ुअलाइज़ करने के लिए डिज़ाइन किया गया है।
उदाहरण:





		
		
			
			
Java
			
			import seaborn as sns
import matplotlib.pyplot as plt

# Set the style for the heatmap
sns.set()

# Create the heatmap
sns.heatmap(correlation_matrix, annot=True, fmt='.2f')

# Display the heatmap
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
				
						import seaborn as sns
import matplotlib.pyplot as plt
 
# Set the style for the heatmap
sns.set()
 
# Create the heatmap
sns.heatmap(correlation_matrix, annot=True, fmt='.2f')
 
# Display the heatmap
plt.show()
					
				
			
		



परिमाण:

correlation_matrix: विज़ुअलाइज़ करने के लिए डेटा।
annot=True: प्रत्येक सेल को सहसंबंध गुणांक के साथ चिह्नित करता है।
fmt='.2f': एनोटेशन टेक्स्ट को दो दशमलव स्थानों पर प्रारूपित करता है।


हीटमैप की व्याख्या
एक बार हीटमैप उत्पन्न हो जाने पर, इसके तत्वों को समझना महत्वपूर्ण होता है:

रंग की तीव्रता: सहसंबंध की ताकत को दर्शाती है।
  
    गहरे रंग: मजबूत सकारात्मक सहसंबंध को इंगित करते हैं।
    हल्के रंग: मजबूत नकारात्मक सहसंबंध को इंगित करते हैं।
  

एनोटेशन मान: सटीक व्याख्या के लिए सटीक सहसंबंध गुणांक प्रदान करते हैं।
वामभाजक रेखा: हमेशा 1.00 का सहसंबंध दिखाती है क्योंकि एक चर स्वयं के साथ पूरी तरह से सहसंबंधित होता है।


मुख्य अंतर्दृष्टियाँ:

उच्च सकारात्मक सहसंबंध (उदा., पराग की लंबाई और पराग की चौड़ाई): सुझाव देता है कि जैसे-जैसे पराग की लंबाई बढ़ती है, पराग की चौड़ाई भी बढ़ने की प्रवृत्ति रखती है।
उच्च नकारात्मक सहसंबंध (उदा., सेपल चौड़ाई और पराग की लंबाई): दर्शाता है कि जैसे ही एक चर बढ़ता है, दूसरा घटने की प्रवृत्ति रखता है।
निम्न या निकट-शून्य सहसंबंध: चर के बीच नगण्य या कोई रैखिक संबंध नहीं होने का संकेत देता है।


प्रायोगिक अनुप्रयोग: Iris डेटासेट उदाहरण
Iris डेटासेट डेटा विज्ञान में एक महत्वपूर्ण विषय है, जिसे वर्गीकरण एल्गोरिदम को प्रदर्शित करने में इसकी सादगी और स्पष्टता के लिए प्रसिद्ध किया गया है। इसमें Iris फूलों के तीन प्रजातियों से 150 नमूने शामिल हैं, जिनमें प्रत्येक नमूने के लिए चार विशेषताएँ मापी गई हैं:

सेपल लंबाई
सेपल चौड़ाई
पराग की लंबाई
पराग की चौड़ाई

इन विशेषताओं के बीच सहसंबंधों का विश्लेषण करके, हम डेटासेट की संरचना में मूल्यवान अंतर्दृष्टि प्राप्त कर सकते हैं और मशीन लर्निंग मॉडलों के लिए फीचर चयन को सूचित कर सकते हैं।

कोड वॉकथ्रू
नीचे Iris डेटासेट का उपयोग करके सहसंबंध विश्लेषण और हीटमैप विज़ुअलाइज़ेशन को लागू करने के लिए चरण-दर-चरण मार्गदर्शिका दी गई है।

1. आवश्यक लाइब्रेरी आयात करें




		
		
			
			
Java
			
			import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns

# Configure seaborn
sns.set()
%matplotlib inline
			
				
					
				
					1
2
3
4
5
6
7
8
				
						import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns
 
# Configure seaborn
sns.set()
%matplotlib inline
					
				
			
		



2. Iris डेटासेट लोड करें




		
		
			
			
Java
			
			# Define column names
names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']

# Load dataset
iris = pd.read_csv('iris.data', names=names)

# Display the first few rows
print(iris.head())
			
				
					
				
					1
2
3
4
5
6
7
8
				
						# Define column names
names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']
 
# Load dataset
iris = pd.read_csv('iris.data', names=names)
 
# Display the first few rows
print(iris.head())
					
				
			
		



नमूना आउटपुट:



sepal_length
sepal_width
petal_length
petal_width
class


5.1
3.5
1.4
0.2
Iris-setosa


4.9
3.0
1.4
0.2
Iris-setosa


4.7
3.2
1.3
0.2
Iris-setosa


4.6
3.1
1.5
0.2
Iris-setosa


5.0
3.6
1.4
0.2
Iris-setosa



3. सहसंबंध मैट्रिक्स की गणना करें




		
		
			
			
Java
			
			# Compute correlation matrix
correlation_matrix = iris.corr()

# Display the correlation matrix
print(correlation_matrix)
			
				
					
				
					1
2
3
4
5
				
						# Compute correlation matrix
correlation_matrix = iris.corr()
 
# Display the correlation matrix
print(correlation_matrix)
					
				
			
		



आउटपुट:




sepal_length
sepal_width
petal_length
petal_width


sepal_length
1.000000
-0.109369
0.871754
0.817954


sepal_width
-0.109369
1.000000
-0.420516
-0.356544


petal_length
0.871754
-0.420516
1.000000
0.962757


petal_width
0.817954
-0.356544
0.962757
1.000000



4. हीटमैप उत्पन्न करें




		
		
			
			
Java
			
			# Create heatmap
sns.heatmap(correlation_matrix, annot=True, fmt='.2f')

# Display the heatmap
plt.show()
			
				
					
				
					1
2
3
4
5
				
						# Create heatmap
sns.heatmap(correlation_matrix, annot=True, fmt='.2f')
 
# Display the heatmap
plt.show()
					
				
			
		



परिणाम:

नोट: कोड को Python वातावरण में चलाने पर वास्तविक हीटमैप छवि प्रदर्शित होगी।

5. हीटमैप की व्याख्या

वामभाजक मान (1.00): अपेक्षित रूप से, प्रत्येक विशेषता स्वयं के साथ पूरी तरह से सहसंबंधित है।
उच्च सकारात्मक सहसंबंध:
  
    petal_length और petal_width (0.96)
    sepal_length और petal_length (0.87)
  

मध्यम नकारात्मक सहसंबंध:
  
    sepal_length और sepal_width (-0.11)
    petal_length और sepal_width (-0.42)
  


ये अंतर्दृष्टियाँ सुझाव देती हैं कि पराग की आयाम अत्यधिक पारस्परिक रूप से संबंधित हैं, जो मशीन लर्निंग मॉडलों में फीचर चयन जैसे कार्यों के लिए महत्वपूर्ण हैं।

निष्कर्ष
सहसंबंध विश्लेषण और हीटमैप डेटा विज्ञान में अनिवार्य उपकरण हैं, जो चर के बीच संबंधों में गहन अंतर्दृष्टि प्रदान करते हैं। इन सहसंबंधों को विज़ुअलाइज़ करके, विश्लेषक फीचर चयन पर सूचित निर्णय ले सकते हैं, संभावित मल्टिकोलिनियरिटी मुद्दों की पहचान कर सकते हैं, और मशीन लर्निंग मॉडलों की व्याख्या क्षमता को बढ़ा सकते हैं।
Python की Pandas और Seaborn लाइब्रेरीज का उपयोग करके, कोई भी आसानी से सहसंबंध मैट्रिक्स की गणना और विज़ुअलाइज़ेशन कर सकता है, जटिल डेटासेट्स को सहज विज़ुअल प्रतिनिधित्व में बदलते हुए। Iris डेटासेट इन अवधारणाओं को प्रदर्शित करने के लिए एक उत्कृष्ट उदाहरण के रूप में कार्य करता है, इन विश्लेषणात्मक तकनीकों की शक्ति और सादगी को उजागर करता है।

संदर्भ और आगे की पढ़ाई

Pandas दस्तावेज़ीकरण: सहसंबंध और सहवेरिएंस
Seaborn दस्तावेज़ीकरण: हीटमैप
Iris डेटासेट अवलोकन
सहसंबंध गुणांक को समझना
Python के साथ डेटा विज़ुअलाइज़ेशन: एक व्यापक गाइड
मशीन लर्निंग प्रसंस्करण तकनीकें


सही उपकरणों और ज्ञान के साथ डेटा विश्लेषण की यात्रा शुरू करने से विश्लेषकों को छिपे हुए पैटर्न खोजने और डेटा-आधारित निर्णय लेने की शक्ति मिलती है। सहसंबंध विश्लेषण और हीटमैप विज़ुअलाइज़ेशन में महारत हासिल करना डेटा विज्ञान और मशीन लर्निंग में दक्षता प्राप्त करने की दिशा में एक महत्वपूर्ण कदम है।
	sepal_length	sepal_width	petal_length	petal_width
sepal_length	1.000000	-0.109369	0.871754	0.817954
sepal_width	-0.109369	1.000000	-0.420516	-0.356544
petal_length	0.871754	-0.420516	1.000000	0.962757
petal_width	0.817954	-0.356544	0.962757	1.000000
sepal_length	sepal_width	petal_length	petal_width	class
5.1	3.5	1.4	0.2	Iris-setosa
4.9	3.0	1.4	0.2	Iris-setosa
4.7	3.2	1.3	0.2	Iris-setosa
4.6	3.1	1.5	0.2	Iris-setosa
5.0	3.6	1.4	0.2	Iris-setosa