S03L01 – आइरिस डेटा सेट पर बिखराव आलेख

html
सीबोर्न, खोजात्मक डेटा विश्लेषण (EDA), और आईरिस डेटासेट का परिचय

विषय सूची

    सीबोर्न: पाइथन में डेटा विज़ुअलाइज़ेशन को बेहतर बनाना
    खोजात्मक डेटा विश्लेषण (EDA): डेटा से अंतर्दृष्टि प्रकट करना
    आईरिस डेटासेट: डेटा विज्ञान में एक क्लासिक
    व्यावहारिक अनुप्रयोग: आईरिस डेटासेट को लोड करना और विज़ुअलाइज़ करना
    आगे बढ़ते हुए: पेयरप्लॉट्स के साथ उन्नत विज़ुअलाइज़ेशन
    निष्कर्ष


1. सीबोर्न: पाइथन में डेटा विज़ुअलाइज़ेशन को बेहतर बनाना

Seaborn एक मजबूत विज़ुअलाइज़ेशन लाइब्रेरी है जो Matplotlib पर आधारित है, जो पाइथन की पुरानी और सबसे अधिक उपयोग की जाने वाली प्लॉटिंग लाइब्रेरी में से एक है। जबकि Matplotlib स्थैतिक, एनिमेटेड और इंटरैक्टिव विज़ुअलाइज़ेशन बनाने के लिए एक ठोस आधार प्रदान करती है, Seaborn कम बोइलरप्लेट कोड के साथ अधिक उन्नत और सौंदर्यपूर्ण रूप से आकर्षक विज़ुअलाइज़ेशन प्रदान करके इसकी क्षमताओं का विस्तार करती है।

सीबोर्न क्यों उपयोग करें?

    उपयोग में सरलता: सहज फ़ंक्शन के साथ जटिल विज़ुअलाइज़ेशन को सरल बनाता है।
    सौंदर्य में वृद्धि: प्लॉट्स को अधिक आकर्षक बनाने के लिए अंतर्निर्मित थीम और रंग पैलेट्स के साथ आता है।
    Pandas के साथ एकीकरण: आसानी से Pandas डेटा फ्रेम्स के साथ काम करता है, जिससे डेटा मैनिपुलेशन और विज़ुअलाइज़ेशन सरल हो जाती है।


हमारे आगामी मॉड्यूल में, हम Seaborn की कार्यक्षमताओं में और गहराई से अध्ययन करेंगे, Matplotlib के बुनियादी ज्ञान पर आधारित होकर अधिक परिष्कृत विज़ुअलाइज़ेशन बनाने के लिए।

2. खोजात्मक डेटा विश्लेषण (EDA): डेटा से अंतर्दृष्टि प्रकट करना

खोजात्मक डेटा विश्लेषण (EDA) डेटासेट का विश्लेषण करने की प्रक्रिया है जिससे उनकी मुख्य विशेषताओं को सारांशित किया जा सके, अक्सर दृश्य तरीकों का उपयोग करके। EDA डेटा विज्ञान वर्कफ़्लो में एक महत्वपूर्ण कदम है क्योंकि यह डेटा की अंतर्निहित संरचना को समझने, अपवादों का पता लगाने, पैटर्न की पहचान करने और परिकल्पनाओं का परीक्षण करने में मदद करता है।

EDA के मुख्य उद्देश्य:

    डेटा वितरण को समझना: यह समझना कि डेटा बिंदु विभिन्न परिवर्तनों में कैसे फैले हुए हैं।
    संबंधों की पहचान करना: परिवर्तनों के बीच सहसंबंध और इंटरैक्शन की खोज करना।
    विचलनों का पता लगाना: अपवादों या असामान्य अवलोकनों को देखना जो डेटा गुणवत्ता समस्याओं को संकेत कर सकते हैं।
    मॉडल निर्माण को सूचित करना: उपयुक्त मॉडलिंग तकनीकों के चयन को मार्गदर्शन करने वाले अंतर्दृष्टि प्रदान करना।


EDA करने से, डेटा वैज्ञानिक डेटा प्रीप्रोसेसिंग, फीचर चयन, और मॉडल चयन के बारे में सूचित निर्णय ले सकते हैं, जिससे यह सुनिश्चित होता है कि बाद के विश्लेषण डेटा की ठोस समझ पर आधारित हों।

3. आईरिस डेटासेट: डेटा विज्ञान में एक क्लासिक

आईरिस डेटासेट डेटा विज्ञान और मशीन लर्निंग के क्षेत्र में सबसे प्रसिद्ध डेटासेटों में से एक है। इसे रोनाल्ड फिशर द्वारा 1936 में प्रकाशित किया गया था, और यह विद्यार्थियों और पेशेवरों दोनों के लिए वर्गीकरण तकनीकों का अभ्यास करने के लिए एक परिचयात्मक डेटासेट के रूप में कार्य करता है।

डेटासेट अवलोकन:

    
        कुल रिकॉर्ड्स
        कक्षाएँ
        विशेषताएँ
    
    
        150
        3 (Iris-setosa, Iris-versicolor, Iris-virginica)
        
            
                सेपल लंबाई
                सेपल चौड़ाई
                पेटल लंबाई
                पेटल चौड़ाई
            
        
    


डेटासेट में प्रत्येक कक्षा 50 रिकॉर्ड्स के साथ पूरी तरह संतुलित है, जिससे यह असंतुलित डेटा की जटिलताओं के बिना वर्गीकरण कार्यों के लिए एक उत्कृष्ट उम्मीदवार बन जाता है।

आईरिस डेटासेट क्यों?

    सरलता: इसकी सीधी संरचना इसे शुरुआती लोगों के लिए आदर्श बनाती है।
    संतुलित कक्षाएँ: यह सुनिश्चित करता है कि वर्गीकरण एल्गोरिदम किसी विशेष कक्षा के प्रति पक्षपातपूर्ण नहीं हों।
    सूचनात्मक विशेषताएँ: चारों विशेषताएँ तीनों आईरिस प्रजातियों के बीच अंतर करने के लिए पर्याप्त जानकारी प्रदान करती हैं।


4. व्यावहारिक अनुप्रयोग: आईरिस डेटासेट को लोड करना और विज़ुअलाइज़ करना

आईरिस डेटासेट को लोड करने और उसे पाइथन के Jupyter Notebook वातावरण का उपयोग करके विज़ुअलाइज़ करने की प्रक्रिया को हम मिलकर देखें।

चरण 1: आवश्यक लाइब्रेरी इम्पोर्ट करें




		
		
			
			
Java
			
			import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Enhance Matplotlib aesthetics with Seaborn
sns.set()
			
				
					
				
					1
2
3
4
5
6
7
				
						import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
 
# Enhance Matplotlib aesthetics with Seaborn
sns.set()
					
				
			
		



चरण 2: डेटासेट लोड करें




		
		
			
			
Java
			
			# Read the Iris data file
iris = pd.read_csv('Iris.data', header=None)

# Define column names based on the dataset description
column_names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']
iris.columns = column_names
			
				
					
				
					1
2
3
4
5
6
				
						# Read the Iris data file
iris = pd.read_csv('Iris.data', header=None)
 
# Define column names based on the dataset description
column_names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']
iris.columns = column_names
					
				
			
		



चरण 3: डेटासेट का अन्वेषण करें




		
		
			
			
Java
			
			# Display the first few rows
print(iris.head())

# Check for the number of records in each class
print(iris['class'].value_counts())
			
				
					
				
					1
2
3
4
5
				
						# Display the first few rows
print(iris.head())
 
# Check for the number of records in each class
print(iris['class'].value_counts())
					
				
			
		


आउटपुट:




		
		
			
			
Java
			
			Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: class, dtype: int64
			
				
					
				
					1
2
3
4
				
						Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: class, dtype: int64
					
				
			
		



चरण 4: स्कैटर प्लॉट विज़ुअलाइज़ेशन

सेपल लंबाई और सेपल चौड़ाई के बीच संबंध को विज़ुअलाइज़ करना:




		
		
			
			
Java
			
			sns.scatterplot(x='sepal_length', y='sepal_width', hue='class', data=iris)
plt.show()
			
				
					
				
					1
2
				
						sns.scatterplot(x='sepal_length', y='sepal_width', hue='class', data=iris)
plt.show()
					
				
			
		


यह स्कैटर प्लॉट विभिन्न आईरिस प्रजातियों के बीच पैटर्न और ओवरलैप को पहचानने में मदद करता है। उदाहरण के लिए, Iris-setosa बिंदु स्पष्ट रूप से अलग हैं, जबकि Iris-versicolor और Iris-virginica में कुछ ओवरलैप दिखाई देता है।

Plotly का उपयोग करके 3D स्कैटर प्लॉट

हालांकि Seaborn सीधे 3D प्लॉटिंग का समर्थन नहीं करता है, आप इंटरैक्टिव 3D विज़ुअलाइज़ेशन के लिए Plotly का उपयोग कर सकते हैं:




		
		
			
			
Java
			
			import plotly.express as px

fig = px.scatter_3d(iris, x='sepal_length', y='sepal_width', z='petal_length',
                    color='class', title='3D Scatter Plot of Iris Dataset')
fig.show()
			
				
					
				
					1
2
3
4
5
				
						import plotly.express as px
 
fig = px.scatter_3d(iris, x='sepal_length', y='sepal_width', z='petal_length',
                    color='class', title='3D Scatter Plot of Iris Dataset')
fig.show()
					
				
			
		


यह इंटरैक्टिव प्लॉट तीनों विशेषताओं के इंटरैक्शन के माध्यम से आईरिस प्रजातियों के बीच अंतर करने का और गहरा दृष्टिकोण प्रदान करता है।

5. आगे बढ़ते हुए: पेयरप्लॉट्स के साथ उन्नत विज़ुअलाइज़ेशन

अगले मॉड्यूल में, हम Seaborn की pairplot विशेषता का अन्वेषण करेंगे, जो प्रत्येक फीचर के जोड़े के लिए स्कैटर प्लॉट का मैट्रिक्स बनाकर व्यापक विज़ुअल विश्लेषण की अनुमति देती है। यह सभी चार विशेषताओं के बीच संबंधों की अधिक विस्तृत जांच करने में सक्षम बनाएगा, जिससे बेहतर डेटा समझ और मॉडल निर्माण में मदद मिलेगी।

पेयरप्लॉट्स क्यों?

    व्यापक विश्लेषण: एक साथ कई फीचर जोड़ों के बीच संबंधों को विज़ुअलाइज़ करें।
    कक्षा पृथक्करण: विभिन्न फीचर संयोजनों में विभिन्न कक्षाओं के समूह को आसानी से पहचानें।
    मल्टीकोलीनियरिटी का पता लगाना: ऐसे उच्च सहसंबद्ध फीचर्स की पहचान करना जो मॉडल प्रदर्शन को प्रभावित कर सकते हैं।


6. निष्कर्ष

डेटा को समझना और विज़ुअलाइज़ करना डेटा विज्ञान में बुनियादी कौशल हैं। Seaborn जैसे उपकरण और EDA जैसी तकनीकें डेटा पेशेवरों को कच्चे डेटा से सार्थक अंतर्दृष्टि निकालने में सक्षम बनाती हैं। आईरिस डेटासेट इन अवधारणाओं को लागू करने के लिए एक उत्कृष्ट प्रारंभिक बिंदु के रूप में कार्य करता है, अभ्यास के लिए संतुलित और सुव्यवस्थित डेटासेट प्रदान करता है। जब हम अपनी यात्रा जारी रखेंगे, तो हम इन मूल बातों पर आधारित होकर अधिक परिष्कृत मॉडल और विश्लेषण विकसित करेंगे।

पढ़ने के लिए धन्यवाद! हमारे आगामी लेखों में और अधिक सूचनात्मक चर्चाओं के लिए बने रहें।