डेमो२ – Studyeasy

html
व्यापक डेटा विश्लेषण ट्यूटोरियल: डेटा वितरण और संभाव्यता फलनों को समझना

इस व्यापक डेटा विश्लेषण ट्यूटोरियल में आपका स्वागत है! इस गाइड में, हम डेटा वितरण, संभाव्यता घनत्व फलन (PDF), और संभाव्यता मास फलन (PMF) जैसे महत्वपूर्ण अवधारणाओं में गहराई से उतरेंगे। हम इन अवधारणाओं का अन्वेषण Python की डेटा विश्लेषण लाइब्रेरीज का उपयोग करके व्यावहारिक उदाहरणों के माध्यम से करेंगे, जो डेटा विज़ुअलाइज़ेशन द्वारा समर्थित हैं। इसके अतिरिक्त, हम नमूना डेटासेट्स को प्रोसेस और विश्लेषण करेंगे ताकि अर्थपूर्ण अंतर्दृष्टि प्राप्त की जा सके। इस ट्यूटोरियल के अंत तक, आपके पास डेटा प्रोसेसिंग को संभालने, विश्लेषण तकनीकों को लागू करने, और विश्लेषणात्मक निष्कर्षों की व्याख्या करने की ठोस समझ होगी।

सामग्री सूची

  डेटा वितरण का परिचय
  संभाव्यता फलनों को समझना
  डेटा अवलोकन
  डेटा प्रोसेसिंग
  
    एक्सप्लोरेटरी डेटा एनालिसिस (EDA)
    
      यूनिफॉर्म वितरण
      नॉर्मल वितरण
      एक्सपोनेंशियल वितरण
      संभाव्यता घनत्व फलन (PDF)
      संभाव्यता मास फलन (PMF)
    
  
  विश्लेषणात्मक निष्कर्ष
  निष्कर्ष




डेटा वितरण का परिचय
डेटा वितरण को समझना डेटा विश्लेषण और मशीन लर्निंग में मौलिक है। एक डेटा वितरण यह वर्णित करता है कि एक वेरिएबल के मान कैसे फैले हुए हैं या वितरित हैं। वितरण के सामान्य प्रकार में शामिल हैं:

  यूनिफॉर्म वितरण: सभी परिणाम समान रूप से संभावित होते हैं।
  नॉर्मल (गॉसियन) वितरण: डेटा माध्य के चारों ओर सममित रूप से वितरित होता है, जो एक बेल के आकार के वक्र का निर्माण करता है।
  एक्सपोनेंशियल वितरण: डेटा एक तरफ एकत्रित होता है, आमतौर पर तेजी से गिरावट दिखाते हुए।

इन वितरणों को पहचानना उपयुक्त सांख्यिकीय विधियों और विश्लेषण मॉडलों का चयन करने में मदद करता है।

संभाव्यता फलनों को समझना
संभाव्यता फलन डेटा में अनिश्चितता और परिवर्तनशीलता को मापने के लिए आवश्यक उपकरण हैं:

  संभाव्यता घनत्व फलन (PDF): सतत डेटा के लिए उपयोग किया जाता है, यह एक रैंडम वेरिएबल के विभिन्न मान लेने की संभावना का वर्णन करता है।
  संभाव्यता मास फलन (PMF): विवेक डेटा के लिए उपयोग किया जाता है, यह विशिष्ट परिणामों को संभावनाएँ प्रदान करता है।

PDF और PMF के बीच के अंतर को समझना डेटा को सही ढंग से मॉडल करने और उनकी व्याख्या करने के लिए महत्वपूर्ण है।

डेटा अवलोकन
इस ट्यूटोरियल के लिए, हम दो मुख्य डेटासेट्स का उपयोग करेंगे:

  BX_Books.csv: इसमें किताबों के बारे में जानकारी होती है, जिसमें ISBN, शीर्षक, लेखक, प्रकाशन वर्ष, प्रकाशक, और इमेज URLs शामिल हैं।
  BX-Book-Ratings.csv: यह किताबों के लिए उपयोगकर्ता रेटिंग्स रिकॉर्ड करता है, जिसमें User-ID, ISBN, और Book-Rating शामिल हैं।

ध्यान दें: तीसरा डेटासेट, BX-Users.csv, एन्कोडिंग समस्याओं के कारण पढ़ने में त्रुटि आई थी। हम इसे डेटा प्रोसेसिंग अनुभाग में संबोधित करेंगे।

BX_Books.csv से नमूना डेटा

  
    ISBN
    Book-Title
    Book-Author
    Year-Of-Publication
    Publisher
    Image-URL-S
    Image-URL-M
    Image-URL-L
  
  
    0195153448
    Classical Mythology
    Mark P. O. Morford
    2002
    Oxford University Press
    http://images.amazon.com/images/P/0195153448.01.THUMBZZZ.jpg
    http://images.amazon.com/images/P/0195153448.01.MZZZZZZZ.jpg
    http://images.amazon.com/images/P/0195153448.01.LZZZZZZZ.jpg
  
  
    0002005018
    Clara Callan
    Richard Bruce Wright
    2001
    HarperFlamingo Canada
    http://images.amazon.com/images/P/0002005018.01.THUMBZZZ.jpg
    http://images.amazon.com/images/P/0002005018.01.MZZZZZZZ.jpg
    http://images.amazon.com/images/P/0002005018.01.LZZZZZZZ.jpg
  
  
    ...
    ...
    ...
    ...
    ...
    ...
    ...
    ...
  


BX-Book-Ratings.csv से नमूना डेटा

  
    User-ID
    ISBN
    Book-Rating
  
  
    276725
    034545104X
    0
  
  
    276726
    0155061224
    5
  
  
    276727
    0446520802
    0
  
  
    276729
    052165615X
    3
  
  
    ...
    ...
    ...
  


ध्यान दें: BX-Users.csv फ़ाइल को एन्कोडिंग त्रुटि के कारण नहीं पढ़ा जा सका।

डेटा प्रोसेसिंग
विश्लेषण में प्रवेश करने से पहले, डेटा को पूर्व-संसाधित करना आवश्यक है—इसे लोड करना, साफ करना, और अन्वेषण के लिए तैयार करना।

एन्कोडिंग समस्याओं को संभालना
BX-Users.csv फ़ाइल में एक पढ़ने की त्रुटि है:




		
		
			
			
Java
			
			Error reading file: 'utf-8' codec can't decode byte 0xe9 in position 1682: invalid continuation byte
			
				
					
				
					1
				
						Error reading file: 'utf-8' codec can't decode byte 0xe9 in position 1682: invalid continuation byte
					
				
			
		


इसे हल करने के लिए, हम फ़ाइल को लोड करते समय एक अलग एन्कोडिंग (जैसे ISO-8859-1) निर्दिष्ट कर सकते हैं:




		
		
			
			
Java
			
			import pandas as pd

try:
    users = pd.read_csv('BX-Users.csv', encoding='utf-8', sep=';')
except UnicodeDecodeError:
    users = pd.read_csv('BX-Users.csv', encoding='ISO-8859-1', sep=';')
			
				
					
				
					1
2
3
4
5
6
				
						import pandas as pd
 
try:
    users = pd.read_csv('BX-Users.csv', encoding='utf-8', sep=';')
except UnicodeDecodeError:
    users = pd.read_csv('BX-Users.csv', encoding='ISO-8859-1', sep=';')
					
				
			
		



Merging Datasets
हमारे विश्लेषण को समृद्ध करने के लिए, हम BX_Books और BX-Book-Ratings डेटासेट्स को ISBN कॉलम पर मर्ज करेंगे:




		
		
			
			
Java
			
			books = pd.read_csv('BX_Books.csv', sep=';', error_bad_lines=False, encoding='ISO-8859-1')
ratings = pd.read_csv('BX-Book-Ratings.csv', sep=';', error_bad_lines=False, encoding='ISO-8859-1')

merged_data = pd.merge(ratings, books, on='ISBN', how='left')
			
				
					
				
					1
2
3
4
				
						books = pd.read_csv('BX_Books.csv', sep=';', error_bad_lines=False, encoding='ISO-8859-1')
ratings = pd.read_csv('BX-Book-Ratings.csv', sep=';', error_bad_lines=False, encoding='ISO-8859-1')
 
merged_data = pd.merge(ratings, books, on='ISBN', how='left')
					
				
			
		



एक्सप्लोरेटरी डेटा एनालिसिस (EDA)
एक्सप्लोरेटरी डेटा एनालिसिस में डेटा की मुख्य विशेषताओं को सारांशित करना शामिल है, अक्सर दृश्य विधियों के साथ। हम Python की लाइब्रेरीज जैसे NumPy, Matplotlib, और Seaborn का उपयोग करके विभिन्न डेटा वितरण और संभाव्यता फलनों का अन्वेषण करेंगे।

यूनिफॉर्म वितरण
यूनिफॉर्म वितरण का मतलब है कि निर्दिष्ट सीमा के भीतर सभी परिणाम समान रूप से संभावित होते हैं।




		
		
			
			
Java
			
			import numpy as np
import matplotlib.pyplot as plt

# 0 और 10 के बीच यूनिफॉर्म वितरण मान जेनरेट करना
values = np.random.uniform(0, 10, 100000)

# हिस्टोग्राम प्लॉट करना
plt.hist(values, bins=50, color='skyblue', edgecolor='black')
plt.title('Uniform Distribution')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
				
						import numpy as np
import matplotlib.pyplot as plt
 
# 0 और 10 के बीच यूनिफॉर्म वितरण मान जेनरेट करना
values = np.random.uniform(0, 10, 100000)
 
# हिस्टोग्राम प्लॉट करना
plt.hist(values, bins=50, color='skyblue', edgecolor='black')
plt.title('Uniform Distribution')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.show()
					
				
			
		



व्याख्या:

  कोड इम्प्लीमेंटेशन: हम np.random.uniform का उपयोग करके 100,000 डेटा पॉइंट्स जेनरेट करते हैं जो 0 और 10 के बीच समान रूप से वितरित हैं।
  विज़ुअलाइज़ेशन: हिस्टोग्राम एक सपाट वितरण दिखाता है, जो सीमा के भीतर सभी मानों के लिए समान संभावना को इंगित करता है।


नॉर्मल वितरण
नॉर्मल वितरण (या गॉसियन वितरण) को इसकी बेल के आकार के वक्र द्वारा वर्णित किया जाता है, जिसमें अधिकांश डेटा पॉइंट्स माध्य के आस-पास क्लस्टर होते हैं।




		
		
			
			
Java
			
			# mean=0 और sigma=1.5 के साथ नॉर्मल वितरण मान जेनरेट करना
values = np.random.normal(0, 1.5, 100000)

# हिस्टोग्राम प्लॉट करना
plt.hist(values, bins=50, color='salmon', edgecolor='black')
plt.title('Normal Distribution')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
				
						# mean=0 और sigma=1.5 के साथ नॉर्मल वितरण मान जेनरेट करना
values = np.random.normal(0, 1.5, 100000)
 
# हिस्टोग्राम प्लॉट करना
plt.hist(values, bins=50, color='salmon', edgecolor='black')
plt.title('Normal Distribution')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.show()
					
				
			
		



व्याख्या:

  कोड इम्प्लीमेंटेशन: हम np.random.normal का उपयोग करके 0 के माध्य और 1.5 के मानक विचलन के साथ 100,000 डेटा पॉइंट्स जेनरेट करते हैं।
  विज़ुअलाइज़ेशन: परिणामस्वरूप हिस्टोग्राम मध्य के चारों ओर एक सममित बेल वक्र बनाता है, जो माध्य के पास डेटा के संकेन्द्रण और चरमों की ओर पतन को दर्शाता है।


एक्सपोनेंशियल वितरण
एक्सपोनेंशियल वितरण एक पोइसन प्रक्रिया में घटनाओं के बीच समय को मॉडल करता है, जो शिखर से तेजी से क्षय दिखाता है।




		
		
			
			
Java
			
			from scipy.stats import expon

# x-अक्ष के लिए सीमा परिभाषित करना
x = np.linspace(0, 10, 100)

# एक्सपोनेंशियल संभाव्यता घनत्व फलन (PDF) प्लॉट करना
plt.plot(x, expon.pdf(x), color='green', linewidth=2)
plt.title('Exponential Distribution PDF')
plt.xlabel('Value')
plt.ylabel('Probability Density')
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
				
						from scipy.stats import expon
 
# x-अक्ष के लिए सीमा परिभाषित करना
x = np.linspace(0, 10, 100)
 
# एक्सपोनेंशियल संभाव्यता घनत्व फलन (PDF) प्लॉट करना
plt.plot(x, expon.pdf(x), color='green', linewidth=2)
plt.title('Exponential Distribution PDF')
plt.xlabel('Value')
plt.ylabel('Probability Density')
plt.show()
					
				
			
		



व्याख्या:

  कोड इम्प्लीमेंटेशन: scipy.stats से expon.pdf फंक्शन का उपयोग करके हम 0 से 10 की सीमा पर एक्सपोनेंशियल वितरण के लिए PDF मान जेनरेट करते हैं।
  विज़ुअलाइज़ेशन: प्लॉट 0 पर शिखर से तेज गिरावट दिखाता है, जो उच्च मानों के संभाव्यताओं के तेजी से कम होने को दर्शाता है।


संभाव्यता घनत्व फलन (PDF)
संभाव्यता घनत्व फलन सतत डेटा के लिए उपयोग किया जाता है ताकि रैंडम वेरिएबल के किसी विशेष मान के भीतर गिरने की संभावना को निर्दिष्ट किया जा सके।




		
		
			
			
Java
			
			import seaborn as sb

# Seaborn स्टाइल सेट करना
sb.set()

# नॉर्मल वितरण मान जेनरेट करना
values = np.random.normal(0, 1, 200)

# Seaborn का उपयोग करके वितरण प्लॉट करना
sb.histplot(values, kde=True, color='purple')
plt.title('Probability Density Function (PDF)')
plt.xlabel('Value')
plt.ylabel('Density')
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
				
						import seaborn as sb
 
# Seaborn स्टाइल सेट करना
sb.set()
 
# नॉर्मल वितरण मान जेनरेट करना
values = np.random.normal(0, 1, 200)
 
# Seaborn का उपयोग करके वितरण प्लॉट करना
sb.histplot(values, kde=True, color='purple')
plt.title('Probability Density Function (PDF)')
plt.xlabel('Value')
plt.ylabel('Density')
plt.show()
					
				
			
		



व्याख्या:

  कोड इम्प्लीमेंटेशन: हम 200 नॉर्मली वितरित डेटा पॉइंट्स जेनरेट करते हैं और Seaborn के histplot का उपयोग करते हुए kde (कर्नेल घनत्व अनुमान) ओवरले के साथ PDF को विज़ुअलाइज़ करते हैं।
  विज़ुअलाइज़ेशन: हिस्टोग्राम और KDE लाइन मिलकर डेटा के सतत स्वभाव को दर्शाती है, यह दिखाते हुए कि डेटा पॉइंट्स विभिन्न रेंजों में कैसे वितरित हैं।


संभाव्यता मास फलन (PMF)
संभाव्यता मास फलन विवेक डेटा के लिए उपयोग किया जाता है ताकि प्रत्येक व्यक्तिगत परिणाम को संभावनाएँ असाइन की जा सकें।




		
		
			
			
Java
			
			# विवेक डेटा पॉइंट्स और उनकी संभावनाएँ परिभाषित करना
x1 = np.array([1, 2, 3, 4, 5])
x_name = ['A brand', 'B brand', 'C brand', 'D brand', 'E brand']
y1 = [55, 85, 96, 88, 99]

# PMF के लिए बार चार्ट प्लॉट करना
plt.bar(x1, y1, color='blue', alpha=0.7)

# बार्स को जोड़कर PMF प्लॉट को बढ़ाना
x_pmf = np.insert(x1, [0, 5], [0, 6])
y_pmf = np.insert(y1, [0, 5], [0, 0])
plt.plot(x_pmf, y_pmf, color='red', linestyle='--')

# शीर्षक और लेबल जोड़ना
plt.title('Probability Mass Function (PMF)')
plt.xlabel('Brands')
plt.xticks(x1, x_name)
plt.ylabel('Probability')
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
				
						# विवेक डेटा पॉइंट्स और उनकी संभावनाएँ परिभाषित करना
x1 = np.array([1, 2, 3, 4, 5])
x_name = ['A brand', 'B brand', 'C brand', 'D brand', 'E brand']
y1 = [55, 85, 96, 88, 99]
 
# PMF के लिए बार चार्ट प्लॉट करना
plt.bar(x1, y1, color='blue', alpha=0.7)
 
# बार्स को जोड़कर PMF प्लॉट को बढ़ाना
x_pmf = np.insert(x1, [0, 5], [0, 6])
y_pmf = np.insert(y1, [0, 5], [0, 0])
plt.plot(x_pmf, y_pmf, color='red', linestyle='--')
 
# शीर्षक और लेबल जोड़ना
plt.title('Probability Mass Function (PMF)')
plt.xlabel('Brands')
plt.xticks(x1, x_name)
plt.ylabel('Probability')
plt.show()
					
				
			
		



व्याख्या:

  कोड इम्प्लीमेंटेशन: हम विवेक श्रेणियाँ (ब्रांड्स) परिभाषित करते हैं और प्रत्येक को संभावनाएँ असाइन करते हैं। बार चार्ट PMF का प्रतिनिधित्व करता है, और एक लाइन बार्स को जोड़ती है ताकि विवेक स्वभाव को हाइलाइट किया जा सके।
  विज़ुअलाइज़ेशन: प्रत्येक बार एक ब्रांड की संभाव्यता से मेल खाता है, विशिष्ट, पृथक संभावनाओं पर जोर देते हुए बजाए सतत रेंज के।


विश्लेषणात्मक निष्कर्ष
विज़ुअलाइज़ेशन और कोड इम्प्लीमेंटेशन के माध्यम से, कई प्रमुख अंतर्दृष्टियाँ उभरती हैं:

  यूनिफॉर्म वितरण:
    
      निर्दिष्ट सीमा (0-10) के भीतर सभी मान समान रूप से संभावित होते हैं।
      हिस्टोग्राम सपाट वितरण प्रदर्शित करते हैं, जो यूनिफॉर्म संभाव्यता की पुष्टि करता है।
    
  
  नॉर्मल वितरण:
    
      डेटा पॉइंट्स माध्य (0) के आस-पास क्लस्टर होते हैं और चरमों की ओर घटती आवृत्ति के साथ।
      सममित बेल वक्र यह इंगित करता है कि अधिकांश डेटा माध्य के पास गिरता है, प्राकृतिक घटनाओं के मॉडलिंग के लिए उपयुक्त है।
    
  
  एक्सपोनेंशियल वितरण:
    
      डेटा मूल (0) के पास भारी मात्रा में एकत्रित होता है, जैसे-जैसे मान बढ़ते हैं संभावनाएँ तेजी से कम होती जाती हैं।
      घटनाओं के होने के समय को मॉडल करने के लिए उपयोगी, जैसे मशीनों का जीवनकाल।
    
  
  संभाव्यता घनत्व फलन (PDF):
    
      सतत रेंजों के भीतर डेटा पॉइंट्स की संभाव्यता को दर्शाता है।
      डेटा वितरण की समझ प्रदान करता है बिना वास्तविक मानों को संभावनाएँ असाइन किए।
    
  
  संभाव्यता मास फलन (PMF):
    
      विवेक परिणामों को विशिष्ट संभावनाएँ असाइन करता है।
      श्रेणीबद्ध डेटा के लिए आदर्श, जैसे ब्रांड प्राथमिकताएँ, जहां प्रत्येक श्रेणी की अलग संभाव्यता होती है।
    
  
  डेटा एकीकरण:
    
      BX_Books और BX-Book-Ratings को मर्ज करने से डेटासेट समृद्ध होता है, जिससे प्रकाशन विवरण के संबंध में किताब रेटिंग्स का गहरा विश्लेषण संभव होता है।
    
  
  डेटा मुद्दों को संभालना:
    
      एन्कोडिंग त्रुटियों को संबोधित करने से व्यापक डेटा लोडिंग सुनिश्चित होती है, जिससे अधिक मजबूत विश्लेषण संभव होता है।
    
  


निष्कर्ष
इस ट्यूटोरियल में, हमने डेटा वितरण और संभाव्यता फलनों की बुनियादी अवधारणाओं का अन्वेषण किया है, जो हाथों-हाथ कोड इम्प्लीमेंटेशन और विज़ुअलाइज़ेशन द्वारा समर्थित हैं। यूनिफॉर्म, नॉर्मल, और एक्सपोनेंशियल वितरण को समझना आपको विभिन्न डेटा प्रकारों के लिए उपयुक्त सांख्यिकीय मॉडल चुनने में सक्षम बनाता है। PDF और PMF के बीच अंतर करने से डेटा की सततता के आधार पर सटीक संभाव्यता आकलन संभव होता है।
नमूना डेटासेट्स को प्रोसेस और विश्लेषण करके, हमने डेटा को प्रभावी ढंग से एकीकृत और विज़ुअलाइज़ करने का तरीका दिखाया है, जिससे अर्थपूर्ण पैटर्न और अंतर्दृष्टि प्राप्त होती हैं। चाहे आप मशीन लर्निंग मॉडलों के लिए डेटा तैयार कर रहे हों या एक्सप्लोरेटरी विश्लेषण कर रहे हों, ये बुनियादी कौशल डेटा विश्लेषक के टूलकिट में अनमोल हैं।
इन तकनीकों का अभ्यास विविध डेटासेट्स के साथ जारी रखें ताकि आपकी समझ गहरी हो और आपकी डेटा विश्लेषण कुशलता बढ़े। खुश विश्लेषण!
ISBN	Book-Title	Book-Author	Year-Of-Publication	Publisher	Image-URL-S	Image-URL-M	Image-URL-L
0195153448	Classical Mythology	Mark P. O. Morford	2002	Oxford University Press	http://images.amazon.com/images/P/0195153448.01.THUMBZZZ.jpg	http://images.amazon.com/images/P/0195153448.01.MZZZZZZZ.jpg	http://images.amazon.com/images/P/0195153448.01.LZZZZZZZ.jpg
0002005018	Clara Callan	Richard Bruce Wright	2001	HarperFlamingo Canada	http://images.amazon.com/images/P/0002005018.01.THUMBZZZ.jpg	http://images.amazon.com/images/P/0002005018.01.MZZZZZZZ.jpg	http://images.amazon.com/images/P/0002005018.01.LZZZZZZZ.jpg
...	...	...	...	...	...	...	...
User-ID	ISBN	Book-Rating
276725	034545104X	0
276726	0155061224	5
276727	0446520802	0
276729	052165615X	3
...	...	...