S02L06 – सबसे आम डेटा वितरण

html
सामान्य डेटा वितरणों की समझ: यूनिफॉर्म, नॉर्मल, और एक्सपोनेंशियल

Meta Description: हमारे व्यापक गाइड के साथ डेटा वितरणों के मूल सिद्धांतों में गहराई से प्रवेश करें, जिसमें यूनिफॉर्म, नॉर्मल और एक्सपोनेंशियल वितरण शामिल हैं। मशीन लर्निंग और डेटा विश्लेषण के लिए आवश्यक संभावना सघनता और मास फंक्शन्स को समझें।

विषय सूची

    परिचय
    यूनिफॉर्म वितरण
    नॉर्मल वितरण
    एक्सपोनेंशियल वितरण
    प्रोबैबिलिटी डेंसिटी फंक्शन (PDF)
    प्रोबैबिलिटी मैस फंक्शन (PMF)
    निष्कर्ष


परिचय

डेटा विश्लेषण और मशीन लर्निंग के क्षेत्र में, डेटा वितरणों को समझना महत्वपूर्ण है। डेटा वितरण यह वर्णन करते हैं कि डेटा पॉइंट्स कैसे फैल रहे हैं या किसी मूल्य सीमा के आसपास क्लस्टर हो रहे हैं। यह ज्ञान उपयुक्त सांख्यिकीय विधियों, मॉडलिंग तकनीकों का चयन करने और परिणामों की सटीक व्याख्या करने में मदद करता है। यह लेख तीन सामान्यतः उपयोग किए जाने वाले डेटा वितरणों: यूनिफॉर्म, नॉर्मल (गॉसियन), और एक्सपोनेंशियल में गहराई से जांच करता है। इसके अतिरिक्त, हम प्रोबैबिलिटी डेंसिटी फंक्शन (PDF) और प्रोबैबिलिटी मैस फंक्शन (PMF) का भी अन्वेषण करेंगे, जो संभाव्यता सिद्धांत के मौलिक अवधारणाएँ हैं।

यूनिफॉर्म वितरण

यूनिफॉर्म वितरण क्या है?

यूनिफॉर्म वितरण वह है जहां निर्दिष्ट सीमा के भीतर हर डेटा पॉइंट के होने की संभावना समान होती है। कल्पना करें एक पूरी तरह संतुलित लॉटरी बॉल मशीन की जहाँ प्रत्येक बॉल के चुने जाने की समान संभावना होती है।

यूनिफॉर्म वितरण की विशेषताएं


    समान संभावना: सभी परिणाम परिभाषित अंतराल के भीतर समान रूप से संभावित होते हैं।
    कोई एकाग्रता नहीं: डेटा पॉइंट्स बिना किसी विशेष मूल्य के आसपास क्लस्टर हुए समान रूप से फैले होते हैं।
    ग्राफ प्रतिनिधित्व: संभावना वितरण ग्राफ एक सपाट, सीधी रेखा होता है, जो सीमा के पार स्थिर संभावना को दर्शाता है।


दृश्य प्रतिनिधित्व

Python की numpy और matplotlib लाइब्रेरीज़ का उपयोग करके एक यूनिफॉर्म वितरण को दृष्टिगोचर करें:





		
		
			
			
Java
			
			import numpy as np
import matplotlib.pyplot as plt

values = np.random.uniform(0, 10, 100000)
plt.hist(values, 50)
plt.title('Uniform Distribution')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
				
						import numpy as np
import matplotlib.pyplot as plt
 
values = np.random.uniform(0, 10, 100000)
plt.hist(values, 50)
plt.title('Uniform Distribution')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.show()
					
				
			
		





चित्र: 0 से 10 के बीच डेटा पॉइंट्स के यूनिफॉर्म वितरण को दर्शाता हुआ हिस्टोग्राम।

नॉर्मल वितरण

नॉर्मल वितरण क्या है?

नॉर्मल वितरण, जिसे गॉसियन वितरण के नाम से भी जाना जाता है, एक घंटा-आकार का वक्र होता है जहां डेटा पॉइंट्स माध्य के आसपास क्लस्टर होते हैं। यह सांख्यिकी में सबसे महत्वपूर्ण वितरणों में से एक है क्योंकि सेंट्रल लिमिट थ्योरम के कारण, जो कहता है कि स्वतंत्र रैंडम वेरिएबल्स का योग मौलिक वितरण की परवाह किए बिना नॉर्मल वितरण की ओर अग्रसर होता है।

नॉर्मल वितरण की विशेषताएं


    सममिति: वितरण माध्य के चारों ओर पूरी तरह से सममित होता है।
    माध्य, माध्यिका, और बहुलक: केंद्रीय प्रवृत्ति के सभी तीन माप बराबर होते हैं।
    प्रसार: मानक विचलन द्वारा निर्धारित होता है; बड़ा सिग्मा एक चौड़ी घंटा वक्र का परिणाम होता है।
    ग्राफ प्रतिनिधित्व: माध्य के आस-पास डेटा के एकाग्रण के साथ घंटा-आकार का वक्र।


दृश्य प्रतिनिधित्व

यहाँ नॉर्मल वितरण कैसा दिखता है:





		
		
			
			
Java
			
			values = np.random.normal(0, 1.5, 100000)
plt.hist(values, 50)
plt.title('Normal Distribution')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.show()
			
				
					
				
					1
2
3
4
5
6
				
						values = np.random.normal(0, 1.5, 100000)
plt.hist(values, 50)
plt.title('Normal Distribution')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.show()
					
				
			
		





चित्र: 0 पर केंद्रीकृत नॉर्मल वितरण को दर्शाता हुआ हिस्टोग्राम जिसमें मानक विचलन 1.5 है।

एक्सपोनेंशियल वितरण

एक्सपोनेंशियल वितरण क्या है?

एक्सपोनेंशियल वितरण पोइसन प्रक्रिया में घटनाओं के बीच के समय को मॉडल करता है, अर्थात्, घटनाएँ जो लगातार और स्वतंत्र रूप से एक स्थिर औसत दर पर होती हैं। यह काफी झुकी होती है, जिसमें शून्य के पास डेटा पॉइंट्स की उच्च एकाग्रता होती है और उसके बाद तेजी से गिरावट आती है।

एक्सपोनेंशियल वितरण की विशेषताएं


    झुकाव: दाहिनी ओर अत्यधिक झुकी हुई, लंबे पूंछ के साथ।
    मेमोरीलेस प्रॉपर्टी: अगले अंतराल में किसी घटना के होने की संभावना पिछले घटनाओं से स्वतंत्र होती है।
    ग्राफ प्रतिनिधित्व: उत्पत्ति के पास तेज चोट के साथ एक एक्सपोनेंशियल क्षय।


दृश्य प्रतिनिधित्व

आइए एक्सपोनेंशियल वितरण को प्लॉट करें:





		
		
			
			
Java
			
			from scipy.stats import expon

x = range(0, 10)
plt.plot(x, expon.pdf(x))
plt.title('Exponential Distribution')
plt.xlabel('Value')
plt.ylabel('Probability Density')
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
				
						from scipy.stats import expon
 
x = range(0, 10)
plt.plot(x, expon.pdf(x))
plt.title('Exponential Distribution')
plt.xlabel('Value')
plt.ylabel('Probability Density')
plt.show()
					
				
			
		





चित्र: मान बढ़ने के साथ संभावना में तेजी से गिरावट के साथ एक्सपोनेंशियल वितरण।

प्रोबैबिलिटी डेंसिटी फंक्शन (PDF)

प्रोबैबिलिटी डेंसिटी फंक्शन क्या है?

प्रोबैबिलिटी डेंसिटी फंक्शन (PDF) एक सतत रैंडम वेरिएबल के किसी विशेष मान को लेने की संभावना का वर्णन करता है। विविक्त वितरणों के विपरीत, सतत वितरणों में संभावित मानों की अनंत संख्या होती है, जिससे किसी भी एक सटीक मान की संभावना व्यावहारिक रूप से शून्य होती है। इसके बजाय, PDF मानों की एक सीमा पर संभावना का वर्णन करते हैं।

मुख्य बिंदु


    सतत डेटा: सतत वेरिएबल्स पर लागू होता है जहाँ डेटा पॉइंट्स किसी सीमा के भीतर कोई भी मान ले सकते हैं।
    वक्र के नीचे क्षेत्र: किसी अंतराल पर PDF का समाकलन उस वेरिएबल के उस अंतराल में गिरने की संभावना का प्रतिनिधित्व करता है।
    सामान्य उपयोग मामला: नॉर्मल वितरण एक सामान्य उदाहरण है जहाँ PDF का उपयोग सीमाओं पर संभावनाएँ गणना करने के लिए किया जाता है।


दृश्य प्रतिनिधित्व

Seaborn का उपयोग करके एक स्मूथ PDF प्लॉट:





		
		
			
			
Java
			
			import pandas as pd
import seaborn as sb

sb.set()
values = np.random.normal(0, 1, 200)
sb.distplot(values, kde=True)
plt.title('Probability Density Function')
plt.xlabel('Value')
plt.ylabel('Density')
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
				
						import pandas as pd
import seaborn as sb
 
sb.set()
values = np.random.normal(0, 1, 200)
sb.distplot(values, kde=True)
plt.title('Probability Density Function')
plt.xlabel('Value')
plt.ylabel('Density')
plt.show()
					
				
			
		





चित्र: सामान्य रूप से वितरित डेटासेट के PDF का स्मूथ कर्व।

प्रोबैबिलिटी मैस फंक्शन (PMF)

प्रोबैबिलिटी मैस फंक्शन क्या है?

प्रोबैबिलिटी मैस फंक्शन (PMF) विविक्त रैंडम वेरिएबल्स पर लागू होता है। यह वेरिएबल के प्रत्येक संभावित मान को एक संभावना असाइन करता है, यह सुनिश्चित करते हुए कि सभी संभावनाओं का योग एक के बराबर होता है।

मुख्य बिंदु


    विविक्त डेटा: उन वेरिएबल्स के लिए उपयुक्त जो विशिष्ट, अलग-अलग मान रखते हैं (जैसे, पूर्णांक)।
    विशिष्ट संभावनाएँ: प्रत्येक मान के साथ एक सटीक संभावना जुड़ी होती है।
    सामान्य उपयोग मामला: सर्वेक्षण प्रतिक्रियाएँ या विभिन्न ब्रांडों के लिए बिक्री डेटा जैसे श्रेणात्मक डेटा।


दृश्य प्रतिनिधित्व

ब्रांड बिक्री संभावनाओं का उपयोग करके PMF का एक उदाहरण यहाँ है:





		
		
			
			
Java
			
			x1 = np.array([1, 2, 3, 4, 5])
x_name = ['A brand', 'B brand', 'C brand', 'D brand', 'E brand']
y1 = [55, 85, 96, 88, 99]
plt.bar(x1, y1, color='blue')

x_pmf = np.insert(x1, [0, 5], [0, 6])
y_pmf = np.insert(y1, [0, 5], [0, 0])

plt.plot(x_pmf, y_pmf, marker='o', color='red')
plt.title('Probability Mass Function')
plt.xlabel('Brands')
plt.xticks(x1, x_name)
plt.ylabel('Probability of Sale (%)')
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
				
						x1 = np.array([1, 2, 3, 4, 5])
x_name = ['A brand', 'B brand', 'C brand', 'D brand', 'E brand']
y1 = [55, 85, 96, 88, 99]
plt.bar(x1, y1, color='blue')
 
x_pmf = np.insert(x1, [0, 5], [0, 6])
y_pmf = np.insert(y1, [0, 5], [0, 0])
 
plt.plot(x_pmf, y_pmf, marker='o', color='red')
plt.title('Probability Mass Function')
plt.xlabel('Brands')
plt.xticks(x1, x_name)
plt.ylabel('Probability of Sale (%)')
plt.show()
					
				
			
		





चित्र: विभिन्न ब्रांडों के लिए बिक्री की संभावना दिखाता हुआ PMF।

निष्कर्ष

डेटा वितरणों को समझना डेटा विश्लेषण और मशीन लर्निंग में महत्त्वपूर्ण है। यूनिफॉर्म वितरण एक सरल मॉडल प्रदान करता है जहाँ सभी परिणाम समान रूप से संभावित होते हैं, जबकि नॉर्मल वितरण माध्य मान के आसपास डेटा क्लस्टरिंग के बारे में अंतर्दृष्टि प्रदान करता है। एक्सपोनेंशियल वितरण समय-आधारित घटनाओं को मॉडल करने के लिए आवश्यक है जिसमें मेमोरीलेस प्रॉपर्टी होती है। इन वितरणों को पूरा करते हुए, प्रोबैबिलिटी डेंसिटी फंक्शन (PDF) और प्रोबैबिलिटी मैस फंक्शन (PMF) क्रमशः सतत और विविक्त डेटासेट्स में संभावनाएं गणना करने के लिए मौलिक उपकरण के रूप में कार्य करते हैं।

इन अवधारणाओं में महारत हासिल करके, डेटा वैज्ञानिक और विश्लेषक सूचित निर्णय ले सकते हैं, उपयुक्त मॉडल का चयन कर सकते हैं, और डेटा की अधिक सटीक व्याख्या कर सकते हैं।

त्वरित कोड संदर्भ:

व्यावहारिक कार्यान्वयन के लिए, संबंधित Jupyter Notebook देखें जिसमें इस लेख में चर्चा किए गए सभी कोड स्निपेट और विज़ुअलाइज़ेशन शामिल हैं।

संबंधित लेख:


    सेंट्रल लिमिट थ्योरम की व्याख्या
    मशीन लर्निंग एल्गोरिदम का परिचय
    सांख्यिकीय महत्व को समझना


संपर्क में रहें:

डेटा साइंस और मशीन लर्निंग पर अधिक अंतर्दृष्टि और अपडेट के लिए, हमारे न्यूज़लेटर की सदस्यता लें और हमें ट्विटर, लिंक्डइन, और फेसबुक पर फॉलो करें।

© 2024 DataScienceHub. सर्वाधिकार सुरक्षित।