html
सामान्य डेटा वितरणों की समझ: यूनिफॉर्म, नॉर्मल, और एक्सपोनेंशियल
Meta Description: हमारे व्यापक गाइड के साथ डेटा वितरणों के मूल सिद्धांतों में गहराई से प्रवेश करें, जिसमें यूनिफॉर्म, नॉर्मल और एक्सपोनेंशियल वितरण शामिल हैं। मशीन लर्निंग और डेटा विश्लेषण के लिए आवश्यक संभावना सघनता और मास फंक्शन्स को समझें।
विषय सूची
- परिचय
- यूनिफॉर्म वितरण
- नॉर्मल वितरण
- एक्सपोनेंशियल वितरण
- प्रोबैबिलिटी डेंसिटी फंक्शन (PDF)
- प्रोबैबिलिटी मैस फंक्शन (PMF)
- निष्कर्ष
परिचय
डेटा विश्लेषण और मशीन लर्निंग के क्षेत्र में, डेटा वितरणों को समझना महत्वपूर्ण है। डेटा वितरण यह वर्णन करते हैं कि डेटा पॉइंट्स कैसे फैल रहे हैं या किसी मूल्य सीमा के आसपास क्लस्टर हो रहे हैं। यह ज्ञान उपयुक्त सांख्यिकीय विधियों, मॉडलिंग तकनीकों का चयन करने और परिणामों की सटीक व्याख्या करने में मदद करता है। यह लेख तीन सामान्यतः उपयोग किए जाने वाले डेटा वितरणों: यूनिफॉर्म, नॉर्मल (गॉसियन), और एक्सपोनेंशियल में गहराई से जांच करता है। इसके अतिरिक्त, हम प्रोबैबिलिटी डेंसिटी फंक्शन (PDF) और प्रोबैबिलिटी मैस फंक्शन (PMF) का भी अन्वेषण करेंगे, जो संभाव्यता सिद्धांत के मौलिक अवधारणाएँ हैं।
यूनिफॉर्म वितरण
यूनिफॉर्म वितरण क्या है?
यूनिफॉर्म वितरण वह है जहां निर्दिष्ट सीमा के भीतर हर डेटा पॉइंट के होने की संभावना समान होती है। कल्पना करें एक पूरी तरह संतुलित लॉटरी बॉल मशीन की जहाँ प्रत्येक बॉल के चुने जाने की समान संभावना होती है।
यूनिफॉर्म वितरण की विशेषताएं
- समान संभावना: सभी परिणाम परिभाषित अंतराल के भीतर समान रूप से संभावित होते हैं।
- कोई एकाग्रता नहीं: डेटा पॉइंट्स बिना किसी विशेष मूल्य के आसपास क्लस्टर हुए समान रूप से फैले होते हैं।
- ग्राफ प्रतिनिधित्व: संभावना वितरण ग्राफ एक सपाट, सीधी रेखा होता है, जो सीमा के पार स्थिर संभावना को दर्शाता है।
दृश्य प्रतिनिधित्व
Python की numpy
और matplotlib
लाइब्रेरीज़ का उपयोग करके एक यूनिफॉर्म वितरण को दृष्टिगोचर करें:
123456789
import numpy as npimport matplotlib.pyplot as plt values = np.random.uniform(0, 10, 100000)plt.hist(values, 50)plt.title('Uniform Distribution')plt.xlabel('Value')plt.ylabel('Frequency')plt.show()
चित्र: 0 से 10 के बीच डेटा पॉइंट्स के यूनिफॉर्म वितरण को दर्शाता हुआ हिस्टोग्राम।
नॉर्मल वितरण
नॉर्मल वितरण क्या है?
नॉर्मल वितरण, जिसे गॉसियन वितरण के नाम से भी जाना जाता है, एक घंटा-आकार का वक्र होता है जहां डेटा पॉइंट्स माध्य के आसपास क्लस्टर होते हैं। यह सांख्यिकी में सबसे महत्वपूर्ण वितरणों में से एक है क्योंकि सेंट्रल लिमिट थ्योरम के कारण, जो कहता है कि स्वतंत्र रैंडम वेरिएबल्स का योग मौलिक वितरण की परवाह किए बिना नॉर्मल वितरण की ओर अग्रसर होता है।
नॉर्मल वितरण की विशेषताएं
- सममिति: वितरण माध्य के चारों ओर पूरी तरह से सममित होता है।
- माध्य, माध्यिका, और बहुलक: केंद्रीय प्रवृत्ति के सभी तीन माप बराबर होते हैं।
- प्रसार: मानक विचलन द्वारा निर्धारित होता है; बड़ा सिग्मा एक चौड़ी घंटा वक्र का परिणाम होता है।
- ग्राफ प्रतिनिधित्व: माध्य के आस-पास डेटा के एकाग्रण के साथ घंटा-आकार का वक्र।
दृश्य प्रतिनिधित्व
यहाँ नॉर्मल वितरण कैसा दिखता है:
123456
values = np.random.normal(0, 1.5, 100000)plt.hist(values, 50)plt.title('Normal Distribution')plt.xlabel('Value')plt.ylabel('Frequency')plt.show()
चित्र: 0 पर केंद्रीकृत नॉर्मल वितरण को दर्शाता हुआ हिस्टोग्राम जिसमें मानक विचलन 1.5 है।
एक्सपोनेंशियल वितरण
एक्सपोनेंशियल वितरण क्या है?
एक्सपोनेंशियल वितरण पोइसन प्रक्रिया में घटनाओं के बीच के समय को मॉडल करता है, अर्थात्, घटनाएँ जो लगातार और स्वतंत्र रूप से एक स्थिर औसत दर पर होती हैं। यह काफी झुकी होती है, जिसमें शून्य के पास डेटा पॉइंट्स की उच्च एकाग्रता होती है और उसके बाद तेजी से गिरावट आती है।
एक्सपोनेंशियल वितरण की विशेषताएं
- झुकाव: दाहिनी ओर अत्यधिक झुकी हुई, लंबे पूंछ के साथ।
- मेमोरीलेस प्रॉपर्टी: अगले अंतराल में किसी घटना के होने की संभावना पिछले घटनाओं से स्वतंत्र होती है।
- ग्राफ प्रतिनिधित्व: उत्पत्ति के पास तेज चोट के साथ एक एक्सपोनेंशियल क्षय।
दृश्य प्रतिनिधित्व
आइए एक्सपोनेंशियल वितरण को प्लॉट करें:
12345678
from scipy.stats import expon x = range(0, 10)plt.plot(x, expon.pdf(x))plt.title('Exponential Distribution')plt.xlabel('Value')plt.ylabel('Probability Density')plt.show()
चित्र: मान बढ़ने के साथ संभावना में तेजी से गिरावट के साथ एक्सपोनेंशियल वितरण।
प्रोबैबिलिटी डेंसिटी फंक्शन (PDF)
प्रोबैबिलिटी डेंसिटी फंक्शन क्या है?
प्रोबैबिलिटी डेंसिटी फंक्शन (PDF) एक सतत रैंडम वेरिएबल के किसी विशेष मान को लेने की संभावना का वर्णन करता है। विविक्त वितरणों के विपरीत, सतत वितरणों में संभावित मानों की अनंत संख्या होती है, जिससे किसी भी एक सटीक मान की संभावना व्यावहारिक रूप से शून्य होती है। इसके बजाय, PDF मानों की एक सीमा पर संभावना का वर्णन करते हैं।
मुख्य बिंदु
- सतत डेटा: सतत वेरिएबल्स पर लागू होता है जहाँ डेटा पॉइंट्स किसी सीमा के भीतर कोई भी मान ले सकते हैं।
- वक्र के नीचे क्षेत्र: किसी अंतराल पर PDF का समाकलन उस वेरिएबल के उस अंतराल में गिरने की संभावना का प्रतिनिधित्व करता है।
- सामान्य उपयोग मामला: नॉर्मल वितरण एक सामान्य उदाहरण है जहाँ PDF का उपयोग सीमाओं पर संभावनाएँ गणना करने के लिए किया जाता है।
दृश्य प्रतिनिधित्व
Seaborn का उपयोग करके एक स्मूथ PDF प्लॉट:
12345678910
import pandas as pdimport seaborn as sb sb.set()values = np.random.normal(0, 1, 200)sb.distplot(values, kde=True)plt.title('Probability Density Function')plt.xlabel('Value')plt.ylabel('Density')plt.show()
चित्र: सामान्य रूप से वितरित डेटासेट के PDF का स्मूथ कर्व।
प्रोबैबिलिटी मैस फंक्शन (PMF)
प्रोबैबिलिटी मैस फंक्शन क्या है?
प्रोबैबिलिटी मैस फंक्शन (PMF) विविक्त रैंडम वेरिएबल्स पर लागू होता है। यह वेरिएबल के प्रत्येक संभावित मान को एक संभावना असाइन करता है, यह सुनिश्चित करते हुए कि सभी संभावनाओं का योग एक के बराबर होता है।
मुख्य बिंदु
- विविक्त डेटा: उन वेरिएबल्स के लिए उपयुक्त जो विशिष्ट, अलग-अलग मान रखते हैं (जैसे, पूर्णांक)।
- विशिष्ट संभावनाएँ: प्रत्येक मान के साथ एक सटीक संभावना जुड़ी होती है।
- सामान्य उपयोग मामला: सर्वेक्षण प्रतिक्रियाएँ या विभिन्न ब्रांडों के लिए बिक्री डेटा जैसे श्रेणात्मक डेटा।
दृश्य प्रतिनिधित्व
ब्रांड बिक्री संभावनाओं का उपयोग करके PMF का एक उदाहरण यहाँ है:
1234567891011121314
x1 = np.array([1, 2, 3, 4, 5])x_name = ['A brand', 'B brand', 'C brand', 'D brand', 'E brand']y1 = [55, 85, 96, 88, 99]plt.bar(x1, y1, color='blue') x_pmf = np.insert(x1, [0, 5], [0, 6])y_pmf = np.insert(y1, [0, 5], [0, 0]) plt.plot(x_pmf, y_pmf, marker='o', color='red')plt.title('Probability Mass Function')plt.xlabel('Brands')plt.xticks(x1, x_name)plt.ylabel('Probability of Sale (%)')plt.show()
चित्र: विभिन्न ब्रांडों के लिए बिक्री की संभावना दिखाता हुआ PMF।
निष्कर्ष
डेटा वितरणों को समझना डेटा विश्लेषण और मशीन लर्निंग में महत्त्वपूर्ण है। यूनिफॉर्म वितरण एक सरल मॉडल प्रदान करता है जहाँ सभी परिणाम समान रूप से संभावित होते हैं, जबकि नॉर्मल वितरण माध्य मान के आसपास डेटा क्लस्टरिंग के बारे में अंतर्दृष्टि प्रदान करता है। एक्सपोनेंशियल वितरण समय-आधारित घटनाओं को मॉडल करने के लिए आवश्यक है जिसमें मेमोरीलेस प्रॉपर्टी होती है। इन वितरणों को पूरा करते हुए, प्रोबैबिलिटी डेंसिटी फंक्शन (PDF) और प्रोबैबिलिटी मैस फंक्शन (PMF) क्रमशः सतत और विविक्त डेटासेट्स में संभावनाएं गणना करने के लिए मौलिक उपकरण के रूप में कार्य करते हैं।
इन अवधारणाओं में महारत हासिल करके, डेटा वैज्ञानिक और विश्लेषक सूचित निर्णय ले सकते हैं, उपयुक्त मॉडल का चयन कर सकते हैं, और डेटा की अधिक सटीक व्याख्या कर सकते हैं।
त्वरित कोड संदर्भ:
व्यावहारिक कार्यान्वयन के लिए, संबंधित Jupyter Notebook देखें जिसमें इस लेख में चर्चा किए गए सभी कोड स्निपेट और विज़ुअलाइज़ेशन शामिल हैं।
संबंधित लेख:
संपर्क में रहें:
डेटा साइंस और मशीन लर्निंग पर अधिक अंतर्दृष्टि और अपडेट के लिए, हमारे न्यूज़लेटर की सदस्यता लें और हमें ट्विटर, लिंक्डइन, और फेसबुक पर फॉलो करें।
© 2024 DataScienceHub. सर्वाधिकार सुरक्षित।