S02L06 – सबसे आम डेटा वितरण

html

सामान्य डेटा वितरणों की समझ: यूनिफॉर्म, नॉर्मल, और एक्सपोनेंशियल

Meta Description: हमारे व्यापक गाइड के साथ डेटा वितरणों के मूल सिद्धांतों में गहराई से प्रवेश करें, जिसमें यूनिफॉर्म, नॉर्मल और एक्सपोनेंशियल वितरण शामिल हैं। मशीन लर्निंग और डेटा विश्लेषण के लिए आवश्यक संभावना सघनता और मास फंक्शन्स को समझें।

विषय सूची

  1. परिचय
  2. यूनिफॉर्म वितरण
  3. नॉर्मल वितरण
  4. एक्सपोनेंशियल वितरण
  5. प्रोबैबिलिटी डेंसिटी फंक्शन (PDF)
  6. प्रोबैबिलिटी मैस फंक्शन (PMF)
  7. निष्कर्ष

परिचय

डेटा विश्लेषण और मशीन लर्निंग के क्षेत्र में, डेटा वितरणों को समझना महत्वपूर्ण है। डेटा वितरण यह वर्णन करते हैं कि डेटा पॉइंट्स कैसे फैल रहे हैं या किसी मूल्य सीमा के आसपास क्लस्टर हो रहे हैं। यह ज्ञान उपयुक्त सांख्यिकीय विधियों, मॉडलिंग तकनीकों का चयन करने और परिणामों की सटीक व्याख्या करने में मदद करता है। यह लेख तीन सामान्यतः उपयोग किए जाने वाले डेटा वितरणों: यूनिफॉर्म, नॉर्मल (गॉसियन), और एक्सपोनेंशियल में गहराई से जांच करता है। इसके अतिरिक्त, हम प्रोबैबिलिटी डेंसिटी फंक्शन (PDF) और प्रोबैबिलिटी मैस फंक्शन (PMF) का भी अन्वेषण करेंगे, जो संभाव्यता सिद्धांत के मौलिक अवधारणाएँ हैं।

यूनिफॉर्म वितरण

यूनिफॉर्म वितरण क्या है?

यूनिफॉर्म वितरण वह है जहां निर्दिष्ट सीमा के भीतर हर डेटा पॉइंट के होने की संभावना समान होती है। कल्पना करें एक पूरी तरह संतुलित लॉटरी बॉल मशीन की जहाँ प्रत्येक बॉल के चुने जाने की समान संभावना होती है।

यूनिफॉर्म वितरण की विशेषताएं

  • समान संभावना: सभी परिणाम परिभाषित अंतराल के भीतर समान रूप से संभावित होते हैं।
  • कोई एकाग्रता नहीं: डेटा पॉइंट्स बिना किसी विशेष मूल्य के आसपास क्लस्टर हुए समान रूप से फैले होते हैं।
  • ग्राफ प्रतिनिधित्व: संभावना वितरण ग्राफ एक सपाट, सीधी रेखा होता है, जो सीमा के पार स्थिर संभावना को दर्शाता है।

दृश्य प्रतिनिधित्व

Python की numpy और matplotlib लाइब्रेरीज़ का उपयोग करके एक यूनिफॉर्म वितरण को दृष्टिगोचर करें:

Uniform Distribution

चित्र: 0 से 10 के बीच डेटा पॉइंट्स के यूनिफॉर्म वितरण को दर्शाता हुआ हिस्टोग्राम।

नॉर्मल वितरण

नॉर्मल वितरण क्या है?

नॉर्मल वितरण, जिसे गॉसियन वितरण के नाम से भी जाना जाता है, एक घंटा-आकार का वक्र होता है जहां डेटा पॉइंट्स माध्य के आसपास क्लस्टर होते हैं। यह सांख्यिकी में सबसे महत्वपूर्ण वितरणों में से एक है क्योंकि सेंट्रल लिमिट थ्योरम के कारण, जो कहता है कि स्वतंत्र रैंडम वेरिएबल्स का योग मौलिक वितरण की परवाह किए बिना नॉर्मल वितरण की ओर अग्रसर होता है।

नॉर्मल वितरण की विशेषताएं

  • सममिति: वितरण माध्य के चारों ओर पूरी तरह से सममित होता है।
  • माध्य, माध्यिका, और बहुलक: केंद्रीय प्रवृत्ति के सभी तीन माप बराबर होते हैं।
  • प्रसार: मानक विचलन द्वारा निर्धारित होता है; बड़ा सिग्मा एक चौड़ी घंटा वक्र का परिणाम होता है।
  • ग्राफ प्रतिनिधित्व: माध्य के आस-पास डेटा के एकाग्रण के साथ घंटा-आकार का वक्र।

दृश्य प्रतिनिधित्व

यहाँ नॉर्मल वितरण कैसा दिखता है:

Normal Distribution

चित्र: 0 पर केंद्रीकृत नॉर्मल वितरण को दर्शाता हुआ हिस्टोग्राम जिसमें मानक विचलन 1.5 है।

एक्सपोनेंशियल वितरण

एक्सपोनेंशियल वितरण क्या है?

एक्सपोनेंशियल वितरण पोइसन प्रक्रिया में घटनाओं के बीच के समय को मॉडल करता है, अर्थात्, घटनाएँ जो लगातार और स्वतंत्र रूप से एक स्थिर औसत दर पर होती हैं। यह काफी झुकी होती है, जिसमें शून्य के पास डेटा पॉइंट्स की उच्च एकाग्रता होती है और उसके बाद तेजी से गिरावट आती है।

एक्सपोनेंशियल वितरण की विशेषताएं

  • झुकाव: दाहिनी ओर अत्यधिक झुकी हुई, लंबे पूंछ के साथ।
  • मेमोरीलेस प्रॉपर्टी: अगले अंतराल में किसी घटना के होने की संभावना पिछले घटनाओं से स्वतंत्र होती है।
  • ग्राफ प्रतिनिधित्व: उत्पत्ति के पास तेज चोट के साथ एक एक्सपोनेंशियल क्षय।

दृश्य प्रतिनिधित्व

आइए एक्सपोनेंशियल वितरण को प्लॉट करें:

Exponential Distribution

चित्र: मान बढ़ने के साथ संभावना में तेजी से गिरावट के साथ एक्सपोनेंशियल वितरण।

प्रोबैबिलिटी डेंसिटी फंक्शन (PDF)

प्रोबैबिलिटी डेंसिटी फंक्शन क्या है?

प्रोबैबिलिटी डेंसिटी फंक्शन (PDF) एक सतत रैंडम वेरिएबल के किसी विशेष मान को लेने की संभावना का वर्णन करता है। विविक्त वितरणों के विपरीत, सतत वितरणों में संभावित मानों की अनंत संख्या होती है, जिससे किसी भी एक सटीक मान की संभावना व्यावहारिक रूप से शून्य होती है। इसके बजाय, PDF मानों की एक सीमा पर संभावना का वर्णन करते हैं।

मुख्य बिंदु

  • सतत डेटा: सतत वेरिएबल्स पर लागू होता है जहाँ डेटा पॉइंट्स किसी सीमा के भीतर कोई भी मान ले सकते हैं।
  • वक्र के नीचे क्षेत्र: किसी अंतराल पर PDF का समाकलन उस वेरिएबल के उस अंतराल में गिरने की संभावना का प्रतिनिधित्व करता है।
  • सामान्य उपयोग मामला: नॉर्मल वितरण एक सामान्य उदाहरण है जहाँ PDF का उपयोग सीमाओं पर संभावनाएँ गणना करने के लिए किया जाता है।

दृश्य प्रतिनिधित्व

Seaborn का उपयोग करके एक स्मूथ PDF प्लॉट:

Probability Density Function

चित्र: सामान्य रूप से वितरित डेटासेट के PDF का स्मूथ कर्व।

प्रोबैबिलिटी मैस फंक्शन (PMF)

प्रोबैबिलिटी मैस फंक्शन क्या है?

प्रोबैबिलिटी मैस फंक्शन (PMF) विविक्त रैंडम वेरिएबल्स पर लागू होता है। यह वेरिएबल के प्रत्येक संभावित मान को एक संभावना असाइन करता है, यह सुनिश्चित करते हुए कि सभी संभावनाओं का योग एक के बराबर होता है।

मुख्य बिंदु

  • विविक्त डेटा: उन वेरिएबल्स के लिए उपयुक्त जो विशिष्ट, अलग-अलग मान रखते हैं (जैसे, पूर्णांक)।
  • विशिष्ट संभावनाएँ: प्रत्येक मान के साथ एक सटीक संभावना जुड़ी होती है।
  • सामान्य उपयोग मामला: सर्वेक्षण प्रतिक्रियाएँ या विभिन्न ब्रांडों के लिए बिक्री डेटा जैसे श्रेणात्मक डेटा।

दृश्य प्रतिनिधित्व

ब्रांड बिक्री संभावनाओं का उपयोग करके PMF का एक उदाहरण यहाँ है:

Probability Mass Function

चित्र: विभिन्न ब्रांडों के लिए बिक्री की संभावना दिखाता हुआ PMF।

निष्कर्ष

डेटा वितरणों को समझना डेटा विश्लेषण और मशीन लर्निंग में महत्त्वपूर्ण है। यूनिफॉर्म वितरण एक सरल मॉडल प्रदान करता है जहाँ सभी परिणाम समान रूप से संभावित होते हैं, जबकि नॉर्मल वितरण माध्य मान के आसपास डेटा क्लस्टरिंग के बारे में अंतर्दृष्टि प्रदान करता है। एक्सपोनेंशियल वितरण समय-आधारित घटनाओं को मॉडल करने के लिए आवश्यक है जिसमें मेमोरीलेस प्रॉपर्टी होती है। इन वितरणों को पूरा करते हुए, प्रोबैबिलिटी डेंसिटी फंक्शन (PDF) और प्रोबैबिलिटी मैस फंक्शन (PMF) क्रमशः सतत और विविक्त डेटासेट्स में संभावनाएं गणना करने के लिए मौलिक उपकरण के रूप में कार्य करते हैं।

इन अवधारणाओं में महारत हासिल करके, डेटा वैज्ञानिक और विश्लेषक सूचित निर्णय ले सकते हैं, उपयुक्त मॉडल का चयन कर सकते हैं, और डेटा की अधिक सटीक व्याख्या कर सकते हैं।

त्वरित कोड संदर्भ:

व्यावहारिक कार्यान्वयन के लिए, संबंधित Jupyter Notebook देखें जिसमें इस लेख में चर्चा किए गए सभी कोड स्निपेट और विज़ुअलाइज़ेशन शामिल हैं।

संबंधित लेख:

संपर्क में रहें:

डेटा साइंस और मशीन लर्निंग पर अधिक अंतर्दृष्टि और अपडेट के लिए, हमारे न्यूज़लेटर की सदस्यता लें और हमें ट्विटर, लिंक्डइन, और फेसबुक पर फॉलो करें।

© 2024 DataScienceHub. सर्वाधिकार सुरक्षित।

Share your love