प्रदर्शन

html





Python के साथ डेटा वितरण और प्रायिकता फ़ंक्शन्स पर व्यापक ट्यूटोरियल


Python के साथ डेटा वितरण और प्रायिकता फ़ंक्शन्स पर व्यापक ट्यूटोरियल

इस ट्यूटोरियल में, हम डेटा वितरणों से जुड़ी मूलभूत अवधारणाओं का पता लगाएंगे — यूनिफ़ॉर्म, नॉर्मल (गौसियन), और एक्सपोनेंशियल वितरण, उनके प्रायिकता घनत्व फ़ंक्शन (PDF) और प्रायिकता द्रव्यमान फ़ंक्शन (PMF) से संबंध के साथ। इनको Python में numpy, matplotlib, scipy, और seaborn का उपयोग कर लागू किया जाएगा। हम व्यावहारिक डेटा विश्लेषण के लिए पुस्तक रेटिंग डेटा सेट पर भी चर्चा करेंगे।


सामग्री की सूची

  1. डेटा वितरणों का परिचय
  2. यूनिफ़ॉर्म वितरण का कार्यान्वयन
  3. नॉर्मल वितरण: बेल कर्व
  4. एक्सपोनेंशियल वितरण
  5. प्रायिकता घनत्व फ़ंक्शन (PDF) को समझना
  6. प्रायिकता द्रव्यमान फ़ंक्शन (PMF) को समझना
  7. प्रयोग: पुस्तक रेटिंग डेटा का अन्वेषण
  8. सारांश और अंतर्दृष्टि

1. डेटा वितरणों का परिचय

डेटा वितरण यह बताते हैं कि किसी डेटा सेट में मान कैसे फैले या केंद्रित हैं। वितरणों को समझना सांख्यिकी और मशीन लर्निंग में अनिश्चितताओं का मॉडल बनाने, भविष्यवाणियां करने, और सार्थक निष्कर्ष निकालने के लिए महत्वपूर्ण है।

  • यूनिफ़ॉर्म वितरण: दिए गए सीमा में सभी परिणामों की समान संभावना लगभग होती है।
  • नॉर्मल वितरण: डेटा औसत (mean) के इर्द-गिर्द सममिति के साथ केंद्रित होता है, जो बेल-आकार का वक्र बनाता है।
  • एक्सपोनेंशियल वितरण: डेटा एक तरफ़ झुका होता है, और किसी विशिष्ट मान से दूर जाने पर प्रायिकता तेजी से घटती है, अक्सर प्रतीक्षा समय मॉडल करने के लिए उपयोग किया जाता है।

2. यूनिफ़ॉर्म वितरण

अवधारणा:

  • परिभाषित सीमा के भीतर हर मान समान संभावना वाला होता है।
  • उन सिमुलेशनों में उपयोग किया जाता है जहाँ निष्पक्षता या समान संभावना मानी जाती है।
  • उदाहरण: एक निष्पक्ष छह-पक्षीय पासा का फेंकना — प्रत्येक संख्या 1 से 6 तक समान अवसर रखती है।

कोड कार्यान्वयन:

व्याख्या:

  • np.random.uniform(0, 10, 100000) [0, 10] अंतराल में समान रूप से फैले नमूने बनाता है।
  • हिस्टोग्राम सीमांत में लगभग बराबर ऊंचाई वाली बार दिखाता है, जो समान संभावना को दर्शाता है।

विज़ुअलाइज़ेशन विवरण:

आप एक आयताकार आकार का हिस्टोग्राम देखेंगे जहाँ आवृत्ति लगभग सभी बीन (0 से 10 तक) के लिए समान होती है, जो डेटा बिंदुओं के किसी भी केंद्रित संग्रह को नहीं दिखाता।


3. नॉर्मल वितरण (गौसियन वितरण)

अवधारणा:

  • डेटा बिंदु औसत (μ) के आसपास समेटे जाते हैं।
  • औसत (μ) और मानक विचलन (σ) द्वारा परिभाषित।
  • प्राकृतिक स्थिति में आमतौर पर पाया जाता है — कद, परीक्षा अंक, मापन त्रुटियाँ।
  • बेल-कर्व का आकार।

कोड कार्यान्वयन:

व्याख्या:

  • यह नॉर्मल वितरण जिसका औसत 0 और मानक विचलन 1.5 है, उत्पन्न किया गया है।
  • हिस्टोग्राम शिखर 0 पर होता है और सममिति से घटता है।

विज़ुअलाइज़ेशन विवरण:

हिस्टोग्राम बेल कर्व का रूप लेता है, जिसमें अधिकांश मान 0 के आसपास केंद्रित हैं और चरम मानों पर कम संख्या है।


4. एक्सपोनेंशियल वितरण

अवधारणा:

  • ポइस्सोन प्रक्रिया में घटनाओं के बीच समय के मॉडलिंग के लिए उपयोग किया जाता है।
  • डेटा ज्यादातर कम मान (अक्सर शून्य के पास) के आसपास केंद्रित होता है।
  • मान बढ़ने पर प्रायिकता तेजी से घटती है।
  • दाईं ओर झुका हुआ वितरण।

कोड कार्यान्वयन:

व्याख्या:

  • expon.pdf(x) बिंदुओं x पर प्रायिकता घनत्व फ़ंक्शन की गणना करता है।
  • शून्य पर मान सबसे उच्च होता है, और बाद में तेजी से घटता है।

विज़ुअलाइज़ेशन विवरण:

ग्राफ़ शुरू होता है शून्य पर अधिकत्तम मान 1 से, और जल्दी से घटकर ज़ीरो के पास पहुँच जाता है जब x 10 की ओर बढ़ता है।


5. प्रायिकता घनत्व फ़ंक्शन (PDF)

अवधारणा:

  • यह सतत वितरणों पर लागू होता है।
  • किसी भी सटीक मान के लिए प्रायिकता लगभग शून्य होती है।
  • प्रायिकता मान्य होती है जब इसे किसी सीमा / मानों के समूह पर देखा जाता है।
  • PDF वक्र के नीचे क्षेत्रफल उस सीमा पर प्रायिकता देता है।

कोड कार्यान्वयन:

व्याख्या:

  • sb.histplot() में kde=True से हिस्टोग्राम पर स्मूथ PDF वक्र ओवरले हो जाता है।
  • Seaborn का उपयोग खूबसूरत प्लॉट बनाने में मदद करता है।

विश्लेषणात्मक अंतर्दृष्टि:

  • PDF वक्र यह दर्शाता है कि विभिन्न मानों के रेंज कितनी संभावनाएँ रखते हैं।
  • औसत के आसपास के रेंज में "घनत्व" उच्च होता है — वहां मान आने की संभावना अधिक होती है।

6. प्रायिकता द्रव्यमान फ़ंक्शन (PMF)

अवधारणा:

  • यह विसंगत वितरणों पर लागू होता है।
  • सटीक परिणामों की प्रायिकता बताता है।
  • सभी प्रायिकताओं का योग 1 (या 100%) होता है।

व्यावहारिक उदाहरण:

मान लें, विभिन्न ब्रांड्स के बिक्री की प्रायिकताएँ (डिस्क्रीट श्रेणियाँ)।

कोड कार्यान्वयन:

व्याख्या:

  • डिस्क्रीट श्रेणियाँ (ब्रांड्स) x-अक्ष पर हैं।
  • प्रत्येक बार की ऊंचाई उस ब्रांड की बिक्री की प्रायिकता दर्शाती है।
  • PDF से अलग, प्रायिकताएँ सटीक श्रेणियों को दी जाती हैं, न कि सतत रेंज को।

विश्लेषणात्मक अंतर्दृष्टि:

  • PMF निर्णय लेने वालों को उच्च सफलता दर वाले ब्रांड पहचानने में मदद करता है।
  • संसाधनों या मार्केटिंग प्रयासों का आवंटन करने में उपयोगी।

7. प्रयोग: पुस्तक रेटिंग डेटा सेट का अन्वेषण

डेटा सेट विवरण:

  • BX_Books.csv: पुस्तकों की मेटा जानकारी, जैसे शीर्षक, लेखक, प्रकाशक, वर्ष, और कवर इमेज URLs।
  • BX_Book_Ratings.csv: उपयोगकर्ता आईडी के साथ पुस्तक ISBNs और उनकी रेटिंग्स (0-10 स्केल या संभवतः 0-5 स्केल)।
  • BX_Users.csv: उपयोगकर्ता डेमोग्राफिक डेटा (लोडिंग के दौरान त्रुटि रिपोर्ट; संभवतः एन्कोडिंग समस्या)।

डेटा संरचना उदाहरण:

ISBN पुस्तक शीर्षक पुस्तक लेखक प्रकाशन वर्ष प्रकाशक
0195153448 Classical Mythology Mark P. O. Morford 2002 Oxford University Press
0002005018 Clara Callan Richard Bruce Wright 2001 HarperFlamingo Canada
यूज़र-आईडी ISBN पुस्तक रेटिंग
276725 034545104X 0
276726 0155061224 5

संभावित विश्लेषण:

  • रेटिंग वितरण: पुस्तक रेटिंग कैसे वितरित हैं? क्या यह समान है, सामान्य है, या झुका हुआ?
  • औसत रेटिंग के अनुसार शीर्ष लेखक/प्रकाशक: कौन सबसे अधिक रेटिंग प्राप्त करता है?
  • उपयोगकर्ता व्यवहार: क्या उपयोगकर्ता आम तौर पर उदार हैं या आलोचनात्मक?

रेटिंग वितरण के लिए सैंपल कोड:

आपको जो अंतर्दृष्टि मिल सकती है:

  • यह हिस्टोग्राम बताएगा कि रेटिंग समान रूप से वितरित है (यूनिफ़ॉर्म) या किसी स्कोर के आसपास केंद्रित है (नॉर्मल)।
  • अगर रेटिंग उच्च छोर की ओर झुकी है, तो उपयोगकर्ता आमतौर पर सकारात्मक हो सकते हैं या स्केल में पक्षपात हो सकता है।

8. सारांश और विश्लेषणात्मक निष्कर्ष

वितरण प्रकार डेटा प्रकार प्रायिकता अवधारणा मुख्य विशेषताएँ उदाहरण उपयोग
यूनिफ़ॉर्म वितरण सतत सीमान्त में समान संभावना फ्लैट हिस्टोग्राम, कोई केंद्रण नहीं रैंडम नंबर जनरेशन
नॉर्मल वितरण सतत PDF: सीमाओं पर प्रायिकता बेल कर्व, औसत के चारों ओर सममिति कद, टेस्ट स्कोर
एक्सपोनेंशियल वितरण सतत PDF के साथ तेजी से गिरावट झुका हुआ डेटा; शून्य के पास उच्च घटनाओं के बीच प्रतीक्षा समय
प्रायिकता घनत्व फ़ंक्शन (PDF) सतत अंतरालों पर प्रायिकता वक्र के नीचे क्षेत्र = प्रायिकता सतत वेरिएबल्स
प्रायिकता द्रव्यमान फ़ंक्शन (PMF) डिस्क्रीट बिंदुओं पर प्रायिकता योग 1; विशिष्ट मान गेम परिणाम, श्रेणियाँ

मुख्य तथ्य:

  • सतत vs विसंगत: सतत डेटा के लिए PDF और विसंगत डेटा के लिए PMF का उपयोग करें।
  • विज़ुअलाइज़ेशन: वितरणों को समझने के लिए हिस्टोग्राम उपयोगी हैं, और PDF/PMF चित्रण थ्योरीटिकल दृष्टिकोण देते हैं।
  • वास्तविक दुनिया के डेटा: पुस्तक रेटिंग या कोई भी श्रेणीबद्ध डेटा अक्सर PMF विचारों की मांग करता है।

समापन नोट्स

इस ट्यूटोरियल में सांख्यिकीय वितरण और उनके Python में सिंथेटिक एवं वास्तविक डेटा उदाहरणों के साथ विज़ुअलाइज़ेशन पर चर्चा की गई। ये बुनियादी अवधारणाएं डेटा व्यवहार को समझने में सक्षम बनाती हैं, जो डेटा साइंस और मशीन लर्निंग अनुप्रयोगों के लिए आवश्यक हैं।

कोड स्निपेट्स को संशोधित करके आप अन्य पैरामीटर या डेटा सेट भी अन्वेषण कर सकते हैं तथा अपनी समझ बढ़ा सकते हैं!

विश्लेषण की शुभकामनाएँ! 🎉



Share your love