html
व्यापक डेटा विश्लेषण ट्यूटोरियल: डेटा वितरण और संभाव्यता फलनों को समझना
इस व्यापक डेटा विश्लेषण ट्यूटोरियल में आपका स्वागत है! इस गाइड में, हम डेटा वितरण, संभाव्यता घनत्व फलन (PDF), और संभाव्यता मास फलन (PMF) जैसे महत्वपूर्ण अवधारणाओं में गहराई से उतरेंगे। हम इन अवधारणाओं का अन्वेषण Python की डेटा विश्लेषण लाइब्रेरीज का उपयोग करके व्यावहारिक उदाहरणों के माध्यम से करेंगे, जो डेटा विज़ुअलाइज़ेशन द्वारा समर्थित हैं। इसके अतिरिक्त, हम नमूना डेटासेट्स को प्रोसेस और विश्लेषण करेंगे ताकि अर्थपूर्ण अंतर्दृष्टि प्राप्त की जा सके। इस ट्यूटोरियल के अंत तक, आपके पास डेटा प्रोसेसिंग को संभालने, विश्लेषण तकनीकों को लागू करने, और विश्लेषणात्मक निष्कर्षों की व्याख्या करने की ठोस समझ होगी।
सामग्री सूची
- डेटा वितरण का परिचय
- संभाव्यता फलनों को समझना
- डेटा अवलोकन
- डेटा प्रोसेसिंग
-
एक्सप्लोरेटरी डेटा एनालिसिस (EDA)
- विश्लेषणात्मक निष्कर्ष
- निष्कर्ष
डेटा वितरण का परिचय
डेटा वितरण को समझना डेटा विश्लेषण और मशीन लर्निंग में मौलिक है। एक डेटा वितरण यह वर्णित करता है कि एक वेरिएबल के मान कैसे फैले हुए हैं या वितरित हैं। वितरण के सामान्य प्रकार में शामिल हैं:
- यूनिफॉर्म वितरण: सभी परिणाम समान रूप से संभावित होते हैं।
- नॉर्मल (गॉसियन) वितरण: डेटा माध्य के चारों ओर सममित रूप से वितरित होता है, जो एक बेल के आकार के वक्र का निर्माण करता है।
- एक्सपोनेंशियल वितरण: डेटा एक तरफ एकत्रित होता है, आमतौर पर तेजी से गिरावट दिखाते हुए।
इन वितरणों को पहचानना उपयुक्त सांख्यिकीय विधियों और विश्लेषण मॉडलों का चयन करने में मदद करता है।
संभाव्यता फलनों को समझना
संभाव्यता फलन डेटा में अनिश्चितता और परिवर्तनशीलता को मापने के लिए आवश्यक उपकरण हैं:
- संभाव्यता घनत्व फलन (PDF): सतत डेटा के लिए उपयोग किया जाता है, यह एक रैंडम वेरिएबल के विभिन्न मान लेने की संभावना का वर्णन करता है।
- संभाव्यता मास फलन (PMF): विवेक डेटा के लिए उपयोग किया जाता है, यह विशिष्ट परिणामों को संभावनाएँ प्रदान करता है।
PDF और PMF के बीच के अंतर को समझना डेटा को सही ढंग से मॉडल करने और उनकी व्याख्या करने के लिए महत्वपूर्ण है।
डेटा अवलोकन
इस ट्यूटोरियल के लिए, हम दो मुख्य डेटासेट्स का उपयोग करेंगे:
- BX_Books.csv: इसमें किताबों के बारे में जानकारी होती है, जिसमें ISBN, शीर्षक, लेखक, प्रकाशन वर्ष, प्रकाशक, और इमेज URLs शामिल हैं।
- BX-Book-Ratings.csv: यह किताबों के लिए उपयोगकर्ता रेटिंग्स रिकॉर्ड करता है, जिसमें User-ID, ISBN, और Book-Rating शामिल हैं।
ध्यान दें: तीसरा डेटासेट, BX-Users.csv
, एन्कोडिंग समस्याओं के कारण पढ़ने में त्रुटि आई थी। हम इसे डेटा प्रोसेसिंग अनुभाग में संबोधित करेंगे।
BX_Books.csv से नमूना डेटा
ISBN
Book-Title
Book-Author
Year-Of-Publication
Publisher
Image-URL-S
Image-URL-M
Image-URL-L
0195153448
Classical Mythology
Mark P. O. Morford
2002
Oxford University Press
http://images.amazon.com/images/P/0195153448.01.THUMBZZZ.jpg
http://images.amazon.com/images/P/0195153448.01.MZZZZZZZ.jpg
http://images.amazon.com/images/P/0195153448.01.LZZZZZZZ.jpg
0002005018
Clara Callan
Richard Bruce Wright
2001
HarperFlamingo Canada
http://images.amazon.com/images/P/0002005018.01.THUMBZZZ.jpg
http://images.amazon.com/images/P/0002005018.01.MZZZZZZZ.jpg
http://images.amazon.com/images/P/0002005018.01.LZZZZZZZ.jpg
...
...
...
...
...
...
...
...
BX-Book-Ratings.csv से नमूना डेटा
User-ID
ISBN
Book-Rating
276725
034545104X
0
276726
0155061224
5
276727
0446520802
0
276729
052165615X
3
...
...
...
ध्यान दें: BX-Users.csv
फ़ाइल को एन्कोडिंग त्रुटि के कारण नहीं पढ़ा जा सका।
डेटा प्रोसेसिंग
विश्लेषण में प्रवेश करने से पहले, डेटा को पूर्व-संसाधित करना आवश्यक है—इसे लोड करना, साफ करना, और अन्वेषण के लिए तैयार करना।
एन्कोडिंग समस्याओं को संभालना
BX-Users.csv
फ़ाइल में एक पढ़ने की त्रुटि है:
1
Error reading file: 'utf-8' codec can't decode byte 0xe9 in position 1682: invalid continuation byte
इसे हल करने के लिए, हम फ़ाइल को लोड करते समय एक अलग एन्कोडिंग (जैसे ISO-8859-1
) निर्दिष्ट कर सकते हैं:
123456
import pandas as pd try: users = pd.read_csv('BX-Users.csv', encoding='utf-8', sep=';')except UnicodeDecodeError: users = pd.read_csv('BX-Users.csv', encoding='ISO-8859-1', sep=';')
Merging Datasets
हमारे विश्लेषण को समृद्ध करने के लिए, हम BX_Books
और BX-Book-Ratings
डेटासेट्स को ISBN
कॉलम पर मर्ज करेंगे:
1234
books = pd.read_csv('BX_Books.csv', sep=';', error_bad_lines=False, encoding='ISO-8859-1')ratings = pd.read_csv('BX-Book-Ratings.csv', sep=';', error_bad_lines=False, encoding='ISO-8859-1') merged_data = pd.merge(ratings, books, on='ISBN', how='left')
एक्सप्लोरेटरी डेटा एनालिसिस (EDA)
एक्सप्लोरेटरी डेटा एनालिसिस में डेटा की मुख्य विशेषताओं को सारांशित करना शामिल है, अक्सर दृश्य विधियों के साथ। हम Python की लाइब्रेरीज जैसे NumPy, Matplotlib, और Seaborn का उपयोग करके विभिन्न डेटा वितरण और संभाव्यता फलनों का अन्वेषण करेंगे।
यूनिफॉर्म वितरण
यूनिफॉर्म वितरण का मतलब है कि निर्दिष्ट सीमा के भीतर सभी परिणाम समान रूप से संभावित होते हैं।
123456789101112
import numpy as npimport matplotlib.pyplot as plt # 0 और 10 के बीच यूनिफॉर्म वितरण मान जेनरेट करनाvalues = np.random.uniform(0, 10, 100000) # हिस्टोग्राम प्लॉट करनाplt.hist(values, bins=50, color='skyblue', edgecolor='black')plt.title('Uniform Distribution')plt.xlabel('Value')plt.ylabel('Frequency')plt.show()
व्याख्या:
- कोड इम्प्लीमेंटेशन: हम
np.random.uniform
का उपयोग करके 100,000 डेटा पॉइंट्स जेनरेट करते हैं जो 0 और 10 के बीच समान रूप से वितरित हैं।
- विज़ुअलाइज़ेशन: हिस्टोग्राम एक सपाट वितरण दिखाता है, जो सीमा के भीतर सभी मानों के लिए समान संभावना को इंगित करता है।
नॉर्मल वितरण
नॉर्मल वितरण (या गॉसियन वितरण) को इसकी बेल के आकार के वक्र द्वारा वर्णित किया जाता है, जिसमें अधिकांश डेटा पॉइंट्स माध्य के आस-पास क्लस्टर होते हैं।
123456789
# mean=0 और sigma=1.5 के साथ नॉर्मल वितरण मान जेनरेट करनाvalues = np.random.normal(0, 1.5, 100000) # हिस्टोग्राम प्लॉट करनाplt.hist(values, bins=50, color='salmon', edgecolor='black')plt.title('Normal Distribution')plt.xlabel('Value')plt.ylabel('Frequency')plt.show()
व्याख्या:
- कोड इम्प्लीमेंटेशन: हम
np.random.normal
का उपयोग करके 0 के माध्य और 1.5 के मानक विचलन के साथ 100,000 डेटा पॉइंट्स जेनरेट करते हैं।
- विज़ुअलाइज़ेशन: परिणामस्वरूप हिस्टोग्राम मध्य के चारों ओर एक सममित बेल वक्र बनाता है, जो माध्य के पास डेटा के संकेन्द्रण और चरमों की ओर पतन को दर्शाता है।
एक्सपोनेंशियल वितरण
एक्सपोनेंशियल वितरण एक पोइसन प्रक्रिया में घटनाओं के बीच समय को मॉडल करता है, जो शिखर से तेजी से क्षय दिखाता है।
1234567891011
from scipy.stats import expon # x-अक्ष के लिए सीमा परिभाषित करनाx = np.linspace(0, 10, 100) # एक्सपोनेंशियल संभाव्यता घनत्व फलन (PDF) प्लॉट करनाplt.plot(x, expon.pdf(x), color='green', linewidth=2)plt.title('Exponential Distribution PDF')plt.xlabel('Value')plt.ylabel('Probability Density')plt.show()
व्याख्या:
- कोड इम्प्लीमेंटेशन:
scipy.stats
से expon.pdf
फंक्शन का उपयोग करके हम 0 से 10 की सीमा पर एक्सपोनेंशियल वितरण के लिए PDF मान जेनरेट करते हैं।
- विज़ुअलाइज़ेशन: प्लॉट 0 पर शिखर से तेज गिरावट दिखाता है, जो उच्च मानों के संभाव्यताओं के तेजी से कम होने को दर्शाता है।
संभाव्यता घनत्व फलन (PDF)
संभाव्यता घनत्व फलन सतत डेटा के लिए उपयोग किया जाता है ताकि रैंडम वेरिएबल के किसी विशेष मान के भीतर गिरने की संभावना को निर्दिष्ट किया जा सके।
1234567891011121314
import seaborn as sb # Seaborn स्टाइल सेट करनाsb.set() # नॉर्मल वितरण मान जेनरेट करनाvalues = np.random.normal(0, 1, 200) # Seaborn का उपयोग करके वितरण प्लॉट करनाsb.histplot(values, kde=True, color='purple')plt.title('Probability Density Function (PDF)')plt.xlabel('Value')plt.ylabel('Density')plt.show()
व्याख्या:
- कोड इम्प्लीमेंटेशन: हम 200 नॉर्मली वितरित डेटा पॉइंट्स जेनरेट करते हैं और Seaborn के
histplot
का उपयोग करते हुए kde
(कर्नेल घनत्व अनुमान) ओवरले के साथ PDF को विज़ुअलाइज़ करते हैं।
- विज़ुअलाइज़ेशन: हिस्टोग्राम और KDE लाइन मिलकर डेटा के सतत स्वभाव को दर्शाती है, यह दिखाते हुए कि डेटा पॉइंट्स विभिन्न रेंजों में कैसे वितरित हैं।
संभाव्यता मास फलन (PMF)
संभाव्यता मास फलन विवेक डेटा के लिए उपयोग किया जाता है ताकि प्रत्येक व्यक्तिगत परिणाम को संभावनाएँ असाइन की जा सकें।
12345678910111213141516171819
# विवेक डेटा पॉइंट्स और उनकी संभावनाएँ परिभाषित करनाx1 = np.array([1, 2, 3, 4, 5])x_name = ['A brand', 'B brand', 'C brand', 'D brand', 'E brand']y1 = [55, 85, 96, 88, 99] # PMF के लिए बार चार्ट प्लॉट करनाplt.bar(x1, y1, color='blue', alpha=0.7) # बार्स को जोड़कर PMF प्लॉट को बढ़ानाx_pmf = np.insert(x1, [0, 5], [0, 6])y_pmf = np.insert(y1, [0, 5], [0, 0])plt.plot(x_pmf, y_pmf, color='red', linestyle='--') # शीर्षक और लेबल जोड़नाplt.title('Probability Mass Function (PMF)')plt.xlabel('Brands')plt.xticks(x1, x_name)plt.ylabel('Probability')plt.show()
व्याख्या:
- कोड इम्प्लीमेंटेशन: हम विवेक श्रेणियाँ (ब्रांड्स) परिभाषित करते हैं और प्रत्येक को संभावनाएँ असाइन करते हैं। बार चार्ट PMF का प्रतिनिधित्व करता है, और एक लाइन बार्स को जोड़ती है ताकि विवेक स्वभाव को हाइलाइट किया जा सके।
- विज़ुअलाइज़ेशन: प्रत्येक बार एक ब्रांड की संभाव्यता से मेल खाता है, विशिष्ट, पृथक संभावनाओं पर जोर देते हुए बजाए सतत रेंज के।
विश्लेषणात्मक निष्कर्ष
विज़ुअलाइज़ेशन और कोड इम्प्लीमेंटेशन के माध्यम से, कई प्रमुख अंतर्दृष्टियाँ उभरती हैं:
- यूनिफॉर्म वितरण:
- निर्दिष्ट सीमा (0-10) के भीतर सभी मान समान रूप से संभावित होते हैं।
- हिस्टोग्राम सपाट वितरण प्रदर्शित करते हैं, जो यूनिफॉर्म संभाव्यता की पुष्टि करता है।
- नॉर्मल वितरण:
- डेटा पॉइंट्स माध्य (0) के आस-पास क्लस्टर होते हैं और चरमों की ओर घटती आवृत्ति के साथ।
- सममित बेल वक्र यह इंगित करता है कि अधिकांश डेटा माध्य के पास गिरता है, प्राकृतिक घटनाओं के मॉडलिंग के लिए उपयुक्त है।
- एक्सपोनेंशियल वितरण:
- डेटा मूल (0) के पास भारी मात्रा में एकत्रित होता है, जैसे-जैसे मान बढ़ते हैं संभावनाएँ तेजी से कम होती जाती हैं।
- घटनाओं के होने के समय को मॉडल करने के लिए उपयोगी, जैसे मशीनों का जीवनकाल।
- संभाव्यता घनत्व फलन (PDF):
- सतत रेंजों के भीतर डेटा पॉइंट्स की संभाव्यता को दर्शाता है।
- डेटा वितरण की समझ प्रदान करता है बिना वास्तविक मानों को संभावनाएँ असाइन किए।
- संभाव्यता मास फलन (PMF):
- विवेक परिणामों को विशिष्ट संभावनाएँ असाइन करता है।
- श्रेणीबद्ध डेटा के लिए आदर्श, जैसे ब्रांड प्राथमिकताएँ, जहां प्रत्येक श्रेणी की अलग संभाव्यता होती है।
- डेटा एकीकरण:
BX_Books
और BX-Book-Ratings
को मर्ज करने से डेटासेट समृद्ध होता है, जिससे प्रकाशन विवरण के संबंध में किताब रेटिंग्स का गहरा विश्लेषण संभव होता है।
- डेटा मुद्दों को संभालना:
- एन्कोडिंग त्रुटियों को संबोधित करने से व्यापक डेटा लोडिंग सुनिश्चित होती है, जिससे अधिक मजबूत विश्लेषण संभव होता है।
निष्कर्ष
इस ट्यूटोरियल में, हमने डेटा वितरण और संभाव्यता फलनों की बुनियादी अवधारणाओं का अन्वेषण किया है, जो हाथों-हाथ कोड इम्प्लीमेंटेशन और विज़ुअलाइज़ेशन द्वारा समर्थित हैं। यूनिफॉर्म, नॉर्मल, और एक्सपोनेंशियल वितरण को समझना आपको विभिन्न डेटा प्रकारों के लिए उपयुक्त सांख्यिकीय मॉडल चुनने में सक्षम बनाता है। PDF और PMF के बीच अंतर करने से डेटा की सततता के आधार पर सटीक संभाव्यता आकलन संभव होता है।
नमूना डेटासेट्स को प्रोसेस और विश्लेषण करके, हमने डेटा को प्रभावी ढंग से एकीकृत और विज़ुअलाइज़ करने का तरीका दिखाया है, जिससे अर्थपूर्ण पैटर्न और अंतर्दृष्टि प्राप्त होती हैं। चाहे आप मशीन लर्निंग मॉडलों के लिए डेटा तैयार कर रहे हों या एक्सप्लोरेटरी विश्लेषण कर रहे हों, ये बुनियादी कौशल डेटा विश्लेषक के टूलकिट में अनमोल हैं।
इन तकनीकों का अभ्यास विविध डेटासेट्स के साथ जारी रखें ताकि आपकी समझ गहरी हो और आपकी डेटा विश्लेषण कुशलता बढ़े। खुश विश्लेषण!