S21L05 – गॉसियन नाइव बायेस

html
गॉसियन नाइव बेयस वर्गीकरणकर्ता को समझना: एक व्यापक मार्गदर्शिका
मशीन लर्निंग के लगातार बदलते परिदृश्य में, वर्गीकरण एल्गोरिदम विशाल मात्रा में डेटा को समझने में महत्वपूर्ण भूमिका निभाते हैं। इन एल्गोरिदम में, नाइव बेयस वर्गीकरणकर्ता अपनी सरलता और प्रभावशीलता के लिए उत्कृष्ट है। यह लेख गॉसियन नाइव बेयस वेरिएंट में गहराई से जाता है, इसके मैकेनिज्म, अनुप्रयोगों और Python का उपयोग करके इसके कार्यान्वयन का अन्वेषण करता है। चाहे आप डेटा के प्रति उत्साही हों या अनुभवी पेशेवर, यह मार्गदर्शिका आपको अपने प्रोजेक्ट्स में गॉसियन नाइव बेयस की शक्ति का उपयोग करने के लिए आवश्यक ज्ञान प्रदान करेगी।
सामग्री तालिका

  नाइव बेयस का परिचय
  गॉसियन नाइव बेयस क्या है?
  मशीन लर्निंग में अनुप्रयोग
  उदाहरण परिदृश्य: टीवी खरीदों की भविष्यवाणी करना
  प्रीर और संभावना संभावनाओं को समझना
  डेटा संभालना: संतुलित बनाम असंतुलित
  Python में कार्यान्वयन
  लाभ और सीमाएं
  निष्कर्ष


नाइव बेयस का परिचय
नाइव बेयस वर्गीकरणकर्ता बेज के प्रमेय पर आधारित एक संभाव्य मशीन लर्निंग मॉडल है। इसे "नाइव" कहा जाता है क्योंकि यह वर्गीकरण के लिए उपयोग किए जाने वाले विशेषताओं के एक-दूसरे से स्वतंत्र होने की धारणा करता है, एक ऐसा अनुमान जो वास्तविक दुनिया के परिदृश्यों में शायद ही कभी सही होता है। इस अत्यधिक सरलीकरण के बावजूद, नाइव बेयस ने विशेष रूप से स्पैम डिटेक्शन और सेंटिमेंट एनालिसिस जैसे पाठ वर्गीकरण कार्यों में उल्लेखनीय रूप से प्रभावी साबित किया है।
गॉसियन नाइव बेयस क्या है?
जबकि पारंपरिक नाइव बेयस वर्गीकरणकर्ता डिस्क्रीट डेटा को संभाल सकता है, गॉसियन नाइव बेयस विशेष रूप से निरंतर डेटा के लिए डिज़ाइन किया गया है, यह मानकर कि प्रत्येक विशेषता से संबंधित निरंतर मान गॉसियन (सामान्य) वितरण के अनुसार वितरित होते हैं। इससे यह उन परिदृश्यों के लिए उपयुक्त बन जाता है जहाँ विशेषताओं में बेल के आकार का वितरण दिखाई देता है।
मुख्य विशेषताएँ:

  संभाव्य मॉडल: किसी विशेष वर्ग से संबंधित डेटा की संभावना की गणना करता है।
  स्वतंत्रता का अनुमान: वर्ग को देखते हुए विशेषताओं को स्वतंत्र माना जाता है।
  निरंतर डेटा संभालना: विशेषता की संभावना अनुमान के लिए गॉसियन वितरण का उपयोग करता है।

मशीन लर्निंग में अनुप्रयोग
गॉसियन नाइव बेयस अपनी दक्षता और सरलता के कारण विभिन्न क्षेत्रों में व्यापक रूप से उपयोग किया जाता है। कुछ प्रमुख अनुप्रयोग शामिल हैं:

  स्पैम डिटेक्शन: अवांछित ईमेल की पहचान करना।
  चिकित्सा निदान: लक्षणों के आधार पर बीमारियों की भविष्यवाणी करना।
  मार्केट सेगमेंटेशन: खरीदारी व्यवहार के आधार पर ग्राहकों को वर्गीकृत करना।
  दस्तावेज़ वर्गीकरण: दस्तावेजों को पूर्वनिर्धारित श्रेणियों में व्यवस्थित करना।

उदाहरण परिदृश्य: टीवी खरीदों की भविष्यवाणी करना
गॉसियन नाइव बेयस के मैकेनिज्म को स्पष्ट करने के लिए, चलिए एक व्यावहारिक उदाहरण पर विचार करते हैं: कुछ विशेषताओं के आधार पर यह भविष्यवाणी करना कि कोई व्यक्ति टीवी खरीदेगा या नहीं।
परिदृश्य विवरण:
उद्देश्य: व्यक्तियों को दो समूहों में वर्गीकृत करना—टीवी खरीदें या टीवी न खरीदें.
विशेषताएँ:

  टीवी का आकार: इंच में मापा गया।
  टीवी की कीमत: डॉलर में लागत।
  प्रोडक्ट पेज पर समय: उत्पाद की वेबपेज पर बिताया गया समय सेकंड में।

डेटासेट का अवलोकन:
नमूना आकार: 200 व्यक्तियों, जिसमें से 100 टीवी खरीद रहे हैं और 100 टीवी नहीं खरीद रहे हैं, जो कि एक संतुलित डेटासेट सुनिश्चित करता है।
संतुलित डेटा: प्रत्येक वर्ग में समान संख्या में नमूने होते हैं, जो भविष्यवाणियों में पक्षपात को समाप्त करते हैं।

प्रीर और संभावना संभावनाओं को समझना
प्रीर संभावना
प्रीर संभावना किसी वर्ग की प्रारंभिक संभावना को दर्शाती है, बिना किसी डेटा को देखे। हमारे उदाहरण में:

  P(Buy TV) = 0.5
  P(Not Buy TV) = 0.5

यह प्रत्येक वर्ग में नमूनों की संख्या को कुल नमूनों की संख्या से विभाजित करके गणना किया जाता है।
संभावना संभावना
संभावना संभावना यह संकेत देती है कि दिया गया डेटा एक विशेष वर्ग को देखते हुए कितना संभाव्य है। यह मॉडल के लिए डेटा की फिटिंग का आकलन करता है। प्रत्येक विशेषता के लिए, गॉसियन नाइव बेयस इन संभावनाओं की गणना करने के लिए सामान्य वितरण मानता है।
उदाहरण:

  टीवी का आकार:
    
      टीवी खरीदें: 0.063
      टीवी न खरीदें: 0.009
    
  

टीवी खरीदें के लिए उच्च संभावना यह सुझाती है कि टीवी के आकार और खरीद निर्णय के बीच मजबूत संबंध है।
डेटा संभालना: संतुलित बनाम असंतुलित
संतुलित डेटा
एक संतुलित डेटासेट में, प्रत्येक वर्ग में बराबर संख्या में नमूने होते हैं। यह संतुलन सुनिश्चित करता है कि वर्गीकरणकर्ता किसी विशेष वर्ग की ओर पक्षपातपूर्ण नहीं हो जाता।
असंतुलित डेटा
इसके विपरीत, एक असंतुलित डेटासेट में, वर्ग असमान रूप से प्रतिनिधित्वित होते हैं, जिससे वर्गीकरणकर्ता के प्रदर्शन में गड़बड़ी आ सकती है। उदाहरण के लिए, यदि 95 व्यक्तियाँ टीवी खरीदती हैं और केवल 85 नहीं खरीदतीं, तो भी डेटा को अपेक्षाकृत संतुलित माना जाता है।

Python में कार्यान्वयन
Python में गॉसियन नाइव बेयस को लागू करना सीधा है, मुख्य रूप से scikit-learn जैसी लाइब्रेरीज़ का उपयोग करके। नीचे दिए गए जुपिटर नोटबुक सामग्री पर आधारित चरण-दर-चरण मार्गदर्शिका है।
चरण 1: आवश्यक लाइब्रेरी आयात करें




		
		
			
			
Java
			
			import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as stats
import math
			
				
					
				
					1
2
3
4
				
						import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as stats
import math
					
				
			
		


चरण 2: डेटा वितरण का विज़ुअलाइज़ेशन
प्रत्येक विशेषता के लिए, दोनों वर्गों के लिए वितरण को विज़ुअलाइज़ करें ताकि यह समझा जा सके कि वे कितनी अच्छी तरह विभाजित होते हैं।
टीवी का आकार




		
		
			
			
Java
			
			mu_buy = 40
variance_buy = 30
sigma_buy = math.sqrt(variance_buy)
sizes_buy = np.linspace(mu_buy - 3*sigma_buy, mu_buy + 5*sigma_buy, 100)
plt.plot(sizes_buy, stats.norm.pdf(sizes_buy, mu_buy, sigma_buy), linewidth=7.0, color="green")

mu_not_buy = 55
variance_not_buy = 35
sigma_not_buy = math.sqrt(variance_not_buy)
sizes_not_buy = np.linspace(mu_not_buy - 5*sigma_not_buy, mu_not_buy + 2*sigma_not_buy, 100)
plt.plot(sizes_not_buy, stats.norm.pdf(sizes_not_buy, mu_not_buy, sigma_not_buy), linewidth=7.0, color="red")

plt.title('Size of TV Distribution')
plt.xlabel('Size (inches)')
plt.ylabel('Probability Density')
plt.legend(['Buy TV', 'Not Buy TV'])
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
				
						mu_buy = 40
variance_buy = 30
sigma_buy = math.sqrt(variance_buy)
sizes_buy = np.linspace(mu_buy - 3*sigma_buy, mu_buy + 5*sigma_buy, 100)
plt.plot(sizes_buy, stats.norm.pdf(sizes_buy, mu_buy, sigma_buy), linewidth=7.0, color="green")
 
mu_not_buy = 55
variance_not_buy = 35
sigma_not_buy = math.sqrt(variance_not_buy)
sizes_not_buy = np.linspace(mu_not_buy - 5*sigma_not_buy, mu_not_buy + 2*sigma_not_buy, 100)
plt.plot(sizes_not_buy, stats.norm.pdf(sizes_not_buy, mu_not_buy, sigma_not_buy), linewidth=7.0, color="red")
 
plt.title('Size of TV Distribution')
plt.xlabel('Size (inches)')
plt.ylabel('Probability Density')
plt.legend(['Buy TV', 'Not Buy TV'])
plt.show()
					
				
			
		



टीवी की कीमत




		
		
			
			
Java
			
			mu_buy = 400
variance_buy = 500
sigma_buy = math.sqrt(variance_buy)
prices_buy = np.linspace(mu_buy - 1*sigma_buy, mu_buy + 6*sigma_buy, 100)
plt.plot(prices_buy, stats.norm.pdf(prices_buy, mu_buy, sigma_buy), linewidth=7.0, color="green")

mu_not_buy = 500
variance_not_buy = 350
sigma_not_buy = math.sqrt(variance_not_buy)
prices_not_buy = np.linspace(mu_not_buy - 4*sigma_not_buy, mu_not_buy + 2*sigma_not_buy, 100)
plt.plot(prices_not_buy, stats.norm.pdf(prices_not_buy, mu_not_buy, sigma_not_buy), linewidth=7.0, color="red")

plt.title('Price of TV Distribution')
plt.xlabel('Price ($)')
plt.ylabel('Probability Density')
plt.legend(['Buy TV', 'Not Buy TV'])
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
				
						mu_buy = 400
variance_buy = 500
sigma_buy = math.sqrt(variance_buy)
prices_buy = np.linspace(mu_buy - 1*sigma_buy, mu_buy + 6*sigma_buy, 100)
plt.plot(prices_buy, stats.norm.pdf(prices_buy, mu_buy, sigma_buy), linewidth=7.0, color="green")
 
mu_not_buy = 500
variance_not_buy = 350
sigma_not_buy = math.sqrt(variance_not_buy)
prices_not_buy = np.linspace(mu_not_buy - 4*sigma_not_buy, mu_not_buy + 2*sigma_not_buy, 100)
plt.plot(prices_not_buy, stats.norm.pdf(prices_not_buy, mu_not_buy, sigma_not_buy), linewidth=7.0, color="red")
 
plt.title('Price of TV Distribution')
plt.xlabel('Price ($)')
plt.ylabel('Probability Density')
plt.legend(['Buy TV', 'Not Buy TV'])
plt.show()
					
				
			
		



प्रोडक्ट पेज पर समय




		
		
			
			
Java
			
			mu_buy = 110
variance_buy = 10
sigma_buy = math.sqrt(variance_buy)
time_buy = np.linspace(mu_buy - 20*sigma_buy, mu_buy + 5*sigma_buy, 100)
plt.plot(time_buy, stats.norm.pdf(time_buy, mu_buy, sigma_buy), linewidth=7.0, color="green")

mu_not_buy = 50
variance_not_buy = 200
sigma_not_buy = math.sqrt(variance_not_buy)
time_not_buy = np.linspace(mu_not_buy - 3*sigma_not_buy, mu_not_buy + 5*sigma_not_buy, 100)
plt.plot(time_not_buy, stats.norm.pdf(time_not_buy, mu_not_buy, sigma_not_buy), linewidth=7.0, color="red")

plt.title('Time on Product Page Distribution')
plt.xlabel('Time (seconds)')
plt.ylabel('Probability Density')
plt.legend(['Buy TV', 'Not Buy TV'])
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
				
						mu_buy = 110
variance_buy = 10
sigma_buy = math.sqrt(variance_buy)
time_buy = np.linspace(mu_buy - 20*sigma_buy, mu_buy + 5*sigma_buy, 100)
plt.plot(time_buy, stats.norm.pdf(time_buy, mu_buy, sigma_buy), linewidth=7.0, color="green")
 
mu_not_buy = 50
variance_not_buy = 200
sigma_not_buy = math.sqrt(variance_not_buy)
time_not_buy = np.linspace(mu_not_buy - 3*sigma_not_buy, mu_not_buy + 5*sigma_not_buy, 100)
plt.plot(time_not_buy, stats.norm.pdf(time_not_buy, mu_not_buy, sigma_not_buy), linewidth=7.0, color="red")
 
plt.title('Time on Product Page Distribution')
plt.xlabel('Time (seconds)')
plt.ylabel('Probability Density')
plt.legend(['Buy TV', 'Not Buy TV'])
plt.show()
					
				
			
		



चरण 3: संभावनाओं की गणना करना
एक नए व्यक्ति के लिए, देखे गए विशेषताओं के आधार पर दोनों वर्गों की संभावना की गणना करें।
उदाहरण गणना:

  टीवी का आकार:
    
      टीवी खरीदें: 0.063
      टीवी न खरीदें: 0.009
    
  
  टीवी की कीमत:
    
      टीवी खरीदें: 0.008
      टीवी न खरीदें: 0.0009
    
  
  प्रोडक्ट पेज पर समय:
    
      टीवी खरीदें: 0.03
      टीवी न खरीदें: 0.0000000000001
    
  

संभावनाओं को गुणा करना:




		
		
			
			
Java
			
			P_buy = 0.5 * 0.063 * 0.008 * 0.0000000000001  # 2.52e-17
P_not_buy = 0.5 * 0.009 * 0.0009 * 0.0000000000001  # Approx. 4.05e-19
			
				
					
				
					1
2
				
						P_buy = 0.5 * 0.063 * 0.008 * 0.0000000000001  # 2.52e-17
P_not_buy = 0.5 * 0.009 * 0.0009 * 0.0000000000001  # Approx. 4.05e-19
					
				
			
		


बहुत छोटे मानों के कारण, यह अंडरफ्लो समस्या पैदा करता है, जिससे गणनाएँ अविश्वसनीय बन जाती हैं।
चरण 4: लघुगणकों के साथ अंडरफ्लो को रोकना
अंडरफ्लो को कम करने के लिए, संभावनाओं को लघुगणकीय मानों में परिवर्तित करें:




		
		
			
			
Java
			
			log_P_buy = math.log(0.5) + math.log(0.063) + math.log(0.008) + math.log(0.0000000000001)
log_P_not_buy = math.log(0.5) + math.log(0.009) + math.log(0.0009) + math.log(0.0000000000001)

print(f"P(Buy TV) = {log_P_buy:.2f}")        # -38.2
print(f"P(Not Buy TV) = {log_P_not_buy:.2f}")  # -15.91
			
				
					
				
					1
2
3
4
5
				
						log_P_buy = math.log(0.5) + math.log(0.063) + math.log(0.008) + math.log(0.0000000000001)
log_P_not_buy = math.log(0.5) + math.log(0.009) + math.log(0.0009) + math.log(0.0000000000001)
 
print(f"P(Buy TV) = {log_P_buy:.2f}")        # -38.2
print(f"P(Not Buy TV) = {log_P_not_buy:.2f}")  # -15.91
					
				
			
		


लघुगणकीय संभावनाओं की तुलना:

  P(Buy TV): -38.2
  P(Not Buy TV): -15.91

टीवी खरीदें के लिए दो वोट प्राप्त होने के बावजूद, टीवी न खरीदें वर्ग के लिए उच्च संभावना (कम नकारात्मक लघुगणकीय संभावना) व्यक्ति को टीवी न खरीदें के रूप में वर्गीकृत करती है।
लाभ और सीमाएं
लाभ

  सरलता: लागू करना और समझना आसान।
  दक्षता: संगणनात्मक रूप से तेज, बड़े डेटासेट के लिए उपयुक्त।
  प्रदर्शन: अपेक्षाकृत छोटे डेटासेट के साथ भी अच्छा प्रदर्शन करता है।
  विशेषता स्वतंत्रता: स्वतंत्रता के अनुमान के कारण अप्रासंगिक विशेषताओं को स्वाभाविक रूप से संभालता है।

सीमाएं

  स्वतंत्रता का अनुमान: यह अनुमान कि विशेषताएँ स्वतंत्र हैं, अक्सर वास्तविक दुनिया के डेटा में उल्लंघन किया जाता है।
  संभावना अनुमान: वर्गीकरण के लिए उपयोगी होते हुए भी, वास्तविक संभावना अनुमान विश्वसनीय नहीं हो सकते।
  शून्य संभावना: अगर कोई वर्गीकृत चर एक ऐसा वर्ग है जो प्रशिक्षण डेटा में उपस्थित नहीं है, तो मॉडल शून्य संभावना निर्धारित करता है, जिससे भविष्यवाणियाँ करना मुश्किल हो जाता है (स्मूदीकरण तकनीकों का उपयोग करके संभाला जाता है)।

निष्कर्ष
गॉसियन नाइव बेयस वर्गीकरणकर्ता मशीन लर्निंग के शस्त्रागार में एक शक्तिशाली उपकरण है, विशेष रूप से निरंतर डेटा से निपटते समय। इसकी सरलता और दक्षता इसे कई वर्गीकरण कार्यों के लिए एक पसंदीदा विकल्प बनाती है। हालांकि, इसे प्रभावी ढंग से लागू करने के लिए इसकी अंतर्निहित धारणाओं और सीमाओं को समझना महत्वपूर्ण है।
उन परिदृश्यों में जहाँ विशेषताएँ स्वतंत्र होती हैं और डेटा गॉसियन वितरण का पालन करता है, गॉसियन नाइव बेयस प्रभावी प्रदर्शन प्रदान कर सकता है। टीवी खरीद भविष्यवाणी उदाहरण में प्रदर्शित किया गया है, संतुलित डेटासेट और स्पष्ट संभावना संभावनाओं के साथ भी, मॉडल अंतर्दृष्टिपूर्ण वर्गीकरण प्रदान करता है।
किसी भी मॉडल के साथ, यह आवश्यक है कि इसके प्रदर्शन का मूल्यांकन आपके विशिष्ट अनुप्रयोग के संदर्भ में किया जाए, संभवतः इसे अन्य एल्गोरिदम के साथ तुलना करके सुनिश्चित किया जाए कि परिणाम उत्कृष्ट हों।

कीवर्ड्स: Gaussian Naive Bayes, Naive Bayes classifier, machine learning, classification algorithms, Python implementation, Bayesian statistics, probabilistic models, data science, predictive modeling.