S10L01 – एंट्रॉपी और गिन्नी का मापन

html
निर्णय वृक्ष को समझना: एंट्रॉपी, गिनी अशुद्धि, और व्यावहारिक अनुप्रयोग

अनुक्रमणिका

निर्णय वृक्ष क्या है?
निर्णय वृक्ष के मुख्य घटक
निर्णय वृक्ष निर्णय कैसे लेते हैं
निर्णय वृक्षों में अनिश्चितता को संभालना
एंट्रॉपी: अनिश्चितता का मापन
गिनी अशुद्धि: एक सरल विकल्प
निर्णय वृक्षों के व्यावहारिक अनुप्रयोग
निष्कर्ष




निर्णय वृक्ष क्या है?

एक निर्णय वृक्ष मशीन लर्निंग में विभिन्न स्थितियों के आधार पर निर्णय लेने के लिए उपयोग किया जाने वाला एक ग्राफिकल प्रतिनिधित्व है। यह एक जटिल समस्या को छोटे, अधिक प्रबंधनीय भागों में विभाजित करके मानव निर्णय-निर्माण की नकल करता है। प्रत्येक आंतरिक नोड एक विशेष विशेषता के आधार पर एक निर्णय बिंदु का प्रतिनिधित्व करता है, जबकि प्रत्येक पत्ती नोड परिणाम या वर्गीकरण को दर्शाता है।

उदाहरण: बैडमिंटन खेलने का निर्णय वृक्ष

एक सरल परिदृश्य पर विचार करें जहां आप सप्ताहांत और मौसम की स्थितियों के आधार पर बैडमिंटन खेलने का निर्णय लेते हैं:


रूट नोड: क्या यह सप्ताहांत है?
  
    हाँ: मौसम की जांच करें।
    नहीं: बैडमिंटन न खेलें।
  

चाइल्ड नोड: क्या धूप है?
  
    हाँ: बैडमिंटन खेलें।
    नहीं: बैडमिंटन न खेलें।
  



यह उदाहरण दर्शाता है कि कैसे एक निर्णय वृक्ष विभिन्न स्थितियों के माध्यम से नेविगेट करके एक निर्णय पर पहुंचता है।

निर्णय वृक्ष के मुख्य घटक

निर्णय वृक्ष के संरचना को समझना उन्हें प्रभावी ढंग से बनाने और उसकी व्याख्या करने के लिए महत्वपूर्ण है।

1. रूट नोड


परिभाषा: निर्णय वृख में सबसे ऊपर का नोड जिससे सभी निर्णय शाखाएँ निकलती हैं।
उदाहरण: हमारे बैडमिंटन उदाहरण में, "क्या यह सप्ताहांत है?" रूट नोड है।


2. पैरेंट और चाइल्ड नोड्स


पैरेंट नोड: एक ऊपरी स्तर का नोड जो एक या अधिक चाइल्ड नोड्स में विभाजित होता है।
चाइल्ड नोड: एक नोड जो सीधे पैरेंट नोड से उतरता है।
उदाहरण: "क्या धूप है?" "क्या यह सप्ताहांत है?" का चाइल्ड नोड है।


3. लीफ नोड्स


परिभाषा: अंतिम नोड्स जो अंतिम परिणाम या निर्णय को दर्शाते हैं।
उदाहरण: "बैडमिंटन खेलें" या "बैडमिंटन नहीं।"


4. एजेस


परिभाषा: नोड्स के बीच के कनेक्शन, एक निर्णय से दूसरे निर्णय के प्रवाह को प्रस्तुत करते हैं।
उदाहरण: "क्या यह सप्ताहांत है?" से "हाँ" या "नहीं" की ओर इशारा करने वाले तीर।


5. सिब्लिंग्स


परिभाषा: नोड्स जो एक ही पैरेंट को साझा करते हैं।
उदाहरण: "हाँ" और "नहीं" शाखाएं "क्या यह सप्ताहांत है?" नोड से उत्पन्न होती हैं।


निर्णय वृक्ष निर्णय कैसे लेते हैं

निर्णय वृक्ष सबसे महत्वपूर्ण या प्रभुत्व वाले नोड्स का मूल्यांकन करके काम करते हैं। प्रभुत्व आमतौर पर उन मेट्रिक्स द्वारा निर्धारित किया जाता है जो डेटा को प्रभावी रूप से विभाजित करने की नोड की क्षमता का आकलन करते हैं। एक बार मार्ग चुन लिया जाता है, प्रक्रिया एकतरफा होती है, जिसका अर्थ है कि निर्णय क्रमिक रूप से लिए जाते हैं बिना पिछले नोड्स पर पुनः विचार किए।

प्रभुत्व वाले नोड्स और रूट चयन

रूट नोड का चयन उसके निर्णय-निर्माण में प्रभुत्व के आधार पर किया जाता है। हमारे उदाहरण में, "क्या यह सप्ताहांत है?" बैडमिंटन खेलने का निर्णय लेने में एक प्रभुत्व कारक है, जिससे यह एक आदर्श रूट नोड बनता है।

निर्णय वृक्षों में अनिश्चितता को संभालना

वास्तविक दुनिया के परिदृश्यों में अक्सर अनिश्चितता शामिल होती है। उदाहरण के लिए, "आंशिक रूप से धूप" जैसी मौसम की स्थितियाँ निर्णय-निर्माण में अस्पष्टता पैदा करती हैं। इसे संबोधित करने के लिए, निर्णय वृक्ष अनिश्चितता को मापने और तदनुसार निर्णय पथ का मार्गदर्शन करने के उपायों को शामिल करते हैं।

अनिश्चितता का मापन: एंट्रॉपी और गिनी अशुद्धि

अनिश्चितता को मापने के लिए निर्णय वृक्षों में दो प्राथमिक मेट्रिक्स का उपयोग किया जाता है:


एंट्रॉपी: सूचना सिद्धांत से व्युत्पन्न, यह अप्रत्याशितता या विकार की मात्रा को मापता है।
गिनी अशुद्धि: किसी भी यादृच्छिक चयनित तत्व को गलत वर्गीकृत करने की संभावना को मापता है।


एंट्रॉपी: अनिश्चितता का मापन

एंट्रॉपी सूचना सिद्धांत में एक मौलिक अवधारणा है जिसका उपयोग डेटा सेट में अनिश्चितता या अशुद्धि को मापने के लिए किया जाता है।

एंट्रॉपी को समझना


सूत्र:
  



		
		
			
			
Java
			
			H(X) = -p log<sub>2</sub>(p) - q log<sub>2</sub>(q)
			
				
					
				
					1
				
						H(X) = -p log<sub>2</sub>(p) - q log<sub>2</sub>(q)
					
				
			
		


  जहाँ:
  
    p एक परिणाम की संभावना है।
    q वैकल्पिक परिणाम की संभावना है।
  

व्याख्या:
  
    उच्च एंट्रॉपी (1.0): अधिकतम अनिश्चितता (उदा., 50-50 संभावना वाला निष्पक्ष सिक्का टॉस)।
    निम्न एंट्रॉपी (0.0): कोई अनिश्चितता नहीं (उदा., सप्ताहांत पर बैडमिंटन खेलने की 100% संभावना)।
  



उदाहरण: सिक्का उछालना

एक निष्पक्ष सिक्के में:


p = 0.5 (सिर)
q = 0.5 (पूंछ)






		
		
			
			
Java
			
			H(X) = -0.5 log<sub>2</sub>(0.5) - 0.5 log<sub>2</sub>(0.5) = 1.0
			
				
					
				
					1
				
						H(X) = -0.5 log<sub>2</sub>(0.5) - 0.5 log<sub>2</sub>(0.5) = 1.0
					
				
			
		



व्यावहारिक अनुप्रयोग: निर्णय वृक्ष विभाजन

एंट्रॉपी का उपयोग करके, निर्णय वृक्ष सबसे अच्छी विशेषता का विभाजन निर्धारित करते हैं जिससे सूचना लाभ की गणना होती है, जो डेटा सेट को एक विशेषता के आधार पर विभाजित करने के बाद एंट्रॉपी में कमी होती है।

पायथन कार्यान्वयन





		
		
			
			
Java
			
			import math

def calculate_entropy(p):
    if p == 0 or p == 1:
        return 0
    return -p * math.log2(p) - (1 - p) * math.log2(1 - p)

# Example: Coin Toss
prob_head = 0.5
entropy = calculate_entropy(prob_head)
print(f"Entropy: {entropy}")  # Output: Entropy: 1.0
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
				
						import math
 
def calculate_entropy(p):
    if p == 0 or p == 1:
        return 0
    return -p * math.log2(p) - (1 - p) * math.log2(1 - p)
 
# Example: Coin Toss
prob_head = 0.5
entropy = calculate_entropy(prob_head)
print(f"Entropy: {entropy}")  # Output: Entropy: 1.0
					
				
			
		



गिनी अशुद्धि: एक सरल विकल्प

जबकि एंट्रॉपी अप्रत्याशितता का एक मजबूत मापन प्रदान करता है, गिनी अशुद्धि एक गणनात्मक रूप से सरल विकल्प प्रदान करता है।

गिनी अशुद्धि को समझना


सूत्र:
  



		
		
			
			
Java
			
			G(X) = 1 - (p<sup>2</sup> + q<sup>2</sup>)
			
				
					
				
					1
				
						G(X) = 1 - (p<sup>2</sup> + q<sup>2</sup>)
					
				
			
		


  जहाँ:
  
    p और q संबंधित परिणामों की संभावनाएँ हैं।
  

व्याख्या:
  
    उच्च गिनी अशुद्धि: गलत वर्गीकरण की उच्च संभावना।
    निम्न गिनी अशुद्धि: गलत वर्गीकरण की कम संभावना।
  



एंट्रॉपी के साथ तुलना



मेट्रिक
सूत्र
सीमा


एंट्रॉपी
H(X) = -p log₂(p) - q log₂(q)
0 से 1


गिनी अशुद्धि
G(X) = 1 - (p² + q²)
0 से 0.5



गिनी अशुद्धि की गणना करना आमतौर पर आसान और तेज होता है, जिससे यह कई मशीन लर्निंग एल्गोरिदम में एक लोकप्रिय विकल्प बन जाता है।

उदाहरण: सिक्का उछालना

एक निष्पक्ष सिक्के के लिए (p = 0.5):





		
		
			
			
Java
			
			G(X) = 1 - (0.5<sup>2</sup> + 0.5<sup>2</sup>) = 0.5
			
				
					
				
					1
				
						G(X) = 1 - (0.5<sup>2</sup> + 0.5<sup>2</sup>) = 0.5
					
				
			
		



पायथन कार्यान्वयन





		
		
			
			
Java
			
			def calculate_gini(p):
    return 1 - (p**2 + (1 - p)**2)

# Example: Coin Toss
prob_head = 0.5
gini = calculate_gini(prob_head)
print(f"Gini Impurity: {gini}")  # Output: Gini Impurity: 0.5
			
				
					
				
					1
2
3
4
5
6
7
				
						def calculate_gini(p):
    return 1 - (p**2 + (1 - p)**2)
 
# Example: Coin Toss
prob_head = 0.5
gini = calculate_gini(prob_head)
print(f"Gini Impurity: {gini}")  # Output: Gini Impurity: 0.5
					
				
			
		



निर्णय वृक्षों के व्यावहारिक अनुप्रयोग

निर्णय वृक्ष बहुमुखी होते हैं और विभिन्न क्षेत्रों में लागू किए जा सकते हैं:


स्वास्थ्य देखभाल: रोगों का निदान रोगी के लक्षणों और चिकित्सा इतिहास के आधार पर।
वित्त: क्रेडिट स्कोरिंग और जोखिम मूल्यांकन।
मार्केटिंग: ग्राहक विभाजन और लक्ष्यीकरण रणनीतियाँ।
इंजीनियरिंग: भविष्यसूचक रखरखाव और दोष निदान।
खुदरा: सूची प्रबंधन और बिक्री पूर्वानुमान।


श्रेणीबद्ध और संख्यात्मक डेटा दोनों को संभालने की उनकी क्षमता उन्हें कई वास्तविक दुनिया की समस्याओं के लिए एक पसंदीदा उपकरण बनाती है।

निष्कर्ष

निर्णय वृक्ष शक्तिशाली उपकरण हैं जो मशीन लर्निंग में निर्णय-निर्माण प्रक्रियाओं के लिए स्पष्ट और व्याख्येय मॉडलों की पेशकश करते हैं। एंट्रॉपी और गिनी अशुद्धि के मूल सिद्धांतों को समझकर, अभ्यासकर्ता विभिन्न प्रकार के अनुप्रयोगों के लिए प्रभावी ढंग से निर्णय वृख बना और अनुकूलित कर सकते हैं। चाहे आप मशीन लर्निंग में नए हों या अनुभवी पेशेवर, निर्णय वृख में महारत हासिल करना आपकी विश्लेषणात्मक क्षमताओं को काफी बढ़ा सकता है।



कीवर्ड्स: Decision Trees, Machine Learning, Entropy, Gini Impurity, Information Theory, Artificial Intelligence, Classification, Regression, Data Science, Predictive Modeling
मेट्रिक	सूत्र	सीमा
एंट्रॉपी	H(X) = -p log₂(p) - q log₂(q)	0 से 1
गिनी अशुद्धि	G(X) = 1 - (p² + q²)	0 से 0.5