S10L01 – एंट्रॉपी और गिन्नी का मापन

html

निर्णय वृक्ष को समझना: एंट्रॉपी, गिनी अशुद्धि, और व्यावहारिक अनुप्रयोग

अनुक्रमणिका

  1. निर्णय वृक्ष क्या है?
  2. निर्णय वृक्ष के मुख्य घटक
  3. निर्णय वृक्ष निर्णय कैसे लेते हैं
  4. निर्णय वृक्षों में अनिश्चितता को संभालना
  5. एंट्रॉपी: अनिश्चितता का मापन
  6. गिनी अशुद्धि: एक सरल विकल्प
  7. निर्णय वृक्षों के व्यावहारिक अनुप्रयोग
  8. निष्कर्ष

निर्णय वृक्ष क्या है?

एक निर्णय वृक्ष मशीन लर्निंग में विभिन्न स्थितियों के आधार पर निर्णय लेने के लिए उपयोग किया जाने वाला एक ग्राफिकल प्रतिनिधित्व है। यह एक जटिल समस्या को छोटे, अधिक प्रबंधनीय भागों में विभाजित करके मानव निर्णय-निर्माण की नकल करता है। प्रत्येक आंतरिक नोड एक विशेष विशेषता के आधार पर एक निर्णय बिंदु का प्रतिनिधित्व करता है, जबकि प्रत्येक पत्ती नोड परिणाम या वर्गीकरण को दर्शाता है।

उदाहरण: बैडमिंटन खेलने का निर्णय वृक्ष

एक सरल परिदृश्य पर विचार करें जहां आप सप्ताहांत और मौसम की स्थितियों के आधार पर बैडमिंटन खेलने का निर्णय लेते हैं:

  • रूट नोड: क्या यह सप्ताहांत है?
    • हाँ: मौसम की जांच करें।
    • नहीं: बैडमिंटन न खेलें।
  • चाइल्ड नोड: क्या धूप है?
    • हाँ: बैडमिंटन खेलें।
    • नहीं: बैडमिंटन न खेलें।

यह उदाहरण दर्शाता है कि कैसे एक निर्णय वृक्ष विभिन्न स्थितियों के माध्यम से नेविगेट करके एक निर्णय पर पहुंचता है।

निर्णय वृक्ष के मुख्य घटक

निर्णय वृक्ष के संरचना को समझना उन्हें प्रभावी ढंग से बनाने और उसकी व्याख्या करने के लिए महत्वपूर्ण है।

1. रूट नोड

  • परिभाषा: निर्णय वृख में सबसे ऊपर का नोड जिससे सभी निर्णय शाखाएँ निकलती हैं।
  • उदाहरण: हमारे बैडमिंटन उदाहरण में, "क्या यह सप्ताहांत है?" रूट नोड है।

2. पैरेंट और चाइल्ड नोड्स

  • पैरेंट नोड: एक ऊपरी स्तर का नोड जो एक या अधिक चाइल्ड नोड्स में विभाजित होता है।
  • चाइल्ड नोड: एक नोड जो सीधे पैरेंट नोड से उतरता है।
  • उदाहरण: "क्या धूप है?" "क्या यह सप्ताहांत है?" का चाइल्ड नोड है।

3. लीफ नोड्स

  • परिभाषा: अंतिम नोड्स जो अंतिम परिणाम या निर्णय को दर्शाते हैं।
  • उदाहरण: "बैडमिंटन खेलें" या "बैडमिंटन नहीं।"

4. एजेस

  • परिभाषा: नोड्स के बीच के कनेक्शन, एक निर्णय से दूसरे निर्णय के प्रवाह को प्रस्तुत करते हैं।
  • उदाहरण: "क्या यह सप्ताहांत है?" से "हाँ" या "नहीं" की ओर इशारा करने वाले तीर।

5. सिब्लिंग्स

  • परिभाषा: नोड्स जो एक ही पैरेंट को साझा करते हैं।
  • उदाहरण: "हाँ" और "नहीं" शाखाएं "क्या यह सप्ताहांत है?" नोड से उत्पन्न होती हैं।

निर्णय वृक्ष निर्णय कैसे लेते हैं

निर्णय वृक्ष सबसे महत्वपूर्ण या प्रभुत्व वाले नोड्स का मूल्यांकन करके काम करते हैं। प्रभुत्व आमतौर पर उन मेट्रिक्स द्वारा निर्धारित किया जाता है जो डेटा को प्रभावी रूप से विभाजित करने की नोड की क्षमता का आकलन करते हैं। एक बार मार्ग चुन लिया जाता है, प्रक्रिया एकतरफा होती है, जिसका अर्थ है कि निर्णय क्रमिक रूप से लिए जाते हैं बिना पिछले नोड्स पर पुनः विचार किए।

प्रभुत्व वाले नोड्स और रूट चयन

रूट नोड का चयन उसके निर्णय-निर्माण में प्रभुत्व के आधार पर किया जाता है। हमारे उदाहरण में, "क्या यह सप्ताहांत है?" बैडमिंटन खेलने का निर्णय लेने में एक प्रभुत्व कारक है, जिससे यह एक आदर्श रूट नोड बनता है।

निर्णय वृक्षों में अनिश्चितता को संभालना

वास्तविक दुनिया के परिदृश्यों में अक्सर अनिश्चितता शामिल होती है। उदाहरण के लिए, "आंशिक रूप से धूप" जैसी मौसम की स्थितियाँ निर्णय-निर्माण में अस्पष्टता पैदा करती हैं। इसे संबोधित करने के लिए, निर्णय वृक्ष अनिश्चितता को मापने और तदनुसार निर्णय पथ का मार्गदर्शन करने के उपायों को शामिल करते हैं।

अनिश्चितता का मापन: एंट्रॉपी और गिनी अशुद्धि

अनिश्चितता को मापने के लिए निर्णय वृक्षों में दो प्राथमिक मेट्रिक्स का उपयोग किया जाता है:

  • एंट्रॉपी: सूचना सिद्धांत से व्युत्पन्न, यह अप्रत्याशितता या विकार की मात्रा को मापता है।
  • गिनी अशुद्धि: किसी भी यादृच्छिक चयनित तत्व को गलत वर्गीकृत करने की संभावना को मापता है।

एंट्रॉपी: अनिश्चितता का मापन

एंट्रॉपी सूचना सिद्धांत में एक मौलिक अवधारणा है जिसका उपयोग डेटा सेट में अनिश्चितता या अशुद्धि को मापने के लिए किया जाता है।

एंट्रॉपी को समझना

  • सूत्र:

    जहाँ:

    • p एक परिणाम की संभावना है।
    • q वैकल्पिक परिणाम की संभावना है।
  • व्याख्या:
    • उच्च एंट्रॉपी (1.0): अधिकतम अनिश्चितता (उदा., 50-50 संभावना वाला निष्पक्ष सिक्का टॉस)।
    • निम्न एंट्रॉपी (0.0): कोई अनिश्चितता नहीं (उदा., सप्ताहांत पर बैडमिंटन खेलने की 100% संभावना)।

उदाहरण: सिक्का उछालना

एक निष्पक्ष सिक्के में:

  • p = 0.5 (सिर)
  • q = 0.5 (पूंछ)

व्यावहारिक अनुप्रयोग: निर्णय वृक्ष विभाजन

एंट्रॉपी का उपयोग करके, निर्णय वृक्ष सबसे अच्छी विशेषता का विभाजन निर्धारित करते हैं जिससे सूचना लाभ की गणना होती है, जो डेटा सेट को एक विशेषता के आधार पर विभाजित करने के बाद एंट्रॉपी में कमी होती है।

पायथन कार्यान्वयन

गिनी अशुद्धि: एक सरल विकल्प

जबकि एंट्रॉपी अप्रत्याशितता का एक मजबूत मापन प्रदान करता है, गिनी अशुद्धि एक गणनात्मक रूप से सरल विकल्प प्रदान करता है।

गिनी अशुद्धि को समझना

  • सूत्र:

    जहाँ:

    • p और q संबंधित परिणामों की संभावनाएँ हैं।
  • व्याख्या:
    • उच्च गिनी अशुद्धि: गलत वर्गीकरण की उच्च संभावना।
    • निम्न गिनी अशुद्धि: गलत वर्गीकरण की कम संभावना।

एंट्रॉपी के साथ तुलना

मेट्रिक सूत्र सीमा
एंट्रॉपी H(X) = -p log2(p) - q log2(q) 0 से 1
गिनी अशुद्धि G(X) = 1 - (p2 + q2) 0 से 0.5

गिनी अशुद्धि की गणना करना आमतौर पर आसान और तेज होता है, जिससे यह कई मशीन लर्निंग एल्गोरिदम में एक लोकप्रिय विकल्प बन जाता है।

उदाहरण: सिक्का उछालना

एक निष्पक्ष सिक्के के लिए (p = 0.5):

पायथन कार्यान्वयन

निर्णय वृक्षों के व्यावहारिक अनुप्रयोग

निर्णय वृक्ष बहुमुखी होते हैं और विभिन्न क्षेत्रों में लागू किए जा सकते हैं:

  1. स्वास्थ्य देखभाल: रोगों का निदान रोगी के लक्षणों और चिकित्सा इतिहास के आधार पर।
  2. वित्त: क्रेडिट स्कोरिंग और जोखिम मूल्यांकन।
  3. मार्केटिंग: ग्राहक विभाजन और लक्ष्यीकरण रणनीतियाँ।
  4. इंजीनियरिंग: भविष्यसूचक रखरखाव और दोष निदान।
  5. खुदरा: सूची प्रबंधन और बिक्री पूर्वानुमान।

श्रेणीबद्ध और संख्यात्मक डेटा दोनों को संभालने की उनकी क्षमता उन्हें कई वास्तविक दुनिया की समस्याओं के लिए एक पसंदीदा उपकरण बनाती है।

निष्कर्ष

निर्णय वृक्ष शक्तिशाली उपकरण हैं जो मशीन लर्निंग में निर्णय-निर्माण प्रक्रियाओं के लिए स्पष्ट और व्याख्येय मॉडलों की पेशकश करते हैं। एंट्रॉपी और गिनी अशुद्धि के मूल सिद्धांतों को समझकर, अभ्यासकर्ता विभिन्न प्रकार के अनुप्रयोगों के लिए प्रभावी ढंग से निर्णय वृख बना और अनुकूलित कर सकते हैं। चाहे आप मशीन लर्निंग में नए हों या अनुभवी पेशेवर, निर्णय वृख में महारत हासिल करना आपकी विश्लेषणात्मक क्षमताओं को काफी बढ़ा सकता है।


कीवर्ड्स: Decision Trees, Machine Learning, Entropy, Gini Impurity, Information Theory, Artificial Intelligence, Classification, Regression, Data Science, Predictive Modeling

Share your love