S15L02 – समायोजित आर-वर्ग

प्रतिगमन विश्लेषण में समायोजित R-स्क्वेयर्ड को समझना: एक संपूर्ण मार्गदर्शिका

सामग्री तालिका

  1. R-स्क्वेयर्ड का परिचय
  2. R-स्क्वेयर्ड की सीमाएं
  3. समायोजित R-स्क्वेयर्ड क्या है?
  4. समायोजित R-स्क्वेयर्ड का सूत्र
  5. R-स्क्वेयर्ड को क्यों दंडित करें?
  6. समायोजित R-स्क्वेयर्ड की गणना: चरण-दर-चरण
  7. व्यावहारिक उदाहरण
  8. समायोजित R-स्क्वेयर्ड बनाम R-स्क्वेयर्ड
  9. समायोजित R-स्क्वेयर्ड का उपयोग कब करें
  10. निष्कर्ष
  11. आगे पढ़ने के लिए

R-स्क्वेयर्ड का परिचय

R-स्क्वेयर्ड (R²) एक सांख्यिकीय माप है जो प्रतिगमन मॉडल में एक स्वतंत्र चर या चर समूह द्वारा एक आश्रित चर के वेरिएंस के अनुपात का प्रतिनिधित्व करता है। सरल शब्दों में, यह संकेत देता है कि डेटा प्रतिगमन मॉडल में कितनी अच्छी तरह फिट बैठता है।

R-स्क्वेयर्ड का सूत्र:

R² का मान 1 के करीब होने का अर्थ है कि मॉडल वेरिएंस का बड़ा हिस्सा समझाता है, जबकि 0 के करीब मान इसके विपरीत को दर्शाता है।

R-स्क्वेयर्ड की सीमाएं

हालाँकि R-स्क्वेयर्ड एक मूल्यवान मीट्रिक है, इसकी कुछ सीमाएं हैं:

  • ओवरफिटिंग: जैसे-जैसे मॉडल में अधिक पूर्वानुमानक जोड़े जाते हैं, R² हमेशा बढ़ता है, भले ही वे पूर्वानुमानक अप्रासंगिक हों। इससे ओवरफिटिंग हो सकती है, जहाँ मॉडल प्रशिक्षण डेटा पर अच्छा प्रदर्शन करता है लेकिन अनदेखे डेटा पर खराब प्रदर्शन करता है।
  • कारण संबंध का संकेत नहीं: उच्च R² चर के बीच कारण संबंध का संकेत नहीं देता।
  • मॉडल जटिलता का ख्याल नहीं रखता: R² मॉडल में पूर्वानुमानकों की संख्या पर विचार नहीं करता, जिससे मॉडल मूल्यांकन में भ्रम पैदा हो सकता है।

इन सीमाओं को दूर करने के लिए, समायोजित R-स्क्वेयर्ड पेश किया गया था।

समायोजित R-स्क्वेयर्ड क्या है?

समायोजित R-स्क्वेयर्ड (समायोजित R²) R² मान को मॉडल में पूर्वानुमानकों की संख्या को डेटा बिंदुओं की संख्या के सापेक्ष जोड़कर संशोधित करता है। यह चर जोड़ने के लिए समायोजन करता है, जो विशेष रूप से बहु-प्रतिगमन परिदृश्यों में मॉडल के प्रदर्शन का अधिक सटीक माप प्रदान करता है।

  • प्रमुख विशेषताएं:
  • अनावश्यक पूर्वानुमानकों के जोड़ को दंडित करता है।
  • यदि जोड़े गए पूर्वानुमानक मॉडल में पर्याप्त सुधार नहीं करते हैं तो यह कम हो सकता है।
  • मॉडल की प्रभावशीलता का एक अधिक संतुलित दृश्य प्रदान करता है।

समायोजित R-स्क्वेयर्ड का सूत्र

समायोजित R-स्क्वेयर्ड का गणितीय प्रतिनिधित्व निम्नानुसार है:

जहां: – \( R’ \) = समायोजित R-स्क्वेयर्ड – \( R^2 \) = R-स्क्वेयर्ड – \( n \) = नमूने का आकार – \( p \) = पूर्वानुमानकों की संख्या

वैकल्पिक प्रतिनिधित्व:

यह सूत्र दर्शाता है कि समायोजित R² पूर्वानुमानकों की संख्या \( p \) के बढ़ने पर कैसे कम होता है, विशेष रूप से यदि वे पूर्वानुमानक वेरिएंस को समझाने में महत्वपूर्ण योगदान नहीं करते हैं।

R-स्क्वेयर्ड को क्यों दंडित करें?

समायोजित R² सूत्र में R-स्क्वेयर्ड को दंडित करने का मुख्य कारण ओवरफिटिंग को रोकना है। जब प्रतिगमन मॉडल में अधिक पूर्वानुमानक जोड़े जाते हैं:

  • दंड के बिना: R² अपरिहार्य रूप से बढ़ेगा, भले ही नए पूर्वानुमानक अप्रासंगिक हों।
  • दंड के साथ (समायोजित R²): यह मीट्रिक पूर्वानुमानकों की संख्या को ध्यान में रखता है, यह सुनिश्चित करते हुए कि केवल वे चर जो मॉडल में सार्थक रूप से योगदान करते हैं, समायोजित R² मान को बढ़ाएं।

यह तंत्र यह सुनिश्चित करता है कि मॉडल यथासंभव सरल बना रहे जबकि डेटा में परिवर्तनीयता को प्रभावी ढंग से समझाया जा सके।

समायोजित R-स्क्वेयर्ड की गणना: चरण-दर-चरण

आइए एक उदाहरण के साथ समायोजित R-स्क्वेयर्ड की गणना करें।

  1. R-स्क्वेयर्ड (R²) की गणना करें:
    • कुल वर्गों का योग (\( SS_{\text{tot}} \)) और अवशेषों का वर्गों का योग (\( SS_{\text{res}} \)) निकालें।
    • सूत्र का उपयोग करें: \( R^2 = 1 – \frac{SS_{\text{res}}}{SS_{\text{tot}}} \)।
  2. नमूने का आकार और पूर्वानुमानकों की संख्या निर्धारित करें:
    • \( n \) (अवलोकनों की संख्या) और \( p \) (पूर्वानुमानकों की संख्या) की पहचान करें।
  3. समायोजित R-स्क्वेयर्ड सूत्र लागू करें:
    • मानों को सूत्र में प्रतिस्थापित करें:

व्यावहारिक उदाहरण

परिदृश्य:

मान लीजिए आप विभिन्न विशेषताओं के आधार पर घर की कीमतों की भविष्यवाणी करने के लिए एक रैखिक प्रतिगमन मॉडल बना रहे हैं। मॉडल फिट करने के बाद, आप प्राप्त करते हैं:

  • R-स्क्वेयर्ड (R²): 0.85
  • अवलोकनों की संख्या (n): 100
  • पूर्वानुमानकों की संख्या (p): 5

गणना:

व्याख्या:

समायोजित R² का मान लगभग 0.842 दर्शाता है कि पूर्वानुमानकों की संख्या का ध्यान रखने के बाद, मॉडल घर की कीमतों में 84.2% वेरिएंस को समझाता है। मूल R² मान से यह हल्की कमी मॉडल की जटिलता के लिए समायोजन का संकेत देती है।

समायोजित R-स्क्वेयर्ड बनाम R-स्क्वेयर्ड

विशेषता R-स्क्वेयर्ड (R²) समायोजित R-स्क्वेयर्ड (R’)
पूर्वानुमानकों को ध्यान में रखता है नहीं हाँ
पूर्वानुमानकों को जोड़ने पर संवेदनशीलता हमेशा बढ़ता है या समान रहता है पूर्वानुमानक के महत्व के आधार पर बढ़ या कम हो सकता है
उपयोग का मामला समान संख्या के पूर्वानुमानकों वाले मॉडलों की तुलना के लिए सबसे अच्छा विभिन्न संख्या के पूर्वानुमानकों वाले मॉडलों की तुलना के लिए सबसे अच्छा
जटिलता के लिए दंड कोई नहीं अनावश्यक जटिलता को हतोत्साहित करने के लिए दंड लागू करता है

मुख्य निष्कर्ष: जबकि R² मॉडल फिट का एक बुनियादी माप प्रदान करता है, समायोजित R² पूर्वानुमानकों की संख्या को ध्यान में रखकर अधिक सूक्ष्म मूल्यांकन प्रदान करता है, जिससे यह मॉडल चयन और तुलना के लिए अनमोल बन जाता है।

समायोजित R-स्क्वेयर्ड का उपयोग कब करें

समायोजित R-स्क्वेयर्ड विशेष रूप से निम्नलिखित परिदृश्यों में उपयोगी है:

  • बहु-प्रतिगमन मॉडल: जब कई पूर्वानुमानकों के साथ काम कर रहे हों, तो समायोजित R² मॉडल की सच्ची व्याख्यात्मक शक्ति का आकलन करने में मदद करता है।
  • मॉडल तुलना: यह विभिन्न संख्या के पूर्वानुमानकों वाले मॉडलों के बीच निष्पक्ष तुलना की अनुमति देता है।
  • ओवरफिटिंग को रोकना: अत्यधिक जटिल मॉडलों को दंडित करके, यह सरल मॉडलों के चयन में मदद करता है जो अनदेखे डेटा पर बेहतर सामान्यीकृत होते हैं।

निष्कर्ष

प्रतिगमन मीट्रिक की सूक्ष्मताओं को समझना मजबूत और विश्वसनीय सांख्यिकीय मॉडल बनाने के लिए महत्वपूर्ण है। जबकि R-स्क्वेयर्ड मॉडल फिट का आकलन करने के लिए एक आधार प्रदान करता है, समायोजित R-स्क्वेयर्ड पूर्वानुमानकों की संख्या को ध्यान में रखकर इस मूल्यांकन को बढ़ाता है, जिससे मॉडल की व्याख्यात्मक शक्ति का अधिक सटीक माप प्राप्त होता है। अपनी मॉडल मूल्यांकन टूलकिट में समायोजित R² को एकीकृत करके, आप अधिक सूचित निर्णय ले सकते हैं, यह सुनिश्चित करते हुए कि आपके प्रतिगमन मॉडल प्रभावी और कुशल दोनों हों।

आगे पढ़ने के लिए


संदर्भ:

  • “S15L02 – Adjusted R-Square.pptx” से लिप्यंतरण और सहायक सामग्री

Share your love