Translation:

डेटा साइंस में डेटा संतुलन: असंतुलित बनाम संतुलित डेटा सेट को समझना

सामग्री तालिका

डेटा संतुलन का परिचय
असंतुलित डेटा को समझना
संतुलित डेटा की व्याख्या
डेटा असंतुलन के निहितार्थ
डेटा संतुलन की तकनीकें
नाइव बेयस और असंतुलित डेटा
व्यावहारिक उदाहरण: ऑस्ट्रेलिया में वर्षा डेटा सेट
डेटा संतुलन को संभालने के लिए सर्वोत्तम प्रथाएँ
निष्कर्ष
संदर्भ

डेटा संतुलन का परिचय

डेटा साइंस में, डेटा संतुलन का मतलब है डेटा सेट के भीतर वर्गों या श्रेणियों का बराबर वितरण। एक संतुलित डेटा सेट सुनिश्चित करता है कि प्रत्येक वर्ग का प्रतिनिधित्व समान रूप से हो, जो प्रभावी और पक्षपातमुक्त मशीन लर्निंग मॉडलों के प्रशिक्षण के लिए महत्वपूर्ण है। इसके विपरीत, एक असंतुलित डेटा सेट में असमान प्रतिनिधित्व होता है, जहां कुछ वर्ग दूसरे वर्गों की तुलना में काफी अधिक होते हैं।

असंतुलित डेटा को समझना

असंतुलित डेटा तब होता है जब विभिन्न वर्गों में उदाहरणों की संख्या में काफी अंतर होता है। उदाहरण के लिए, एक द्विआधारी वर्गीकरण समस्या में, एक वर्ग डेटा का 90% हो सकता है, जबकि दूसरा केवल 10%। इस असमानता के कारण मॉडेल्स बहुसंख्यक वर्ग के प्रति पक्षपाती हो सकते हैं, जिससे अल्पसंख्यक वर्ग की उपेक्षा हो जाती है।

असंतुलित डेटा के संकेतक

वर्ग वितरण: प्रत्येक वर्ग में उदाहरणों की संख्या में महत्वपूर्ण अंतर।
प्रदर्शन मैट्रिक्स: उच्च सटीकता भ्रामक हो सकती है यदि मॉडल मुख्य रूप से बहुसंख्यक वर्ग की भविष्यवाणी करता है।
दृश्यकरण: असमान वर्ग अनुपात दिखाते हुए बार ग्राफ या पाई चार्ट।

प्रदर्शनीय उदाहरण:

import pandas as pd
import matplotlib.pyplot as plt

# Sample data
data = {'labels': ['No', 'Yes'], 'values': [110316, 31877]}
df = pd.DataFrame(data)

# Plotting
df.plot.bar(x='labels', y='values', legend=False)
plt.title('Class Distribution')
plt.xlabel('Classes')
plt.ylabel('Number of Instances')
plt.show()

import pandas as pd

import matplotlib.pyplot as plt

# Sample data

data = {'labels': ['No', 'Yes'], 'values': [110316, 31877]}

df = pd.DataFrame(data)

# Plotting

df.plot.bar(x='labels', y='values', legend=False)

plt.title('Class Distribution')

plt.xlabel('Classes')

plt.ylabel('Number of Instances')

plt.show()

उपर्युक्त कोड ‘No’ और ‘Yes’ वर्गों के बीच असंतुलन को दर्शाने वाला बार चार्ट उत्पन्न करता है।

संतुलित डेटा की व्याख्या

एक संतुलित डेटा सेट सुनिश्चित करता है कि सभी वर्गों में उदाहरणों की संख्या समान या लगभग समान हो। यह संतुलन मॉडलों के प्रशिक्षण के लिए आवश्यक है ताकि वे बिना पक्षपात के सभी वर्गों की सटीक भविष्यवाणी कर सकें।

संतुलित डेटा की विशेषताएँ:

समान वर्ग प्रतिनिधित्व: प्रत्येक वर्ग में समान संख्या में उदाहरण होते हैं।
विश्वसनीय प्रदर्शन मैट्रिक्स: प्रिशन, रिकॉल, और F1-स्कोर जैसे मैट्रिक्स मॉडल के वास्तविक प्रदर्शन को अधिक सटीक रूप से प्रदर्शित करते हैं।
बेहतर मॉडल सामान्यीकरण: संतुलित डेटा पर प्रशिक्षित मॉडल अप्रत्याशित डेटा पर अच्छे से सामान्यीकृत होते हैं।

उदाहरण तुलना:

थोड़ा असंतुलित:
- क्लास A: 55 उदाहरण
- क्लास B: 65 उदाहरण
- अंतर नगण्य है, अक्सर इसे संतुलित माना जाता है।
बहुत असंतुलित:
- क्लास A: 15 उदाहरण
- क्लास B: 25 उदाहरण
- महत्वपूर्ण अंतर जिससे संभावित मॉडल पक्षपात हो सकता है।

डेटा असंतुलन के निहितार्थ

डेटा असंतुलन का मशीन लर्निंग मॉडलों पर कई प्रतिकूल प्रभाव हो सकते हैं:

बहुसंख्यक वर्ग की ओर पक्षपात: मॉडेल्स मुख्य रूप से बहुसंख्यक वर्ग की भविष्यवाणी कर सकते हैं, अल्पसंख्यक वर्ग की उपेक्षा करते हुए।
खराब सामान्यीकरण: मॉडल अप्रत्याशित डेटा पर अच्छा सामान्यीकरण नहीं कर पाता है, विशेष रूप से अल्पसंख्यक वर्गों के लिए।
भ्रामक सटीकता: उच्च सटीकता को केवल बहुसंख्यक वर्ग की भविष्यवाणी करके प्राप्त किया जा सकता है, बिना वास्तविक पैटर्न को समझे।

वास्तविक दुनिया की स्थिति:
चिकित्सा निदान में, यदि डेटा सेट का 99% स्वस्थ व्यक्तियों का है और केवल 1% रोगयुक्त व्यक्तियों का है, तो मॉडल सभी रोगियों को गलत तरीके से स्वस्थ के रूप में भविष्यवाणी कर सकता है, महत्वपूर्ण अल्पसंख्यक वर्ग को अनदेखा करते हुए।

डेटा संतुलन की तकनीकें

डेटा असंतुलन को संबोधित करने में कई तकनीकें शामिल होती हैं, जिन्हें व्यापक रूप से रीसैम्पलिंग तरीकों और एल्गोरिदमिक दृष्टिकोणों में वर्गीकृत किया जाता है।

1. रीसैम्पलिंग तरीके

a. अल्पसंख्यक वर्ग को ओवरसैम्पल करना

Synthetic Minority Over-sampling Technique (SMOTE): मौजूदा अल्पसंख्यक उदाहरणों के बीच इंटरपोलेट करके अल्पसंख्यक वर्ग के लिए सिंथेटिक नमूने उत्पन्न करता है।

from imblearn.over_sampling import SMOTE
smote = SMOTE()
X_resampled, y_resampled = smote.fit_resample(X, y)

from imblearn.over_sampling import SMOTE

smote = SMOTE()

X_resampled, y_resampled = smote.fit_resample(X, y)

b. बहुसंख्यक वर्ग को अंडरसैम्पल करना

बहुसंख्यक वर्ग के उदाहरणों की संख्या को अल्पसंख्यक वर्ग के अनुरूप कम करता है।

from imblearn.under_sampling import RandomUnderSampler
rus = RandomUnderSampler()
X_resampled, y_resampled = rus.fit_resample(X, y)

from imblearn.under_sampling import RandomUnderSampler

rus = RandomUnderSampler()

X_resampled, y_resampled = rus.fit_resample(X, y)

c. ओवर और अंडर सैम्पलिंग का संयोजन

क्लास को संतुलित करने के लिए अल्पसंख्यक वर्ग के उदाहरण बढ़ाकर और बहुसंख्यक वर्ग के उदाहरण घटाकर संतुलन स्थापित करता है।

2. एल्गोरिदमिक दृष्टिकोण

a. लागत-संवेदनशील सीखना

अल्पसंख्यक वर्ग को उच्च गलत वर्गीकरण लागत प्रदान करता है, जिससे मॉडल इसे अधिक ध्यान देता है।

b. एन्सेम्बल विधियाँ

बैगिंग और बूस्टिंग जैसी तकनीकों को असंतुलित डेटा सेटों को प्रभावी ढंग से संभालने के लिए अनुकूलित किया जा सकता है।

नाइव बेयस और असंतुलित डेटा

नाइव बेयस क्लासिफायर एक संभाव्यवादी मॉडल है जो बेयस के प्रमेय पर आधारित है और विशेषताओं की स्वतंत्रता की धारणा रखता है। इसके अंतर्निहित फायदों में से एक यह है कि यह पूर्व संभावनाओं को ध्यान में रखते हुए असंतुलित डेटा सेटों को संभालने में सक्षम है।

असंतुलित परिस्थितियों में नाइव बेयस के लाभ:

पूर्व संभावनाओं को संभालता है: भले ही डेटा सेट असंतुलित हो, नाइव बेयस प्रत्येक वर्ग की संभावना को शामिल करता है, जिससे बहुसंख्यक वर्ग की तरफ झुकाव को कम करता है।
सरलता और कार्यकुशलता: कम कंप्यूटेशनल पावर की आवश्यकता होती है, जिससे यह बड़े असंतुलित डेटा सेटों के लिए उपयुक्त होता है।

सावधानी:
हालांकि नाइव बेयस कुछ मॉडलों की तुलना में असंतुलन को बेहतर ढंग से संभालता है, अत्यधिक असंतुलन (जैसे, 99.9% बनाम 0.1%) अभी भी चुनौतियाँ पैदा कर सकते हैं, जिससे अल्पसंख्यक वर्ग के लिए सिंथेटिक डेटा उत्पन्न करने पर ओवरफिटिंग हो सकती है।

व्यावहारिक उदाहरण: ऑस्ट्रेलिया में वर्षा डेटा सेट

आइए डेटा असंतुलन को समझने और इसे संबोधित करने के लिए ऑस्ट्रेलिया में वर्षा डेटा सेट का उपयोग करके एक व्यावहारिक उदाहरण देखें।

डेटा सेट का अवलोकन

स्रोत: Kaggle – Weather Dataset Rattle Package
विशेषताएँ: विभिन्न मौसम संबंधित गुण शामिल हैं।
लक्ष्य परिवर्तनशील: RainTomorrow (Yes/No)

वर्ग वितरण का विश्लेषण

import pandas as pd
import matplotlib.pyplot as plt

# Load dataset
data = pd.read_csv('weatherAUS.csv')

# Separate features and target
X = data.iloc[:, :-1]
y = data.iloc[:, -1]

# Count of each class
count = y.value_counts()

# Plotting
count.plot.bar()
plt.title('RainTomorrow Class Distribution')
plt.xlabel('Classes')
plt.ylabel('Number of Instances')
plt.show()

import pandas as pd

import matplotlib.pyplot as plt

# Load dataset

data = pd.read_csv('weatherAUS.csv')

# Separate features and target

X = data.iloc[:, :-1]

y = data.iloc[:, -1]

# Count of each class

count = y.value_counts()

# Plotting

count.plot.bar()

plt.title('RainTomorrow Class Distribution')

plt.xlabel('Classes')

plt.ylabel('Number of Instances')

plt.show()

बार चार्ट ‘No’ वर्ग (110,316 उदाहरण) और ‘Yes’ वर्ग (31,877 उदाहरण) के बीच महत्वपूर्ण असंतुलन को दर्शाता है।

डेटा सेट में असंतुलन को संभालना

असंतुलन को देखते हुए, यह महत्वपूर्ण है कि SMOTE या अंडरसैम्पलिंग जैसी तकनीकों को लागू किया जाए ताकि एक संतुलित डेटा सेट बनाया जा सके, यह सुनिश्चित करते हुए कि इस डेटा पर प्रशिक्षित मशीन लर्निंग मॉडेल निष्पक्ष हों और सभी वर्गों में इष्टतम प्रदर्शन करें।

डेटा संतुलन को संभालने के लिए सर्वोत्तम प्रथाएँ

अपने डेटा को समझें:
- क्लास वितरण को विज़ुअलाइज़ और समझने के लिए अन्वेषणात्मक डेटा विश्लेषण (EDA) करें।
- असंतुलन की डिग्री और इसके संभावित प्रभाव को पहचानें।
उपयुक्त तकनीकों का चयन करें:
- डेटा सेट के आकार और समस्या की प्रकृति के आधार पर सावधानीपूर्वक रीसैम्पलिंग विधियों को लागू करें।
- आवश्यकतानुसार इष्टतम संतुलन प्राप्त करने के लिए कई तकनीकों को जोड़ें।
उपयुक्त मैट्रिक्स के साथ मूल्यांकन करें:
- सटीकता पर ही निर्भर रहने के बजाय प्रिशन, रिकॉल, F1-स्कोर, और ROC-AUC जैसे मैट्रिक्स का उपयोग करें।
- ये मैट्रिक्स मॉडल के प्रदर्शन की बेहतर समझ प्रदान करते हैं, विशेष रूप से अल्पसंख्यक वर्गों पर।
ओवरफिटिंग से बचें:
- विशेष रूप से सिंथेटिक तरीकों का उपयोग करके ओवरसैम्पल करते समय सुनिश्चित करें कि मॉडल अल्पसंख्यक वर्ग पर ओवरफिट न हो।
- मॉडल की सामान्यीकरण क्षमता का आकलन करने में क्रॉस-वैलिडेशन मदद कर सकती है।
डोमेन ज्ञान का लाभ उठाएं:
- क्लास वितरण और प्रत्येक वर्ग के महत्व के बारे में सूचित निर्णय लेने के लिए डोमेन अंतर्दृष्टि को शामिल करें।

निष्कर्ष

डेटा संतुलन डेटा पूर्वप्रसंस्करण पाइपलाइन में एक मौलिक कदम है, जो मशीन लर्निंग मॉडलों के प्रदर्शन और विश्वसनीयता को महत्वपूर्ण रूप से प्रभावित करता है। असंतुलित और संतुलित डेटा सेटों की बारीकियों को समझना, साथ ही प्रभावी संतुलन तकनीकों का अनुप्रयोग, डेटा वैज्ञानिकों को सटीक और निष्पक्ष मॉडेल बनाने में सक्षम बनाता है। नाइव बेयस जैसे टूल्स असंतुलित डेटा को संभालने में अंतर्निहित लाभ प्रदान करते हैं, लेकिन वास्तविक दुनिया की डेटा विज्ञान परियोजनाओं में सफलता के लिए EDA, सोची-समझी रीसैम्पलिंग, और सावधानीपूर्वक मूल्यांकन सहित एक व्यापक दृष्टिकोण आवश्यक रहता है।

संदर्भ

इन सिद्धांतों का पालन करने और सही टूल्स का उपयोग करने से, डेटा वैज्ञानिक डेटा असंतुलन द्वारा उत्पन्न चुनौतियों को कुशलतापूर्वक नेविगेट कर सकते हैं, सुनिश्चित करते हुए कि मॉडेल परिणाम मजबूत और निष्पक्ष हैं।