आईरिस डेटासेट का एकविविध विश्लेषण: मशीन लर्निंग में फीचर चयन के लिए एक व्यापक मार्गदर्शिका

प्रकाशित: [तारीख]

Iris Dataset

परिचय

मशीन लर्निंग के क्षेत्र में, फीचर चयन कुशल और सटीक मॉडेल बनाने में महत्वपूर्ण भूमिका निभाता है। फीचर चयन के लिए एक मौलिक तकनीक एकविविध विश्लेषण है, जो लक्ष्य वेरिएबल की भविष्यवाणी में प्रत्येक फीचर के महत्व को निर्धारित करने के लिए प्रत्येक फीचर का व्यक्तिगत रूप से परीक्षण करती है। यह लेख मशीन लर्निंग और सांख्यिकी के क्षेत्र में एक आदर्श डेटासेट, आईरिस डेटासेट पर एकविविध विश्लेषण के अनुप्रयोग में गहराई से जाता है।

पाइथन की शक्तिशाली लाइब्रेरीज जैसे Pandas, Seaborn, और Matplotlib का उपयोग करके, हम विभिन्न आईरिस फूलों की प्रजातियों के वर्गीकरण के लिए सबसे प्रभावशाली फीचर्स की पहचान करने का तरीका जानेंगे। चाहे आप डेटा उत्साही हों या अनुभवी प्रैक्टिशनर, यह मार्गदर्शिका आपके एकविविध विश्लेषण की समझ और इसके व्यावहारिक कार्यान्वयन को बढ़ाने का लक्ष्य रखती है।

सामग्री सूची

आईरिस डेटासेट को समझना
एकविविध विश्लेषण क्या है?
पर्यावरण सेटअप करना
डेटा लोड करना और एक्सप्लोर करना
एकविविध विश्लेषण करना
- सेपल लंबाई
- सेपल चौड़ाई
- पेटल लंबाई
- पेटल चौड़ाई
परिणामों की व्याख्या
निष्कर्ष
संदर्भ

आईरिस डेटासेट को समझना

आईरिस डेटासेट एक क्लासिक डेटासेट है जिसे रोनाल्ड फिशर ने 1936 में प्रस्तुत किया था। इसमें तीन प्रजातियों में वर्गीकृत 150 आईरिस फूलों के नमूने शामिल हैं:

Iris Setosa
Iris Versicolor
Iris Virginica

प्रत्येक नमूने में चार फीचर्स होते हैं:

सेपल लंबाई (सेंटीमीटर में)
सेपल चौड़ाई (सेंटीमीटर में)
पेटल लंबाई (सेंटीमीटर में)
पेटल चौड़ाई (सेंटीमीटर में)

इस डेटासेट की सरलता और स्पष्टता इसे विभिन्न सांख्यिकीय और मशीन लर्निंग तकनीकों का पता लगाने के लिए एक उत्कृष्ट उम्मीदवार बनाती है।

एकविविध विश्लेषण क्या है?

एकविविध विश्लेषण में एक एकल वेरिएबल का परीक्षण शामिल होता है ताकि डेटा में संक्षेपण और पैटर्न खोजे जा सकें। मशीन लर्निंग के संदर्भ में, एकविविध विश्लेषण लक्ष्य वेरिएबल की भविष्यवाणी में प्रत्येक फीचर के महत्व को समझने में मदद करता है।

एकविविध विश्लेषण क्यों उपयोग करें?

फीचर चयन: मॉडल निर्माण के लिए सबसे प्रासंगिक फीचर्स की पहचान और चयन करना।
डेटा विज़ुअलाइज़ेशन: व्यक्तिगत फीचर्स के वितरण और फैलाव को समझना।
शोर में कमी: मॉडल के प्रदर्शन में सुधार के लिए अप्रासंगिक या अव्यवस्थित फीचर्स को समाप्त करना।

पर्यावरण सेटअप करना

विश्लेषण में गहराई से जाने से पहले, सुनिश्चित करें कि आपके पास आवश्यक उपकरण और लाइब्रेरीज इंस्टॉल हैं। हम एक इंटरैक्टिव कोडिंग पर्यावरण के लिए Jupyter Notebook का उपयोग करेंगे और निम्नलिखित पाइथन लाइब्रेरीज:

NumPy
Pandas
Matplotlib
Seaborn

यदि आपने पहले से नहीं किया है, तो आप pip का उपयोग करके इन लाइब्रेरीज को इंस्टॉल कर सकते हैं:

pip install numpy pandas matplotlib seaborn

1	pip install numpy pandas matplotlib seaborn

डेटा लोड करना और एक्सप्लोर करना

आईरिस डेटासेट को लोड करके और एक प्रारंभिक अन्वेषण करके शुरू करते हैं।

लाइब्रेरीज इम्पोर्ट करना

import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns

sns.set()  # सेट Seaborn डिफ़ॉल्ट स्टाइल

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

sns.set() # सेट Seaborn डिफ़ॉल्ट स्टाइल

डेटासेट लोड करना

# कॉलम नाम निर्धारित करें
names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']

# डेटासेट लोड करें
iris = pd.read_csv('iris.data', names=names)

# पहले कुछ पंक्तियों को प्रदर्शित करें
iris.head()

# कॉलम नाम निर्धारित करें

names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']

# डेटासेट लोड करें

iris = pd.read_csv('iris.data', names=names)

# पहले कुछ पंक्तियों को प्रदर्शित करें

iris.head()

आउटपुट:

sepal_length	sepal_width	petal_length	petal_width	class
5.1	3.5	1.4	0.2	Iris-setosa
4.9	3.0	1.4	0.2	Iris-setosa
4.7	3.2	1.3	0.2	Iris-setosa
4.6	3.1	1.5	0.2	Iris-setosa
5.0	3.6	1.4	0.2	Iris-setosa

एकविविध विश्लेषण करना

इस संदर्भ में एकविविध विश्लेषण में प्रत्येक फीचर का व्यक्तिगत रूप से विश्लेषण करना शामिल है ताकि यह आंका जा सके कि यह आईरिस प्रजातियों को वर्गीकृत करने में कितना प्रभावी है। हम Seaborn के FacetGrid और distplot का उपयोग करके तीनों वर्गों में प्रत्येक फीचर के वितरण को विज़ुअलाइज़ करेंगे।

1. सेपल लंबाई

sns.FacetGrid(data=iris, hue='class', height=5) \
    .map(sns.distplot, 'sepal_length') \
    .add_legend()
plt.show()

sns.FacetGrid(data=iris, hue='class', height=5) \

.map(sns.distplot, 'sepal_length') \

.add_legend()

plt.show()

विश्लेषण:

सेपल लंबाई का वितरण प्लॉट तीनों आईरिस प्रजातियों के बीच महत्वपूर्ण ओवरलैप दिखाता है। यह ओवरलैप संकेत करता है कि केवल सेपल लंबाई कक्षा के बीच भेदभाव के लिए विश्वसनीय फीचर नहीं हो सकती, विशेष रूप से Iris Versicolor और Iris Virginica के बीच।

2. सेपल चौड़ाई

sns.FacetGrid(data=iris, hue='class', height=5) \
    .map(sns.distplot, 'sepal_width') \
    .add_legend()
plt.show()

sns.FacetGrid(data=iris, hue='class', height=5) \

.map(sns.distplot, 'sepal_width') \

.add_legend()

plt.show()

विश्लेषण:

सेपल चौड़ाई का वितरण भी काफी ओवरलैप दिखाता है, विशेष रूप से Iris Versicolor और Iris Virginica के बीच। यह ओवरलैप यह सुझाव देता है कि सेपल चौड़ाई, सेपल लंबाई की तुलना में, वर्गीकरण उद्देश्यों के लिए और भी कम प्रभावी है।

3. पेटल लंबाई

sns.FacetGrid(data=iris, hue='class', height=5) \
    .map(sns.distplot, 'petal_length') \
    .add_legend()
plt.show()

sns.FacetGrid(data=iris, hue='class', height=5) \

.map(sns.distplot, 'petal_length') \

.add_legend()

plt.show()

विश्लेषण:

पेटल लंबाई के प्लॉट से स्पष्ट पृथक्करण दिखता है, विशेष रूप से Iris Setosa के लिए, जो स्पष्ट रूप से अन्य दो वर्गों से अलग है। जबकि Iris Versicolor और Iris Virginica के बीच कुछ ओवरलैप अभी भी है, पेटल लंबाई वर्गीकरण के लिए एक अधिक वादा करने वाला फीचर बनकर उभरता है।

4. पेटल चौड़ाई

sns.FacetGrid(data=iris, hue='class', height=5) \
    .map(sns.distplot, 'petal_width') \
    .add_legend()
plt.show()

sns.FacetGrid(data=iris, hue='class', height=5) \

.map(sns.distplot, 'petal_width') \

.add_legend()

plt.show()

विश्लेषण:

पेटल लंबाई की तरह, पेटल चौड़ाई भी Iris Setosa और अन्य दो प्रजातियों के बीच अच्छा पृथक्करण दिखाती है। हालाँकि Iris Versicolor और Iris Virginica के बीच थोड़ी ओवरलैप है, पेटल चौड़ाई अभी भी वर्गीकरण मॉडलों में उपयोग के लिए एक मजबूत उम्मीदवार बनी रहती है।

परिणामों की व्याख्या

एकविविध विश्लेषण के आधार पर:

सेपल चौड़ाई: वर्गों के बीच सबसे अधिक ओवरलैप के साथ सबसे खराब प्रदर्शन करने वाला। रैंक: 4
सेपल लंबाई: मध्यम ओवरलैप, विशेष रूप से Iris Versicolor और Iris Virginica के बीच। रैंक: 3
पेटल चौड़ाई: मामूली ओवरलैप के साथ अच्छा पृथक्करण। रैंक: 2
पेटल लंबाई: स्पष्ट भेदभाव के साथ सबसे अच्छा प्रदर्शन, विशेष रूप से Iris Setosa के लिए। रैंक: 1

फीचर चयन रणनीति

रैंकिंग के आधार पर, यह सलाह दी जाती है:

चयन करें: वर्गीकरण के लिए प्राथमिक फीचर्स के रूप में पेटल लंबाई और पेटल चौड़ाई।
निकालें: आयामीयता और संभावित शोर को कम करने के लिए सेपल लंबाई और सेपल चौड़ाई।

निष्कर्ष

एकविविध विश्लेषण फीचर चयन प्रक्रिया में एक मौलिक कदम के रूप में काम करता है, प्रत्येक फीचर की व्यक्तिगत भविष्यवाणीक क्षमता के बारे में अंतर्दृष्टि प्रदान करता है। इस तकनीक को आईरिस डेटासेट पर लागू करके, हमने पेटल लंबाई और पेटल चौड़ाई को तीन आईरिस प्रजातियों के वर्गीकरण के लिए सबसे प्रभावी फीचर्स के रूप में पहचान किया है।

यह विश्लेषण न केवल आयामीयता को कम करके मॉडल-निर्माण प्रक्रिया को सुगम बनाता है, बल्कि कम सूचनात्मक फीचर्स को समाप्त करके मॉडल के प्रदर्शन को भी बढ़ाता है। मशीन लर्निंग प्रैक्टिशनरों के रूप में, इस प्रकार की अन्वेषणात्मक तकनीकों का उपयोग करना मजबूत और सटीक भविष्यवाणीक मॉडलों के विकास के लिए महत्वपूर्ण है।

संदर्भ

यदि आपको यह लेख उपयोगी लगा हो, तो कृपया इसे अपने नेटवर्क के साथ साझा करें या नीचे टिप्पणी करें! डेटा विश्लेषण और मशीन लर्निंग पर अधिक अंतर्दृष्टि के लिए, हमारे समाचार पत्र की सदस्यता लें।