आईरिस डेटासेट का एकविविध विश्लेषण: मशीन लर्निंग में फीचर चयन के लिए एक व्यापक मार्गदर्शिका
प्रकाशित: [तारीख]
परिचय
मशीन लर्निंग के क्षेत्र में, फीचर चयन कुशल और सटीक मॉडेल बनाने में महत्वपूर्ण भूमिका निभाता है। फीचर चयन के लिए एक मौलिक तकनीक एकविविध विश्लेषण है, जो लक्ष्य वेरिएबल की भविष्यवाणी में प्रत्येक फीचर के महत्व को निर्धारित करने के लिए प्रत्येक फीचर का व्यक्तिगत रूप से परीक्षण करती है। यह लेख मशीन लर्निंग और सांख्यिकी के क्षेत्र में एक आदर्श डेटासेट, आईरिस डेटासेट पर एकविविध विश्लेषण के अनुप्रयोग में गहराई से जाता है।
पाइथन की शक्तिशाली लाइब्रेरीज जैसे Pandas, Seaborn, और Matplotlib का उपयोग करके, हम विभिन्न आईरिस फूलों की प्रजातियों के वर्गीकरण के लिए सबसे प्रभावशाली फीचर्स की पहचान करने का तरीका जानेंगे। चाहे आप डेटा उत्साही हों या अनुभवी प्रैक्टिशनर, यह मार्गदर्शिका आपके एकविविध विश्लेषण की समझ और इसके व्यावहारिक कार्यान्वयन को बढ़ाने का लक्ष्य रखती है।
सामग्री सूची
- आईरिस डेटासेट को समझना
- एकविविध विश्लेषण क्या है?
- पर्यावरण सेटअप करना
- डेटा लोड करना और एक्सप्लोर करना
- एकविविध विश्लेषण करना
- सेपल लंबाई
- सेपल चौड़ाई
- पेटल लंबाई
- पेटल चौड़ाई
- परिणामों की व्याख्या
- निष्कर्ष
- संदर्भ
आईरिस डेटासेट को समझना
आईरिस डेटासेट एक क्लासिक डेटासेट है जिसे रोनाल्ड फिशर ने 1936 में प्रस्तुत किया था। इसमें तीन प्रजातियों में वर्गीकृत 150 आईरिस फूलों के नमूने शामिल हैं:
- Iris Setosa
- Iris Versicolor
- Iris Virginica
प्रत्येक नमूने में चार फीचर्स होते हैं:
- सेपल लंबाई (सेंटीमीटर में)
- सेपल चौड़ाई (सेंटीमीटर में)
- पेटल लंबाई (सेंटीमीटर में)
- पेटल चौड़ाई (सेंटीमीटर में)
इस डेटासेट की सरलता और स्पष्टता इसे विभिन्न सांख्यिकीय और मशीन लर्निंग तकनीकों का पता लगाने के लिए एक उत्कृष्ट उम्मीदवार बनाती है।
एकविविध विश्लेषण क्या है?
एकविविध विश्लेषण में एक एकल वेरिएबल का परीक्षण शामिल होता है ताकि डेटा में संक्षेपण और पैटर्न खोजे जा सकें। मशीन लर्निंग के संदर्भ में, एकविविध विश्लेषण लक्ष्य वेरिएबल की भविष्यवाणी में प्रत्येक फीचर के महत्व को समझने में मदद करता है।
एकविविध विश्लेषण क्यों उपयोग करें?
- फीचर चयन: मॉडल निर्माण के लिए सबसे प्रासंगिक फीचर्स की पहचान और चयन करना।
- डेटा विज़ुअलाइज़ेशन: व्यक्तिगत फीचर्स के वितरण और फैलाव को समझना।
- शोर में कमी: मॉडल के प्रदर्शन में सुधार के लिए अप्रासंगिक या अव्यवस्थित फीचर्स को समाप्त करना।
पर्यावरण सेटअप करना
विश्लेषण में गहराई से जाने से पहले, सुनिश्चित करें कि आपके पास आवश्यक उपकरण और लाइब्रेरीज इंस्टॉल हैं। हम एक इंटरैक्टिव कोडिंग पर्यावरण के लिए Jupyter Notebook का उपयोग करेंगे और निम्नलिखित पाइथन लाइब्रेरीज:
- NumPy
- Pandas
- Matplotlib
- Seaborn
यदि आपने पहले से नहीं किया है, तो आप pip
का उपयोग करके इन लाइब्रेरीज को इंस्टॉल कर सकते हैं:
1 |
pip install numpy pandas matplotlib seaborn |
डेटा लोड करना और एक्सप्लोर करना
आईरिस डेटासेट को लोड करके और एक प्रारंभिक अन्वेषण करके शुरू करते हैं।
लाइब्रेरीज इम्पोर्ट करना
1 2 3 4 5 6 |
import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns sns.set() # सेट Seaborn डिफ़ॉल्ट स्टाइल |
डेटासेट लोड करना
1 2 3 4 5 6 7 8 |
# कॉलम नाम निर्धारित करें names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class'] # डेटासेट लोड करें iris = pd.read_csv('iris.data', names=names) # पहले कुछ पंक्तियों को प्रदर्शित करें iris.head() |
आउटपुट:
sepal_length | sepal_width | petal_length | petal_width | class |
---|---|---|---|---|
5.1 | 3.5 | 1.4 | 0.2 | Iris-setosa |
4.9 | 3.0 | 1.4 | 0.2 | Iris-setosa |
4.7 | 3.2 | 1.3 | 0.2 | Iris-setosa |
4.6 | 3.1 | 1.5 | 0.2 | Iris-setosa |
5.0 | 3.6 | 1.4 | 0.2 | Iris-setosa |
एकविविध विश्लेषण करना
इस संदर्भ में एकविविध विश्लेषण में प्रत्येक फीचर का व्यक्तिगत रूप से विश्लेषण करना शामिल है ताकि यह आंका जा सके कि यह आईरिस प्रजातियों को वर्गीकृत करने में कितना प्रभावी है। हम Seaborn के FacetGrid
और distplot
का उपयोग करके तीनों वर्गों में प्रत्येक फीचर के वितरण को विज़ुअलाइज़ करेंगे।
1. सेपल लंबाई
1 2 3 4 |
sns.FacetGrid(data=iris, hue='class', height=5) \ .map(sns.distplot, 'sepal_length') \ .add_legend() plt.show() |
विश्लेषण:
सेपल लंबाई का वितरण प्लॉट तीनों आईरिस प्रजातियों के बीच महत्वपूर्ण ओवरलैप दिखाता है। यह ओवरलैप संकेत करता है कि केवल सेपल लंबाई कक्षा के बीच भेदभाव के लिए विश्वसनीय फीचर नहीं हो सकती, विशेष रूप से Iris Versicolor और Iris Virginica के बीच।
2. सेपल चौड़ाई
1 2 3 4 |
sns.FacetGrid(data=iris, hue='class', height=5) \ .map(sns.distplot, 'sepal_width') \ .add_legend() plt.show() |
विश्लेषण:
सेपल चौड़ाई का वितरण भी काफी ओवरलैप दिखाता है, विशेष रूप से Iris Versicolor और Iris Virginica के बीच। यह ओवरलैप यह सुझाव देता है कि सेपल चौड़ाई, सेपल लंबाई की तुलना में, वर्गीकरण उद्देश्यों के लिए और भी कम प्रभावी है।
3. पेटल लंबाई
1 2 3 4 |
sns.FacetGrid(data=iris, hue='class', height=5) \ .map(sns.distplot, 'petal_length') \ .add_legend() plt.show() |
विश्लेषण:
पेटल लंबाई के प्लॉट से स्पष्ट पृथक्करण दिखता है, विशेष रूप से Iris Setosa के लिए, जो स्पष्ट रूप से अन्य दो वर्गों से अलग है। जबकि Iris Versicolor और Iris Virginica के बीच कुछ ओवरलैप अभी भी है, पेटल लंबाई वर्गीकरण के लिए एक अधिक वादा करने वाला फीचर बनकर उभरता है।
4. पेटल चौड़ाई
1 2 3 4 |
sns.FacetGrid(data=iris, hue='class', height=5) \ .map(sns.distplot, 'petal_width') \ .add_legend() plt.show() |
विश्लेषण:
पेटल लंबाई की तरह, पेटल चौड़ाई भी Iris Setosa और अन्य दो प्रजातियों के बीच अच्छा पृथक्करण दिखाती है। हालाँकि Iris Versicolor और Iris Virginica के बीच थोड़ी ओवरलैप है, पेटल चौड़ाई अभी भी वर्गीकरण मॉडलों में उपयोग के लिए एक मजबूत उम्मीदवार बनी रहती है।
परिणामों की व्याख्या
एकविविध विश्लेषण के आधार पर:
- सेपल चौड़ाई: वर्गों के बीच सबसे अधिक ओवरलैप के साथ सबसे खराब प्रदर्शन करने वाला। रैंक: 4
- सेपल लंबाई: मध्यम ओवरलैप, विशेष रूप से Iris Versicolor और Iris Virginica के बीच। रैंक: 3
- पेटल चौड़ाई: मामूली ओवरलैप के साथ अच्छा पृथक्करण। रैंक: 2
- पेटल लंबाई: स्पष्ट भेदभाव के साथ सबसे अच्छा प्रदर्शन, विशेष रूप से Iris Setosa के लिए। रैंक: 1
फीचर चयन रणनीति
रैंकिंग के आधार पर, यह सलाह दी जाती है:
- चयन करें: वर्गीकरण के लिए प्राथमिक फीचर्स के रूप में पेटल लंबाई और पेटल चौड़ाई।
- निकालें: आयामीयता और संभावित शोर को कम करने के लिए सेपल लंबाई और सेपल चौड़ाई।
निष्कर्ष
एकविविध विश्लेषण फीचर चयन प्रक्रिया में एक मौलिक कदम के रूप में काम करता है, प्रत्येक फीचर की व्यक्तिगत भविष्यवाणीक क्षमता के बारे में अंतर्दृष्टि प्रदान करता है। इस तकनीक को आईरिस डेटासेट पर लागू करके, हमने पेटल लंबाई और पेटल चौड़ाई को तीन आईरिस प्रजातियों के वर्गीकरण के लिए सबसे प्रभावी फीचर्स के रूप में पहचान किया है।
यह विश्लेषण न केवल आयामीयता को कम करके मॉडल-निर्माण प्रक्रिया को सुगम बनाता है, बल्कि कम सूचनात्मक फीचर्स को समाप्त करके मॉडल के प्रदर्शन को भी बढ़ाता है। मशीन लर्निंग प्रैक्टिशनरों के रूप में, इस प्रकार की अन्वेषणात्मक तकनीकों का उपयोग करना मजबूत और सटीक भविष्यवाणीक मॉडलों के विकास के लिए महत्वपूर्ण है।
संदर्भ
- Fisher, R.A. (1936). The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7(2), 179-188.
- Seaborn Documentation
- Iris Dataset on UCI Machine Learning Repository
यदि आपको यह लेख उपयोगी लगा हो, तो कृपया इसे अपने नेटवर्क के साथ साझा करें या नीचे टिप्पणी करें! डेटा विश्लेषण और मशीन लर्निंग पर अधिक अंतर्दृष्टि के लिए, हमारे समाचार पत्र की सदस्यता लें।