S36L05 – पाइथन में K-मीन क्लस्टरिंग

html

पाइथन में K-Means क्लस्टरिंग लागू करना: एक चरण-दर-चरण मार्गदर्शिका

क्लस्टरिंग एक मौलिक तकनीक है अनसुपरवाइज्ड मशीन लर्निंग में, जो डेटा बिंदुओं को उनकी अंतर्निहित समानताओं के आधार पर समूहित करने में सक्षम बनाती है। विभिन्न क्लस्टरिंग अल्गोरिदम के बीच, K-Means अपनी सरलता और दक्षता के लिए विशिष्ट है। इस लेख में, हम Python की scikit-learn लाइब्रेरी का उपयोग करके K-Means क्लस्टरिंग के कार्यान्वयन के माध्यम से चलेंगे, साथ ही Yellowbrick लाइब्रेरी का उपयोग करके विज़ुअलाइज़ेशन के साथ सबसे उपयुक्त क्लस्टर की संख्या निर्धारित करेंगे।

विषय सूची

  1. क्लस्टरिंग का परिचय
  2. पर्यावरण सेट करना
  3. डेटासेट बनाना और एक्सप्लोर करना
  4. एल्बो विधि के साथ क्लस्टरों की सर्वोत्तम संख्या निर्धारित करना
  5. K-Means क्लस्टरिंग लागू करना
  6. निष्कर्ष और अगले कदम

क्लस्टरिंग का परिचय

क्लस्टरिंग में एक डेटासेट को समूहों, या क्लस्टरों, में विभाजित करना शामिल है, जहां एक ही क्लस्टर के अंदर डेटा बिंदु एक-दूसरे की तुलना में अन्य क्लस्टरों के मुकाबले अधिक समान होते हैं। यह तकनीक विभिन्न अनुप्रयोगों में व्यापक रूप से उपयोग की जाती है, जिसमें ग्राहक विभाजन, छवि संपीड़न, और विसंगति पहचान शामिल हैं।

K-Means क्लस्टरिंग अपने कार्यान्वयन में सरलता और विस्तार क्षमता के कारण सबसे लोकप्रिय क्लस्टरिंग अल्गोरिदम में से एक है। यह n डेटा बिंदुओं को k क्लस्टरों में विभाजित करने का लक्ष्य रखता है, जहां प्रत्येक डेटा बिंदु उस क्लस्टर में शामिल होता है जिसका मध्यमान सबसे निकट होता है।


पर्यावरण सेट करना

क्लस्टरिंग में डुबकी लगाने से पहले, सुनिश्चित करें कि आपके पास आवश्यक Python लाइब्रेरी इंस्टॉल हैं। हम उपयोग करेंगे:

  • डेटा मैनिपुलेशन के लिए pandas
  • संख्यात्मक संचालन के लिए numpy
  • विज़ुअलाइज़ेशन के लिए matplotlib और seaborn
  • K-Means को लागू करने के लिए scikit-learn
  • उन्नत विज़ुअलाइज़ेशन के लिए Yellowbrick

आप pip का उपयोग करके इन लाइब्रेरीज़ को इंस्टॉल कर सकते हैं:


डेटासेट बनाना और एक्सप्लोर करना

डेमो उद्देश्यों के लिए, हम scikit-learn की make_blobs विधि का उपयोग करके एक सिंथेटिक डेटासेट बनाएंगे। यह विधि क्लस्टरिंग के लिए आइसोट्रोपिक गॉसियन ब्लॉब्स उत्पन्न करती है।

वैकल्पिक रूप से, आप Kaggle पर उपलब्ध एक कस्टम डेटासेट का उपयोग कर सकते हैं। प्रदान किया गया डेटासेट शामिल है:

  • ग्राहक आईडी: प्रत्येक ग्राहक के लिए अद्वितीय पहचानकर्ता।
  • Instagram Visit Score: यह दर्शाता है कि एक उपयोगकर्ता कितनी बार Instagram विज़िट करता है, 0 से 100 के पैमाने पर।
  • Spending Rank: उपयोगकर्ता की खर्च करने की रैंक को दर्शाता है, भी 0 से 100 के पैमाने पर।

डेटासेट लोड करना:

डेटा को समझना:

  • User ID: एक पहचानकर्ता के रूप में कार्य करता है; क्लस्टरिंग में सीधे उपयोग नहीं किया जाता।
  • Instagram Visit Score: Instagram के साथ उपयोगकर्ता की सगाई को मापता है।
  • Spending Rank: उपयोगकर्ता के खर्च व्यवहार को दर्शाता है।

एल्बो विधि के साथ क्लस्टरों की सर्वोत्तम संख्या निर्धारित करना

सही क्लस्टरों की संख्या (k) का चयन प्रभावी क्लस्टरिंग के लिए महत्वपूर्ण है। एल्बो विधि इसको निर्धारित करने में मदद करती है, जिसमें Within-Cluster Sum of Squares (WCSS) को क्लस्टरों की संख्या के खिलाफ प्लॉट किया जाता है और "एल्बो प्वाइंट" की पहचान की जाती है जहां कमी की दर तेज़ी से बदलती है।

विज़ुअलाइज़ेशन के लिए Yellowbrick का उपयोग

विज़ुअलाइज़ेशन की व्याख्या:

  • एक्स-अक्ष क्लस्टरों की संख्या (k) को दर्शाता है।
  • वाई-अक्ष में WCSS दिखाया गया है।
  • "एल्बो" प्वाइंट सबसे उपयुक्त k को दर्शाता है। इस मामले में, क्लस्टरों की सर्वोत्तम संख्या 4 निर्धारित की गई है।

K-Means क्लस्टरिंग लागू करना

सर्वोत्तम क्लस्टरों की संख्या पहचानने के बाद, हम अब K-Means क्लस्टरिंग लागू कर सकते हैं।

मुख्य पैरामीटर:

  • n_clusters: बनने वाले क्लस्टरों की संख्या (एल्बो विधि का उपयोग करके निर्धारित)।
  • random_state: परिणामों की पुनरुत्पादनशीलता सुनिश्चित करता है।

क्लस्टरों को विज़ुअलाइज़ करना:

यह विज़ुअलाइज़ेशन यह समझने में मदद करता है कि डेटा बिंदु कैसे समूहित हैं और क्लस्टरिंग की कितनी प्रभावशीलता है।


निष्कर्ष और अगले कदम

इस मार्गदर्शिका में, हमने सफलतापूर्वक Python की scikit-learn का उपयोग करके K-Means क्लस्टरिंग लागू की और Yellowbrick के साथ परिणामों को विज़ुअलाइज़ किया। एल्बो विधि का उपयोग करके क्लस्टरों की सर्वोत्तम संख्या निर्धारित करने के साथ, हमने सुनिश्चित किया कि हमारी क्लस्टरिंग न केवल सार्थक बल्कि प्रभावी भी थी।

अगले कदम:

  • क्लस्टर सेंटर्स की व्याख्या: प्रत्येक क्लस्टर के केंद्रों का विश्लेषण करें ताकि प्रत्येक क्लस्टर की विशेषताओं को समझा जा सके।
  • टारगेटेड मार्केटिंग: मार्केटिंग अभियानों के लिए विशिष्ट उपयोगकर्ता समूहों की पहचान और टारगेट करने के लिए क्लस्टरों का उपयोग करें।
  • उन्नत क्लस्टरिंग तकनीकें: विभिन्न डेटा परिदृश्यों के लिए DBSCAN या हायरार्किकल क्लस्टरिंग जैसे अन्य क्लस्टरिंग अल्गोरिदम का अन्वेषण करें।
  • फीचर स्केलिंग: क्लस्टरिंग प्रदर्शन में सुधार के लिए फीचर स्केलिंग लागू करें, विशेष रूप से जब फीचर्स के अलग-अलग इकाइयाँ या माप होते हैं।

क्लस्टरिंग डेटा वैज्ञानिक के संग्रह में एक शक्तिशाली उपकरण है, और इसके कार्यान्वयन में महारत हासिल करना मूल्यवान अंतर्दृष्टि और सूचित निर्णय लेने की क्षमता प्रदान कर सकता है।

Share your love