पायथन में सहसंबंध विश्लेषण का उपयोग करके पुस्तक अनुशंसाएं जनरेट करना
विषय सूची
- अनुशंसात्मक प्रणाली का परिचय
- संदर्भ डेटा एकत्र करना
- डेटा वेरिएबल सेट करना
- Pandas के साथ प्रासंगिक डेटा निकालना
- सहसंबंध की गणना करना
- सहसंबंधों को छांटना और विश्लेषण करना
- अनुशंसात्मक प्रणाली का अनुकूलन करना
- निष्कर्ष
अनुशंसात्मक प्रणाली का परिचय
दोस्तों, आपका फिर से स्वागत है! आज के सत्र में, हम जानेंगे कि कैसे पुस्तक सहसंबंध उत्पन्न करें और इन सहसंबंधों का उपयोग करके व्यक्तिगत अनुशंसाएं प्रदान करें। इस व्याख्यान के अंत तक, आप पायथन और Pandas का उपयोग करके एक सरल अनुशंसात्मक प्रणाली बनाने के मौलिक चरणों को समझ जाएंगे।
अनुशंसात्मक प्रणाली का परिचय
हम एक सुविधाजनक रूप से डिज़ाइन किए गए कस्टम विधि के निर्माण पर चर्चा करके प्रारंभ करते हैं। यह विधि उपयोगकर्ताओं को एक ISBN संख्या दर्ज करने की अनुमति देती है, जो फिर संबंधित पुस्तक के बारे में विस्तृत जानकारी प्राप्त करती है। उदाहरण के लिए, ISBN का उपयोग करके, हम पुस्तक का शीर्षक The Painted House जॉन ग्रिशम द्वारा पहचान सकते हैं – एक प्रसिद्ध उपन्यासकार जो अपनी रोमांचक कहानियों और उनके लोकप्रिय फिल्मों में रूपांतरण के लिए प्रसिद्ध हैं।
संदर्भ डेटा एकत्र करना
सुनिश्चित करने के लिए कि हमारी अनुशंसात्मक प्रणाली मजबूत है, हम Google की खोज क्षमताओं का उपयोग करते हैं। “John Grisham” की खोज करके, हम उनकी पुस्तकों की सूची और संबंधित लेखकों तक पहुँच सकते हैं जिन्हें लोग भी खोजते हैं। यह “People Also Search For” अनुभाग एक प्रारंभिक अनुशंसा सूची के रूप में कार्य करता है। इसमें परिवार के सदस्य, सहयोगी, या अन्य लेखक शामिल हो सकते हैं जिनकी लेखन शैलियाँ समान हैं। उदाहरण के लिए, हम अपनी अनुशंसा एल्गोरिदम की प्रभावशीलता का परीक्षण करने के लिए J.K. Rowling, जो “Harry Potter” श्रृंखला के लिए प्रसिद्ध हैं, शामिल कर सकते हैं।
डेटा वेरिएबल सेट करना
सरलता और स्पष्टता के लिए, हम लेखक के नाम और पुस्तक के शीर्षक के आधार पर एक वेरिएबल नाम असाइन करते हैं, जैसे john_grisham_painted_house। यह नामकरण संधि हमारे डेटा को प्रभावी ढंग से व्यवस्थित करने और संदर्भित करने में मदद करती है।
Pandas के साथ प्रासंगिक डेटा निकालना
Pandas का उपयोग करके, हम अपने डेटासेट से ISBN से संबंधित कॉलम निकालते हैं। यह एक पिवट टेबल के माध्यम से प्राप्त किया जाता है, जो हमारे डेटा को एक अधिक प्रबंधनीय प्रारूप में परिवर्तित करता है। ISBN को पिवट टेबल में पास करने के बाद, हमें कई पंक्तियों वाली एक श्रृंखला प्राप्त होती है, जो विभिन्न संबंधित पुस्तकों को दर्शाती है।
सहसंबंध की गणना करना
निकाले गए डेटा के साथ, हम विभिन्न पुस्तकों के बीच सहसंबंध गुणांक की गणना करने के लिए Pandas के सहसंबंध फ़ंक्शन का उपयोग करते हैं। सहसंबंध हमें उपयोगकर्ता इंटरैक्शन या वरीयताओं के आधार पर यह पहचानने में मदद करता है कि दो पुस्तकें कितनी करीबी से संबंधित हैं। इस चरण में जटिल गणनाओं के कारण चेतावनियां उत्पन्न हो सकती हैं, लेकिन परिणामी सहसंबंध महत्वपूर्ण अंतर्दृष्टि प्रदान करते हैं।
पठनीयता बढ़ाने के लिए, हम सहसंबंध श्रृंखला को एक DataFrame में परिवर्तित करते हैं और कॉलम का नाम बदलकर “correlation” रखते हैं। फिर हम अपने डेटासेट से None या NA मानों को हटा देते हैं।
सहसंबंधों को छांटना और विश्लेषण करना
सहसंबंधों को अवरोही क्रम में छांटने से हमें उन पुस्तकों को प्राथमिकता देने में मदद मिलती है जिनके समानता स्कोर सबसे अधिक हैं। यह सुनिश्चित करता है कि सबसे प्रासंगिक अनुशंसाएं पहले दिखाई दें। उदाहरण के लिए, अगर The Painted House की किसी अन्य पुस्तक के साथ उच्च सहसंबंध है, तो वह पुस्तक हमारी अनुशंसाओं में प्रमुख रूप से दिखाई जाएगी।
अपने विश्लेषण में, हम देखते हैं कि कुल 1,587 समान पुस्तकें हैं। हालांकि, सभी सहसंबंध मजबूत या सकारात्मक नहीं होते। कुछ पुस्तकों में नकारात्मक या बहुत कम सहसंबंध दिखाई देते हैं, जो कमजोर संबंधों को सूचित करते हैं। हमारी अनुशंसाओं की सटीकता बनाए रखने के लिए इन कम या नकारात्मक सहसंबंधों को फिल्टर करना आवश्यक है।
अनुशंसात्मक प्रणाली का अनुकूलन करना
हालांकि प्रारंभिक सहसंबंध एक आधार प्रदान करते हैं, लेकिन वे सटीक अनुशंसाओं के लिए पर्याप्त नहीं हैं। आगामी सत्रों में, हम इन सहसंबंधों को अनुकूलित करने में गहराई से उतरेंगे ताकि हमारी अनुशंसा इंजन को बेहतर बनाया जा सके। इस अनुकूलन में हमारे डेटा प्रसंस्करण विधियों को परिशोधित करना और यह सुनिश्चित करना शामिल होगा कि अनुशंसाएं उपयोगकर्ताओं के लिए प्रासंगिक और अर्थपूर्ण हों।
निष्कर्ष
आज के व्याख्यान ने पायथन और Pandas का उपयोग करके एक बुनियादी अनुशंसात्मक प्रणाली बनाने का एक व्यापक अवलोकन प्रदान किया। प्रासंगिक डेटा निकालकर, सहसंबंधों की गणना करके, और परिणामों को छांटकर, हमने एक कार्यात्मक अनुशंसा इंजन के लिए आधार तैयार किया है। भविष्य के व्याख्यानों में, हम इन प्रक्रियाओं को परिशोधित करने पर ध्यान केंद्रित करेंगे ताकि और अधिक सटीक और व्यक्तिगत पुस्तक अनुशंसाएं प्रदान की जा सकें।
आज के सत्र में शामिल होने के लिए धन्यवाद! मुझे आशा है कि आपको यह व्याख्यान जानकारीपूर्ण लगा होगा। अधिक ट्यूटोरियल के लिए बने रहें, और खुश कोडिंग!