एस39एल02 – मशीन लर्निंग का उपयोग करके टेक्स्ट वर्गीकरण, समस्याएँ

html
मशीन लर्निंग के साथ भावना विश्लेषण को अनलॉक करना: एक व्यापक मार्गदर्शिका
आज के डिजिटल युग में, ग्राहकों की भावनाओं को समझना उन व्यवसायों के लिए अति महत्वपूर्ण है जो अपने उत्पादों और सेवाओं को बेहतर बनाने का प्रयास कर रहे हैं। भावना विश्लेषण, प्राकृतिक भाषा प्रसंस्करण (NLP) का एक प्रमुख पहलू, संगठनों को समीक्षाओं, सोशल मीडिया पोस्ट और प्रतिक्रिया प्रपत्रों जैसे पाठ्य डेटा का विश्लेषण करके सार्वजनिक राय का अनुमान लगाने में सक्षम बनाता है। यह लेख मशीन लर्निंग एल्गोरिदम का उपयोग करके फ़िल्म समीक्षाओं पर भावना विश्लेषण करने की जटिल प्रक्रिया में गहराई से जाता है, जिसमें प्राकृतिक भाषा को क्रियान्वयन योग्य अंतर्दृष्टियों में बदलने में शामिल चुनौतियों और समाधानों को उजागर किया गया है।
सामग्री तालिका

भावना विश्लेषण का परिचय
डेटासेट को समझना
डेटा पूर्वसंसाधन: डेटा को साफ करना
विशेषता निष्कर्षण: पाठ को संख्याओं में अनुवाद करना
मॉडल निर्माण: वर्गीकर्ता का प्रशिक्षण
मॉडल प्रदर्शन का मूल्यांकन
निष्कर्ष
अक्सर पूछे जाने वाले प्रश्न

भावना विश्लेषण का परिचय
भावना विश्लेषण में पाठ के पीछे की भावनात्मक तंज की पहचान शामिल है। इसका व्यापक रूप से विभिन्न उद्योगों में ब्रांड की प्रतिष्ठा की निगरानी करने, ग्राहक प्रतिक्रिया को समझने और डेटा-आधारित निर्णय लेने के लिए उपयोग किया जाता है। भावनाओं को सकारात्मक, नकारात्मक या तटस्थ के रूप में वर्गीकृत करके, व्यवसाय उपभोक्ता प्राथमिकताओं और व्यवहारों में मूल्यवान अंतर्दृष्टि प्राप्त कर सकते हैं।
डेटासेट को समझना
हमारे भावना विश्लेषण परियोजना के लिए, हम Kaggle के मूवी रिव्यू डेटासेट से प्राप्त 64,000 से अधिक मूवी समीक्षाओं पर आधारित एक मजबूत डेटासेट का उपयोग करते हैं। यह डेटासेट मशीन लर्निंग मॉडलों को मूवी समीक्षाओं में व्यक्त की गई भावना की सटीक भविष्यवाणी करने में सहायक है।
डेटासेट संरचना
इस डेटासेट की मुख्य फ़ाइल movie_review.csv है, जिसमें छह कॉलम शामिल हैं:

fold_id: क्रॉस-वैलिडेशन फोल्ड के लिए पहचानकर्ता।
cv_tag: क्रॉस-वैलिडेशन टैग।
html_id: HTML पहचानकर्ता।
sent_id: वाक्य पहचानकर्ता।
text: वास्तविक मूवी समीक्षा पाठ।
tag: भावना को सूचित करने वाला लक्ष्य वर्ग (pos सकारात्मक के लिए और neg नकारात्मक के लिए)।

हमारे विश्लेषण के लिए, केवल text और tag कॉलम महत्वपूर्ण हैं।
डेटा पूर्वसंसाधन: डेटा को साफ करना
डेटा को मशीन लर्निंग मॉडल में देने से पहले, उसे पूर्वसंसाधित और साफ करना आवश्यक है ताकि भविष्यवाणियों में सटीकता और दक्षता सुनिश्चित की जा सके।
डेटा लोड करना
पायथन के पांडा पुस्तकालय का उपयोग करके, हम डेटासेट को लोड करते हैं और आवश्यक कॉलम निकालते हैं:




		
		
			
			
Java
			
			import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

# Import Data
data = pd.read_csv('movie_review.csv')
data.head()
			
				
					
				
					1
2
3
4
5
6
7
				
						import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
 
# Import Data
data = pd.read_csv('movie_review.csv')
data.head()
					
				
			
		


नमूना आउटपुट:


fold_id
cv_tag
html_id
sent_id
text
tag


0
cv000
29590
0
कॉमिक बुक्स से रुपांतरित की गई फिल्मों में ...
pos


1
cv000
29590
1
शुरुआत के लिए, इसे एलन द्वारा बनाया गया था ...
pos


2
cv000
29590
2
कहने के लिए मूर और कंप्बेल ने पूरी तरह से ...
pos


3
cv000
29590
3
किताब (या "ग्राफिक उपन्यास," अगर आप ...
pos


4
cv000
29590
4
दूसरे शब्दों में, इस फिल्म को खारिज न करें ...
pos


डेटा विभाजित करना
हम डेटासेट को प्रशिक्षण और परीक्षण सेट में विभाजित करते हैं, प्रशिक्षण के लिए 80% और परीक्षण के लिए 20% आवंटित करते हैं। यह विभाजन सुनिश्चित करता है कि हमारा मॉडल डेटा के एक पर्याप्त भाग पर प्रशिक्षित होता है और इसके प्रदर्शन को सटीक रूप से आकलन करने के लिए अनदेखे डेटा पर मान्य किया जाता है।




		
		
			
			
Java
			
			X = data.iloc[:, -2]
y = data.iloc[:, -1]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1)
			
				
					
				
					1
2
3
4
				
						X = data.iloc[:, -2]
y = data.iloc[:, -1]
 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1)
					
				
			
		


विशेषता निष्कर्षण: पाठ को संख्याओं में अनुवाद करना
मशीन लर्निंग एल्गोरिदम को संख्यात्मक इनपुट की आवश्यकता होती है। चूंकि हमारा डेटासेट पाठ्य डेटा से बना है, हमें पाठ को एक संख्यात्मक प्रारूप में परिवर्तित करना होगा जिसे एल्गोरिदम व्याख्या कर सकते हैं। इस प्रक्रिया को विशेषता निष्कर्षण के रूप में जाना जाता है।
कच्चे पाठ के साथ चुनौती
किसी मशीन लर्निंग मॉडल जैसे रैंडम फॉरेस्ट क्लासिफायर में सीधे कच्चा पाठ देना त्रुटियों का कारण बनेगा क्योंकि ये मॉडल गैर-संख्यात्मक डेटा को संसाधित नहीं कर सकते। उदाहरण के लिए:




		
		
			
			
Java
			
			from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

model_RFC = RandomForestClassifier(n_estimators=500, max_depth=5)
model_RFC.fit(X_train, y_train)
y_pred = model_RFC.predict(X_test)
accuracy_score(y_pred, y_test)
			
				
					
				
					1
2
3
4
5
6
7
				
						from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
 
model_RFC = RandomForestClassifier(n_estimators=500, max_depth=5)
model_RFC.fit(X_train, y_train)
y_pred = model_RFC.predict(X_test)
accuracy_score(y_pred, y_test)
					
				
			
		


परिणाम: यह कोड क्रैश हो जाएगा क्योंकि क्लासिफायर को संख्यात्मक विशेषताओं के बजाय पाठ्य डेटा प्राप्त होता है।
समाधान: पाठ को संख्यात्मक विशेषताओं में परिवर्तित करना
इसे दूर करने के लिए, हम पाठ को संख्यात्मक वेक्टर में बदलने के लिए बैग ऑफ वर्ड्स या टर्म फ्रीक्वेंसी-इन्वर्स डॉक्यूमेंट फ्रीक्वेंसी (TF-IDF) जैसी तकनीकों का उपयोग करते हैं।
TF-IDF को लागू करना
TF-IDF एक सांख्यिकीय माप है जो दस्तावेज़ में एक शब्द के महत्व का मूल्यांकन करता है, वह भी दस्तावेजों के संग्रह के सापेक्ष। यह महत्वपूर्ण शब्दों पर जोर देने में मदद करता है जबकि सामान्यतः उपयोग किए जाने वाले शब्दों को कम महत्व देता है।




		
		
			
			
Java
			
			from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline

# Define the pipeline
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('classifier', RandomForestClassifier(n_estimators=500, max_depth=5))
])

# Train the model
pipeline.fit(X_train, y_train)

# Predict and evaluate
y_pred = pipeline.predict(X_test)
accuracy = accuracy_score(y_pred, y_test)
print(f"Accuracy: {accuracy:.2f}")
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
				
						from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
 
# Define the pipeline
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('classifier', RandomForestClassifier(n_estimators=500, max_depth=5))
])
 
# Train the model
pipeline.fit(X_train, y_train)
 
# Predict and evaluate
y_pred = pipeline.predict(X_test)
accuracy = accuracy_score(y_pred, y_test)
print(f"Accuracy: {accuracy:.2f}")
					
				
			
		


TF-IDF के उपयोग के लाभ:

आयामी कमी: बड़े पाठ डेटा को प्रबंधनीय संख्यात्मक वेक्टर में बदलता है।
सटीकता में सुधार: संबंधित शब्दों को उजागर करके मॉडल के प्रदर्शन को बढ़ाता है।
प्रभावशीलता: संगणनात्मक जटिलता को कम करता है, जिससे तेज प्रशिक्षण और भविष्यवाणी सक्षम होती है।

मॉडल निर्माण: वर्गीकर्ता का प्रशिक्षण
डेटा को पूर्वसंसाधित और परिवर्तित करने के बाद, हम अपने मशीन लर्निंग मॉडल को बनाने और प्रशिक्षित करने की प्रक्रिया शुरू करते हैं।
सही वर्गीकर्ता का चयन
रैंडम फॉरेस्ट क्लासिफायर को इसकी मजबूती और उच्च-आयामी डेटा को प्रभावी ढंग से संभालने की क्षमता के लिए चुना गया है। यह प्रशिक्षण के दौरान कई निर्णय वृक्षों का निर्माण करके काम करता है और वर्गीकरण कार्यों के लिए वर्गों का सबसे सामान्य मान (mode) आउटपुट करता है।




		
		
			
			
Java
			
			from sklearn.ensemble import RandomForestClassifier

# Initialize the classifier
model_RFC = RandomForestClassifier(n_estimators=500, max_depth=5, random_state=1)

# Train the classifier
model_RFC.fit(X_train_transformed, y_train)
			
				
					
				
					1
2
3
4
5
6
7
				
						from sklearn.ensemble import RandomForestClassifier
 
# Initialize the classifier
model_RFC = RandomForestClassifier(n_estimators=500, max_depth=5, random_state=1)
 
# Train the classifier
model_RFC.fit(X_train_transformed, y_train)
					
				
			
		


मॉडल प्रदर्शन का मूल्यांकन
प्रशिक्षण के बाद, इसकी प्रभावशीलता सुनिश्चित करने के लिए उपयुक्त मेट्रिक्स का उपयोग करके मॉडल के प्रदर्शन का मूल्यांकन करना महत्वपूर्ण है।
सटीकता स्कोर
सटीकता स्कोर कुल उदाहरणों में से सही पूर्वानुमानित उदाहरणों के अनुपात को मापता है।




		
		
			
			
Java
			
			from sklearn.metrics import accuracy_score

# Predict on the test set
y_pred = model_RFC.predict(X_test_transformed)

# Calculate accuracy
accuracy = accuracy_score(y_pred, y_test)
print(f"Model Accuracy: {accuracy * 100:.2f}%")
			
				
					
				
					1
2
3
4
5
6
7
8
				
						from sklearn.metrics import accuracy_score
 
# Predict on the test set
y_pred = model_RFC.predict(X_test_transformed)
 
# Calculate accuracy
accuracy = accuracy_score(y_pred, y_test)
print(f"Model Accuracy: {accuracy * 100:.2f}%")
					
				
			
		


परिणामों की व्याख्या:

उच्च सटीकता: प्रभावी विशेषता निष्कर्षण के साथ एक अच्छा प्रदर्शन करने वाले मॉडल को दर्शाता है।
निम्न सटीकता: मॉडल को ट्यून करने या वैकल्पिक विशेषता निष्कर्षण विधियों की आवश्यकता का सुझाव देता है।

निष्कर्ष
भावना विश्लेषण एक शक्तिशाली उपकरण है जो मशीन लर्निंग एल्गोरिदम के साथ मिलकर, पाठ्य डेटा से मूल्यवान अंतर्दृष्टि प्रदान कर सकता है। डेटा को सावधानीपूर्वक पूर्वसंसाधित करने, प्रासंगिक विशेषताओं को निष्कर्षित करने और उपयुक्त वर्गीकर्ताओं का चयन करके, व्यवसाय सार्वजनिक भावना का सटीक मूल्यांकन कर सकते हैं और सूचित निर्णय ले सकते हैं। यह व्यापक दृष्टिकोण न केवल मॉडल के प्रदर्शन को बढ़ाता है बल्कि विभिन्न अनुप्रयोगों में इसका स्केलेबिलिटी और अनुकूलन सुनिश्चित करता है।
अक्सर पूछे जाने वाले प्रश्न
1. मशीन लर्निंग मॉडल सीधे कच्चे पाठ डेटा को क्यों संसाधित नहीं कर सकते?
मशीन लर्निंग मॉडलों को गणितीय गणनाएँ करने के लिए संख्यात्मक इनपुट की आवश्यकता होती है। कच्चा पाठ डेटा गैर-संख्यात्मक होता है और इसमें उन पैटर्नों को संसाधित और सीखने के लिए आवश्यक संरचित प्रारूप नहीं होता है।
2. बैग ऑफ वर्ड्स और TF-IDF में अंतर क्या है?

बैग ऑफ वर्ड्स: एक दस्तावेज़ में प्रत्येक शब्द की आवृत्ति की गिनती करता है बिना क्रम या महत्व को ध्यान में रखे।
TF-IDF: शब्दों को उनके दस्तावेज़ में आवृत्ति के आधार पर वजन देता है, जो सभी दस्तावेजों में उनकी आवृत्ति के सापेक्ष होता है, अधिक महत्वपूर्ण शब्दों को उजागर करता है।

3. क्या मैं भावना विश्लेषण के लिए रैंडम फॉरेस्ट के अलावा अन्य वर्गीकर्ताओं का उपयोग कर सकता हूँ?
जी बिल्कुल। सामान्य विकल्पों में सपोर्ट वेक्टर मशीन (SVM), लॉजिस्टिक रिग्रेशन, और ग्रेडिएंट बूस्टिंग क्लासिफायर शामिल हैं। चुनाव विशिष्ट आवश्यकताओं और डेटासेट की प्रकृति पर निर्भर करता है।
4. मैं अपने भावना विश्लेषण मॉडल की सटीकता कैसे सुधार सकता हूँ?
निम्नलिखित दृष्टिकोणों पर विचार करें:

उन्नत विशेषता निष्कर्षण: मौखिक संबंधों को पकड़ने के लिए वर्ड एम्बेडिंग्स (Word2Vec, GloVe) जैसी तकनीकों का उपयोग करें।
हाइपरपैरामीटर ट्यूनिंग: ग्रिड सर्च या रैंडम सर्च जैसी विधियों का उपयोग करके मॉडल पैरामीटर को अनुकूलित करें।
समुच्चय विधियाँ: प्रदर्शन को बढ़ाने के लिए कई मॉडलों को संयोजित करें।

5. क्या भावना विश्लेषण के लिए डीप लर्निंग उपयुक्त है?
हां, पुनरावृत्त न्यूरल नेटवर्क (RNN) और कॉन्वोल्यूशनल न्यूरल नेटवर्क (CNN) जैसे डीप लर्निंग मॉडल ने भावना विश्लेषण कार्यों में उत्कृष्ट प्रदर्शन दिखाया है, खासकर बड़े और जटिल डेटासेट से निपटने के समय।

भावना विश्लेषण के माध्यम से यात्रा शुरू करने से व्यवसायों को अनस्ट्रक्चर्ड पाठ्य डेटा को रणनीतिक संपत्तियों में बदलने की क्षमता मिलती है। मशीन लर्निंग की शक्ति और सावधानीपूर्वक डेटा पूर्वसंसाधन का उपयोग करके, संस्थाएं अपने दर्शकों की लगातार विकसित हो रही भावनाओं के प्रति सजग रह सकती हैं, जिससे सतत सफलता का मार्ग प्रशस्त होता है।
fold_id	cv_tag	html_id	sent_id	text	tag
0	cv000	29590	0	कॉमिक बुक्स से रुपांतरित की गई फिल्मों में ...	pos
1	cv000	29590	1	शुरुआत के लिए, इसे एलन द्वारा बनाया गया था ...	pos
2	cv000	29590	2	कहने के लिए मूर और कंप्बेल ने पूरी तरह से ...	pos
3	cv000	29590	3	किताब (या "ग्राफिक उपन्यास," अगर आप ...	pos
4	cv000	29590	4	दूसरे शब्दों में, इस फिल्म को खारिज न करें ...	pos