S39L07 – टेक्स्ट वर्गीकारक का निर्माण कई मॉडलों के साथ जारी है

html
एनएलपी में कई मॉडलों के साथ टेक्स्ट वर्गीकरणकर्ता बनाना: एक व्यापक मार्गदर्शिका

सामग्री तालिका

  एनएलपी में टेक्स्ट वर्गीकरण का परिचय
  डेटासेट अवलोकन
  टीडीएफ-आईडीएफ वेक्टराइजेशन के साथ डेटा पूर्वप्रसंस्करण
  मॉडल चयन और कार्यान्वयन
    
      1. रैखिक समर्थन वेक्टर वर्गीक्षक (LinearSVC)
      2. नायव बेयस
      3. K-निकटतम पड़ोसी (KNN)
      4. XGBoost
      5. रैंडम फॉरेस्ट
    
  
  मॉडल मूल्यांकन मीट्रिक
  मॉडल का तुलनात्मक विश्लेषण
  निष्कर्ष और भविष्य के दिशा-निर्देश
  संदर्भ



1. एनएलपी में टेक्स्ट वर्गीकरण का परिचय
टेक्स्ट वर्गीकरण एनएलपी में एक मौलिक कार्य है जिसमें टेक्स्ट डेटा को पूर्वनिर्धारित श्रेणियों में वर्गीकृत किया जाता है। अनुप्रयोगों में ईमेल में स्पैम पहचान से लेकर उत्पाद समीक्षाओं में भावना विश्लेषण तक शामिल हैं। इन वर्गीकरणकर्ताओं की सटीकता सार्थक अंतर्दृष्टि और निर्णय-निर्माण प्रक्रियाओं के लिए महत्वपूर्ण है।
इस मार्गदर्शिका में, हम मूवी रिव्यू डेटासेट का उपयोग करके एक टेक्स्ट वर्गीकरणकर्ता बनाने की प्रक्रिया पर चर्चा करेंगे, जिसे Kaggle से प्राप्त किया गया है। हम विभिन्न मशीन लर्निंग मॉडलों का उपयोग करेंगे ताकि यह समझा जा सके कि फिल्म समीक्षाओं को सकारात्मक या नकारात्मक में वर्गीकृत करने में उनका प्रदर्शन कैसा है।


2. डेटासेट अवलोकन
डेटासेट में 64,720 फिल्म समीक्षाएँ शामिल हैं, प्रत्येक को एक भावना टैग के साथ लेबल किया गया है: सकारात्मक (pos) या नकारात्मक (neg)। प्रत्येक समीक्षा को वाक्यों में विभाजित किया गया है, जो फिल्म की समीक्षा में व्यक्त भावनाओं का विस्तृत दृश्य प्रदान करता है।
नमूना डेटा:

  
    fold_id
    cv_tag
    html_id
    sent_id
    text
    tag
  
  
    0
    cv000
    29590
    0
    films adapted from comic books...
    pos
  
  
    0
    cv000
    29590
    1
    for starters, it was created by Alan Moore...
    pos
  
  
    ...
    ...
    ...
    ...
    ...
    ...
  

यह संरचित प्रारूप मशीन लर्निंग मॉडलों के कुशल प्रशिक्षण और मूल्यांकन की अनुमति देता है।


3. टीएफ-आईडीएफ वेक्टराइजेशन के साथ डेटा पूर्वप्रसंस्करण
टेक्स्ट डेटा को मशीन लर्निंग मॉडलों में डालने से पहले, टेक्स्ट को संख्यात्मक प्रतिनिधित्व में बदलना आवश्यक है। इसके लिए हम टर्म फ्रीक्वेंसी-इनवर्स डॉक्यूमेंट फ्रीक्वेंसी (TF-IDF) वेक्टराइजेशन का उपयोग करते हैं।
टीडीएफ-आईडीएफ क्यों?

  टर्म फ्रीक्वेंसी (TF): एक शब्द के एक दस्तावेज़ में कितनी बार प्रकट होता है, इसकी माप करता है।
  इनवर्स डॉक्यूमेंट फ्रीक्वेंसी (IDF): पूरे कॉर्पस में एक शब्द कितना महत्वपूर्ण है, इसकी माप करता है।

कार्यान्वयन चरण:

  लाइब्रेरी इम्पोर्ट करें:





		
		
			
			
Java
			
			import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
			
				
					
				
					1
2
3
4
				
						import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
					
				
			
		



  डेटा लोड करें:





		
		
			
			
Java
			
			data = pd.read_csv('movie_review.csv')
X = data['text']
y = data['tag']
			
				
					
				
					1
2
3
				
						data = pd.read_csv('movie_review.csv')
X = data['text']
y = data['tag']
					
				
			
		



  वेक्टराइजेशन:





		
		
			
			
Java
			
			vectorizer = TfidfVectorizer()
X_vectors = vectorizer.fit_transform(X)
			
				
					
				
					1
2
				
						vectorizer = TfidfVectorizer()
X_vectors = vectorizer.fit_transform(X)
					
				
			
		



  ट्रेन-टेस्ट स्प्लिट:





		
		
			
			
Java
			
			X_train, X_test, y_train, y_test = train_test_split(X_vectors, y, test_size=0.20, random_state=1)
			
				
					
				
					1
				
						X_train, X_test, y_train, y_test = train_test_split(X_vectors, y, test_size=0.20, random_state=1)
					
				
			
		




4. मॉडल चयन और कार्यान्वयन
हम फिल्म समीक्षाओं को वर्गीकृत करने के लिए पांच विभिन्न मशीन लर्निंग मॉडलों का अन्वेषण करेंगे: LinearSVC, Naive Bayes, K-Nearest Neighbors (KNN), XGBoost, और Random Forest। प्रत्येक मॉडल की अपनी ताकतें हैं और ये विभिन्न प्रकार के डेटा और समस्याओं के लिए उपयुक्त हैं।


4.1 रैखिक समर्थन वेक्टर वर्गीक्षक (LinearSVC)
LinearSVC एक कुशल कार्यान्वयन है जो बड़े डेटासेट के लिए उपयुक्त है। इसका उद्देश्य अधिकतम मार्जिन के साथ क्लासेस को सबसे अच्छी तरह से अलग करने वाले हाइपरप्लेन को खोजना है।
कार्यान्वयन:




		
		
			
			
Java
			
			from sklearn.svm import LinearSVC
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

text_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', LinearSVC()),
])
text_clf.fit(X_train, y_train)
y_pred = text_clf.predict(X_test)
print(accuracy_score(y_pred, y_test))
print(classification_report(y_pred, y_test))
print(confusion_matrix(y_pred, y_test))
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
				
						from sklearn.svm import LinearSVC
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
 
text_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', LinearSVC()),
])
text_clf.fit(X_train, y_train)
y_pred = text_clf.predict(X_test)
print(accuracy_score(y_pred, y_test))
print(classification_report(y_pred, y_test))
print(confusion_matrix(y_pred, y_test))
					
				
			
		


परिणाम:

  सटीकता: ~70%
  आलोकन: दोनों क्लासेस के लिए संतुलित प्रेसिजन और रिकॉल।



4.2 नायव बेयस
Naive Bayes वर्गीकरणकर्ता बायस प्रमेय पर आधारित होते हैं और उनकी सरलता और प्रदर्शन के कारण टेक्स्ट वर्गीकरण के लिए विशेष रूप से प्रभावी होते हैं।
कार्यान्वयन:




		
		
			
			
Java
			
			from sklearn.naive_bayes import MultinomialNB

text_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', MultinomialNB()),
])
text_clf.fit(X_train, y_train)
y_pred = text_clf.predict(X_test)
print(accuracy_score(y_pred, y_test))
print(classification_report(y_pred, y_test))
print(confusion_matrix(y_pred, y_test))
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
				
						from sklearn.naive_bayes import MultinomialNB
 
text_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', MultinomialNB()),
])
text_clf.fit(X_train, y_train)
y_pred = text_clf.predict(X_test)
print(accuracy_score(y_pred, y_test))
print(classification_report(y_pred, y_test))
print(confusion_matrix(y_pred, y_test))
					
				
			
		


परिणाम:

  सटीकता: ~70.7%
  आलोकन: LinearSVC की तुलना में सकारात्मक समीक्षाओं के लिए बेहतर प्रेसिजन।



4.3 K-निकटतम पड़ोसी (KNN)
KNN एक गैर-पैरामीट्रिक एल्गोरिदम है जो पड़ोसियों के बहुमत वोट के आधार पर डेटा बिंदुओं को वर्गीकृत करता है। यह सरल है लेकिन बड़े डेटासेट के लिए गणनात्मक रूप से बोझिल हो सकता है।
कार्यान्वयन:




		
		
			
			
Java
			
			from sklearn.neighbors import KNeighborsClassifier

text_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', KNeighborsClassifier()),
])
text_clf.fit(X_train, y_train)
y_pred = text_clf.predict(X_test)
print(accuracy_score(y_pred, y_test))
print(classification_report(y_pred, y_test))
print(confusion_matrix(y_pred, y_test))
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
				
						from sklearn.neighbors import KNeighborsClassifier
 
text_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', KNeighborsClassifier()),
])
text_clf.fit(X_train, y_train)
y_pred = text_clf.predict(X_test)
print(accuracy_score(y_pred, y_test))
print(classification_report(y_pred, y_test))
print(confusion_matrix(y_pred, y_test))
					
				
			
		


परिणाम:

  सटीकता: ~50.9%
  आलोकन: LinearSVC और Naive Bayes की तुलना में काफी कम प्रदर्शन।



4.4 XGBoost
XGBoost एक अनुकूलित ग्रेडिएंट बूस्टिंग लाइब्रेरी है जो गति और प्रदर्शन के लिए डिज़ाइन की गई है। यह संरचित डेटा के लिए अत्यधिक प्रभावी है लेकिन टेक्स्ट डेटा के लिए सावधानीपूर्वक पैरामीटर ट्यूनिंग की आवश्यकता होती है।
कार्यान्वयन:




		
		
			
			
Java
			
			import xgboost as xgb

text_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', xgb.XGBClassifier(use_label_encoder=False, eval_metric='logloss')),
])
text_clf.fit(X_train, y_train)
y_pred = text_clf.predict(X_test)
print(accuracy_score(y_pred, y_test))
print(classification_report(y_pred, y_test))
print(confusion_matrix(y_pred, y_test))
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
				
						import xgboost as xgb
 
text_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', xgb.XGBClassifier(use_label_encoder=False, eval_metric='logloss')),
])
text_clf.fit(X_train, y_train)
y_pred = text_clf.predict(X_test)
print(accuracy_score(y_pred, y_test))
print(classification_report(y_pred, y_test))
print(confusion_matrix(y_pred, y_test))
					
				
			
		


परिणाम:

  सटीकता: ~62.7%
  आलोकन: मध्यम प्रदर्शन; KNN पर सुधार दिखाता है लेकिन LinearSVC और Naive Bayes से पीछे है।



4.5 रैंडम फॉरेस्ट
Random Forest एक ансамбल लर्निंग विधि है जो प्रशिक्षण के दौरान कई निर्णय वृक्ष बनाता है और उनकी भविष्यवाणियों के मोड आउटपुट करता है।
कार्यान्वयन:




		
		
			
			
Java
			
			from sklearn.ensemble import RandomForestClassifier

text_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', RandomForestClassifier()),
])
text_clf.fit(X_train, y_train)
y_pred = text_clf.predict(X_test)
print(accuracy_score(y_pred, y_test))
print(classification_report(y_pred, y_test))
print(confusion_matrix(y_pred, y_test))
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
				
						from sklearn.ensemble import RandomForestClassifier
 
text_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', RandomForestClassifier()),
])
text_clf.fit(X_train, y_train)
y_pred = text_clf.predict(X_test)
print(accuracy_score(y_pred, y_test))
print(classification_report(y_pred, y_test))
print(confusion_matrix(y_pred, y_test))
					
				
			
		


परिणाम:

  सटीकता: ~63.6%
  आलोकन: XGBoost के समान; सकारात्मक समीक्षाओं के लिए बेहतर प्रेसिजन।



5. मॉडल मूल्यांकन मीट्रिक
वर्गीकरण मॉडलों के प्रदर्शन का मूल्यांकन करने में कई मीट्रिक शामिल होते हैं:

  सटीकता: सही भविष्यवाणी की गई घटनाओं का कुल घटनाओं के अनुपात।
  प्रेसिजन: सही भविष्यवाणी की गई सकारात्मक अवलोकनों का कुल भविष्यवाणी किए गए सकारात्मकों के अनुपात।
  रिकॉल: सही भविष्यवाणी की गई सकारात्मक अवलोकनों का सभी वास्तविक सकारात्मकों के अनुपात।
  F1-स्कोर: प्रेसिजन और रिकॉल का भारित औसत।
  कन्फ्यूजन मैट्रिक्स: वर्गीकरण मॉडल के प्रदर्शन का विवरणात्मक विश्लेषण।

मीट्रिक को समझना:

  
    मीट्रिक
    विवरण
  
  
    सटीकता
    मॉडल की समग्र शुद्धता।
  
  
    प्रेसिजन
    सकारात्मक भविष्यवाणियों की शुद्धता।
  
  
    रिकॉल
    मॉडल की सभी सकारात्मक उदाहरणों को खोजने की क्षमता।
  
  
    F1-स्कोर
    प्रेसिजन और रिकॉल के बीच संतुलन।
  
  
    कन्फ्यूजन मैट्रिक्स
    क्लासेस के बीच भविष्यवाणियों के परिणाम का विस्तृत विभाजन।
  



6. मॉडल का तुलनात्मक विश्लेषण
चलो मूल्यांकन मीट्रिक के आधार पर प्रत्येक मॉडल के प्रदर्शन को संक्षेप में प्रस्तुत करते हैं:

  
    मॉडल
    सटीकता
    प्रेसिजन (निग)
    प्रेसिजन (पॉज)
    रिकॉल (निग)
    रिकॉल (पॉज)
    F1-स्कोर (निग)
    F1-स्कोर (पॉज)
  
  
    LinearSVC
    70%
    69%
    70%
    69%
    71%
    0.69
    0.71
  
  
    Naive Bayes
    70.7%
    68%
    73%
    70%
    71%
    0.69
    0.72
  
  
    KNN
    50.9%
    63%
    39%
    49%
    53%
    0.56
    0.45
  
  
    XGBoost
    62.7%
    59%
    66%
    62%
    63%
    0.61
    0.65
  
  
    Random Forest
    63.6%
    58%
    68%
    63%
    64%
    0.61
    0.66
  

मुख्य अंतर्दृष्टियाँ:

  LinearSVC और Naive Bayes अन्य मॉडलों की तुलना में बेहतर प्रदर्शन करते हैं, 70% से अधिक सटीकता प्राप्त करते हैं।
  KNN कम सटीकता और असंतुलित प्रेसिजन स्कोर के साथ संघर्ष करता है।
  XGBoost और Random Forest मध्यम प्रदर्शन प्रदान करते हैं लेकिन शीर्ष दो मॉडलों की तुलना में पीछे हैं।
  एन्सेम्बल विधियाँ जैसे Random Forest अभी भी विशिष्ट अनुप्रयोग आवश्यकताओं के आधार पर मूल्यवान हो सकती हैं।



7. निष्कर्ष और भविष्य के दिशा-निर्देश
एनएलपी में प्रभावी टेक्स्ट वर्गीकरणकर्ता बनाना केवल सही मॉडलों का चयन करना ही नहीं है, बल्कि सावधानीपूर्वक डेटा पूर्वप्रसंस्करण और मूल्यांकन भी शामिल है। मूवी रिव्यू डेटासेट के साथ हमारे अन्वेषण ने यह दिखाया कि LinearSVC और Naive Bayes भावना विश्लेषण कार्यों के लिए मजबूत विकल्प हैं, जो सटीकता, प्रेसिजन और रिकॉल के बीच संतुलन प्रदान करते हैं।
हालांकि, एनएलपी का क्षेत्र विशाल और निरंतर विकसित हो रहा है। जबकि पारंपरिक मशीन लर्निंग मॉडल एक मजबूत आधार प्रदान करते हैं, डीप लर्निंग मॉडल जैसे रकरेंट न्यूरल नेटवर्क (RNNs) और ट्रांसफॉर्मर्स टेक्स्ट वर्गीकरण में संभावनाओं की सीमाओं को धकेल रहे हैं। भविष्य के अध्ययन इन उन्नत संरचनाओं में गहराई से उतरेंगे ताकि मानव भाषा को समझने और वर्गीकृत करने में उनकी पूरी क्षमता का उपयोग किया जा सके।
अग्रणी पेशेवर जो आगे प्रयोग करना चाहते हैं, उनके लिए साथ में दिया गया जुपिटर नोटबुक इन मॉडलों को कार्यान्वित करने और समायोजित करने के लिए एक व्यावहारिक दृष्टिकोण प्रदान करता है। विभिन्न वेक्टराइजेशन तकनीकों, हाइपरपैरामीटर ट्यूनिंग, और एन्सेम्बलिंग रणनीतियों का अन्वेषण करने से और भी अधिक अनुकूलित प्रदर्शन प्राप्त किया जा सकता है।


8. संदर्भ

  Kaggle पर मूवी रिव्यू डेटासेट
  Scikit-learn: TfidfVectorizer दस्तावेज़
  Scikit-learn: टेक्स्ट डेटा के साथ काम करना ट्यूटोरियल
  XGBoost दस्तावेज़


लेखक के बारे में
मशीन लर्निंग और एनएलपी में व्यापक अनुभव के साथ, हमारी तकनीकी टीम डेटा साइंस तकनीकों में आपकी महारत हासिल करने में मदद करने के लिए अंतर्दृष्टिपूर्ण मार्गदर्शिकाएँ और ट्यूटोरियल प्रदान करने के लिए समर्पित है। अपनी कौशल बढ़ाने के लिए और अधिक गहन लेख और व्यावहारिक परियोजनाओं के लिए बने रहें।
हमारे समुदाय में शामिल हों
मशीन लर्निंग, एनएलपी, और अन्य विषयों पर नवीनतम अपडेट, ट्यूटोरियल, और विशेष सामग्री के लिए हमारा न्यूज़लेटर सब्सक्राइब करें!

अस्वीकरण: यह लेख शैक्षिक उद्देश्यों के लिए है। मॉडलों का प्रदर्शन डेटासेट की विशिष्टताओं और कार्यान्वयन के विवरणों के आधार पर भिन्न हो सकता है।
fold_id	cv_tag	html_id	sent_id	text	tag
0	cv000	29590	0	films adapted from comic books...	pos
0	cv000	29590	1	for starters, it was created by Alan Moore...	pos
...	...	...	...	...	...
मीट्रिक	विवरण
सटीकता	मॉडल की समग्र शुद्धता।
प्रेसिजन	सकारात्मक भविष्यवाणियों की शुद्धता।
रिकॉल	मॉडल की सभी सकारात्मक उदाहरणों को खोजने की क्षमता।
F1-स्कोर	प्रेसिजन और रिकॉल के बीच संतुलन।
कन्फ्यूजन मैट्रिक्स	क्लासेस के बीच भविष्यवाणियों के परिणाम का विस्तृत विभाजन।
मॉडल	सटीकता	प्रेसिजन (निग)	प्रेसिजन (पॉज)	रिकॉल (निग)	रिकॉल (पॉज)	F1-स्कोर (निग)	F1-स्कोर (पॉज)
LinearSVC	70%	69%	70%	69%	71%	0.69	0.71
Naive Bayes	70.7%	68%	73%	70%	71%	0.69	0.72
KNN	50.9%	63%	39%	49%	53%	0.56	0.45
XGBoost	62.7%	59%	66%	62%	63%	0.61	0.65
Random Forest	63.6%	58%	68%	63%	64%	0.61	0.66