Scikit-Learn के साथ एक प्रभावी टेक्स्ट क्लासिफायर बनाना: एक व्यापक मार्गदर्शिका

मेटा विवरण: Scikit-Learn का उपयोग करके NLP के साथ टेक्स्ट वर्गीकरण में गहराई से जाएं। यह जानें कि टेक्स्ट डेटा को कैसे प्रीप्रोसेस करें, CountVectorizer और TfidfVectorizer का उपयोग करें, LinearSVC मॉडल को प्रशिक्षित करें, और मजबूत टेक्स्ट क्लासिफायर बनाने में सामान्य चुनौतियों को कैसे पार करें।

बिग डेटा के युग में, नेचुरल लैंग्वेज प्रोसेसिंग (NLP) विशाल मात्रा में टेक्स्ट से महत्वपूर्ण अंतर्दृष्टि निकालने के लिए अनिवार्य बन गई है। चाहे यह भावना विश्लेषण, स्पैम पहचान, या विषय वर्गीकरण के लिए हो, टेक्स्ट वर्गीकरण NLP अनुप्रयोगों के अग्रिम पंक्ति में है। यह व्यापक मार्गदर्शिका, जो Jupyter Notebook से व्यावहारिक कोड स्निपेट्स से समृद्ध है, आपको Scikit-Learn का उपयोग करके एक प्रभावी टेक्स्ट क्लासिफायर बनाने के लिए मार्गदर्शन करेगी। हम डेटा प्रीप्रोसेसिंग तकनीकों, वेक्टराइजेशन विधियों, मॉडल प्रशिक्षण, और सामान्य जटिलताओं को ठीक करने का पता लगाएंगे।

सामग्री तालिका

टेक्स्ट वर्गीकरण का परिचय
डेटासेट अवलोकन
डेटा प्रीप्रोसेसिंग
- लाइब्रेरी आयात करना
- डेटा लोड करना
फीचर एक्सट्रैक्शन
- CountVectorizer
- TfidfVectorizer
मॉडल प्रशिक्षण और मूल्यांकन
सामान्य चुनौतियां और समाधान
निष्कर्ष और अगले कदम

टेक्स्ट वर्गीकरण का परिचय

टेक्स्ट वर्गीकरण NLP में एक मूलभूत कार्य है जिसमें पूर्वनिर्धारित श्रेणियों को पाठ्य डेटा को सौंपना शामिल है। अनुप्रयोगों में भावना विश्लेषण—निर्धारण करना कि एक समीक्षा सकारात्मक है या नकारात्मक—से लेकर अधिक जटिल कार्य जैसे विषय लेबलिंग और स्पैम पहचान शामिल हैं। टेक्स्ट को संख्यात्मक प्रतिनिधित्वों में परिवर्तित करके, मशीन लर्निंग मॉडल इन श्रेणियों को प्रभावी रूप से सीख और भविष्यवाणी कर सकते हैं।

डेटासेट अवलोकन

इस मार्गदर्शिका के लिए, हम Kaggle पर उपलब्ध मूवी समीक्षा डेटासेट का उपयोग करेंगे। इस डेटासेट में 64,720 मूवी समीक्षाएं शामिल हैं जिन्हें भावनाओं के साथ लेबल किया गया है (pos सकारात्मक के लिए और neg नकारात्मक के लिए), जो इसे बाइनरी सेंटिमेंट वर्गीकरण कार्यों के लिए आदर्श बनाता है।

डेटा लोड करना

आइए आवश्यक लाइब्रेरी को आयात करके और डेटासेट को लोड करके शुरू करते हैं।

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

import numpy as np

import pandas as pd

from sklearn.model_selection import train_test_split

# Load the dataset
data = pd.read_csv('movie_review.csv')
data.head()

# Load the dataset

data = pd.read_csv('movie_review.csv')

data.head()

नमूना आउटपुट:

fold_id	cv_tag	html_id	sent_id	text	tag
0	cv000	29590	0	कॉमिक बुक्स से अनुकूलित फिल्में have …	pos
1	cv000	29590	1	for starters, it was created by Alan …	pos
2	cv000	29590	2	to say Moore and Campbell thoroughly r…	pos
3	cv000	29590	3	the book (or “graphic novel,” if you wi…	pos
4	cv000	29590	4	in other words, don’t dismiss this film b…	pos

डेटा पूर्वप्रसंस्करण

फीचर एक्सट्रैक्शन और मॉडल प्रशिक्षण में गोता लगाने से पहले, डेटा को उचित रूप से पूर्वप्रसंस्करण करना आवश्यक है।

लाइब्रेरी आयात करना

सुनिश्चित करें कि आपने सभी आवश्यक लाइब्रेरी इंस्टॉल कर ली हैं। Scikit-Learn टेक्स्ट पूर्वप्रसंस्करण और मॉडल निर्माण के लिए मजबूत उपकरण प्रदान करता है।

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

from sklearn.svm import LinearSVC

from sklearn.metrics import accuracy_score

डेटा लोड करना

हमने पहले ही डेटासेट को लोड कर लिया है। अब, आइए फीचर्स और लेबल्स को अलग करें।

X = data.iloc[:, -2]  # Selecting the 'text' column
y = data.iloc[:, -1]  # Selecting the 'tag' column

1 2	X = data.iloc[:, -2] # Selecting the 'text' column y = data.iloc[:, -1] # Selecting the 'tag' column

फीचर एक्सट्रैक्शन

मशीन लर्निंग मॉडल को संख्यात्मक इनपुट की आवश्यकता होती है। इसलिए, टेक्स्ट डेटा को संख्यात्मक फीचर्स में परिवर्तित करना महत्वपूर्ण है। दो लोकप्रिय विधियां हैं CountVectorizer और TfidfVectorizer।

CountVectorizer

CountVectorizer टेक्स्ट को टोकन गणनाओं के मैट्रिक्स में परिवर्तित करता है, जो कोरपस में प्रत्येक शब्द की आवृत्ति को कैप्चर करता है।

from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?'
]
vectorizer = CountVectorizer()
X_counts = vectorizer.fit_transform(corpus)

print(vectorizer.get_feature_names_out())
print(X_counts.toarray())

from sklearn.feature_extraction.text import CountVectorizer

corpus = [

'This is the first document.',

'This document is the second document.',

'And this is the third one.',

'Is this the first document?'

]

vectorizer = CountVectorizer()

X_counts = vectorizer.fit_transform(corpus)

print(vectorizer.get_feature_names_out())

print(X_counts.toarray())

आउटपुट:

['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']
[[0 1 1 1 0 0 1 0 1]
 [0 2 0 1 0 1 1 0 1]
 [1 0 0 1 1 0 0 1 1]
 [0 1 1 1 0 0 1 0 1]]

['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']

[[0 1 1 1 0 0 1 0 1]

[0 2 0 1 0 1 1 0 1]

[1 0 0 1 1 0 0 1 1]

[0 1 1 1 0 0 1 0 1]]

TfidfVectorizer

TfidfVectorizer न केवल प्रत्येक शब्द की उपस्थिति की गणना करता है बल्कि दस्तावेजों में उनकी आवृत्ति के आधार पर गणनाओं को स्केल भी करता है। इससे सामान्य शब्दों का वजन कम करने और अधिक सूचना देने वाले शब्दों को हाइलाइट करने में मदद मिलती है।

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
X_tfidf = vectorizer.fit_transform(X_train)
print(vectorizer.get_feature_names_out())
print(X_tfidf.toarray())

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()

X_tfidf = vectorizer.fit_transform(X_train)

print(vectorizer.get_feature_names_out())

print(X_tfidf.toarray())

आउटपुट:

[[0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 ...
 [0.         0.         0.         ... 0.         0.         0.        ]]

[[0. 0. 0. ... 0. 0. 0. ]

[0. 0. 0. ... 0. 0. 0. ]

...

[0. 0. 0. ... 0. 0. 0. ]]

ध्यान दें: वास्तविक आउटपुट कई शून्यों के साथ एक बड़ी स्पार्स मैट्रिक्स होगी, जो डेटासेट में टर्म फ़्रीक्वेंसीज़ का प्रतिनिधित्व करती है।

मॉडल प्रशिक्षण और मूल्यांकन

संख्यात्मक प्रतिनिधित्व तैयार होने पर, हम एक क्लासिफायर को प्रशिक्षित करने के लिए आगे बढ़ सकते हैं।

ट्रेन-टेस्ट विभाजन

डेटासेट को प्रशिक्षण और परीक्षण सेटों में विभाजित करने से अनदेखे डेटा पर मॉडल के प्रदर्शन का मूल्यांकन करने में मदद मिलती है।

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1)

1	X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1)

LinearSVC मॉडल प्रशिक्षण

LinearSVC एक सामान्य रूप से उपयोग किया जाने वाला सपोर्ट वेक्टर मशीन (SVM) क्लासिफायर है जो टेक्स्ट वर्गीकरण कार्यों के लिए उपयुक्त है।

from sklearn.svm import LinearSVC

model = LinearSVC()
model.fit(X_tfidf, y_train)

from sklearn.svm import LinearSVC

model = LinearSVC()

model.fit(X_tfidf, y_train)

मॉडल प्रदर्शन का मूल्यांकन

परीक्षण सेट पर मॉडल की सटीकता का मूल्यांकन करें।

from sklearn.metrics import accuracy_score

y_pred = model.predict(X_test)
accuracy = accuracy_score(y_pred, y_test)
print(f"Model Accuracy: {accuracy:.2f}")

from sklearn.metrics import accuracy_score

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_pred, y_test)

print(f"Model Accuracy: {accuracy:.2f}")

संभावित आउटपुट:

Model Accuracy: 0.85

1	Model Accuracy: 0.85

ध्यान दें: वास्तविक सटीकता डेटासेट और पूर्वप्रसंस्करण चरणों के आधार पर भिन्न हो सकती है।

सामान्य चुनौतियां और समाधान

स्पार्स मैट्रिक्स को संभालना

टेक्स्ट डेटा अक्सर उच्च-आयामी स्पार्स मैट्रिक्स में परिणत होता है। एक स्पार्स मैट्रिक्स के अधिकांश तत्व शून्य होते हैं, जो मेमोरी में अक्षम्य हो सकते हैं।

समस्या:

जब X_test के साथ भविष्यवाणी करते हैं, यदि इसे उसी वेक्टराइज़र का उपयोग करके परिवर्तित नहीं किया गया है जो X_train पर फिट किया गया है, तो मॉडल त्रुटि दे सकता है या अविश्वसनीय भविष्यवाणियां कर सकता है।

समाधान:

प्रशिक्षण और परीक्षण दोनों डेटा को परिवर्तित करने के लिए हमेशा उसी वेक्टराइज़र इंस्टेंस का उपयोग करें। परीक्षण डेटा पर वेक्टराइज़र को फिट करने से बचें।

# Correct Transformation
X_test_tfidf = vectorizer.transform(X_test)
y_pred = model.predict(X_test_tfidf)
accuracy = accuracy_score(y_pred, y_test)

# Correct Transformation

X_test_tfidf = vectorizer.transform(X_test)

y_pred = model.predict(X_test_tfidf)

accuracy = accuracy_score(y_pred, y_test)

से बचें:

# Incorrect Transformation
X_test_tfidf = vectorizer.fit_transform(X_test)  # This refits the vectorizer on test data

1 2	# Incorrect Transformation X_test_tfidf = vectorizer.fit_transform(X_test) # This refits the vectorizer on test data

असंगत डेटा आकार

यह सुनिश्चित करना कि परिवर्तित परीक्षण डेटा का आकार प्रशिक्षण डेटा से मेल खाता है, सटीक भविष्यवाणियों के लिए महत्वपूर्ण है।

समस्या:

यदि परीक्षण डेटा में ऐसे शब्द शामिल हैं जो प्रशिक्षण के दौरान नहीं देखे गए थे, तो फीचर मैट्रिक्स के आकार भिन्न हो सकते हैं।

समाधान:

संगति बनाए रखने के लिए परीक्षण डेटा पर fit_transform के बजाय transform का उपयोग करें।

मॉडल ओवरफिटिंग

एक मॉडल प्रशिक्षण डेटा पर असाधारण रूप से अच्छा प्रदर्शन कर सकता है लेकिन अनदेखे डेटा पर खराब प्रदर्शन कर सकता है।

समाधान:

ओवरफिटिंग को रोकने के लिए क्रॉस-वैलिडेशन, रेगुलराइज़ेशन जैसी तकनीकों को लागू करें, और एक संतुलित डेटासेट सुनिश्चित करें।

पाइपलाइन्स के साथ चुनौतियों का सामना करना

जैसा कि ट्रांसक्रिप्ट में उजागर किया गया है, प्रत्येक पूर्वप्रसंस्करण और मॉडलिंग चरण को मैन्युअल रूप से प्रबंधित करना बोझिल और त्रुटिपूर्ण हो सकता है। Scikit-Learn की Pipeline क्लास इन चरणों को साथ में जोड़कर एक सरल समाधान प्रदान करती है, जिससे संगति सुनिश्चित होती है और कोड पढ़ने की क्षमता में सुधार होता है।

पाइपलाइन्स का उपयोग करने के लाभ:

सरलीकृत कार्यप्रवाह: पूरे कार्यप्रवाह को एक ही ऑब्जेक्ट में समाहित करता है।
संगति: सुनिश्चित करता है कि प्रशिक्षण और भविष्यवाणी के दौरान समान पूर्वप्रसंस्करण चरण लागू किए गए हैं।
हाइपरपैरामीटर ट्यूनिंग में आसानी: ग्रिड खोज और क्रॉस-वैलिडेशन को सहजता से सुविधाजनक बनाता है।

उदाहरण:

from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import LinearSVC

pipeline = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('svc', LinearSVC())
])

# Training the pipeline
pipeline.fit(X_train, y_train)

# Predicting and evaluating
y_pred = pipeline.predict(X_test)
accuracy = accuracy_score(y_pred, y_test)
print(f"Pipeline Model Accuracy: {accuracy:.2f}")

from sklearn.pipeline import Pipeline

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.svm import LinearSVC

pipeline = Pipeline([

('tfidf', TfidfVectorizer()),

('svc', LinearSVC())

])

# Training the pipeline

pipeline.fit(X_train, y_train)

# Predicting and evaluating

y_pred = pipeline.predict(X_test)

accuracy = accuracy_score(y_pred, y_test)

print(f"Pipeline Model Accuracy: {accuracy:.2f}")

इस दृष्टिकोण से परीक्षण डेटा को अलग-अलग परिवर्तित करने की आवश्यकता समाप्त हो जाती है, क्योंकि पाइपलाइन सुनिश्चित करती है कि सभी आवश्यक परिवर्तनों को सही ढंग से लागू किया गया है।

निष्कर्ष और अगले कदम

एक मजबूत टेक्स्ट क्लासिफायर बनाने में सावधानीपूर्वक पूर्वप्रसंस्करण, फीचर एक्सट्रैक्शन, मॉडल चयन, और मूल्यांकन शामिल है। Scikit-Learn के शक्तिशाली उपकरणों—जैसे CountVectorizer, TfidfVectorizer, LinearSVC, और Pipeline—का उपयोग करके, आप प्रक्रिया को सरल बना सकते हैं और अपने NLP कार्यों में उच्च सटीकता प्राप्त कर सकते हैं।

अगले कदम:

विभिन्न मॉडलों के साथ प्रयोग करें: संभावित रूप से बेहतर प्रदर्शन के लिए Naive Bayes या डीप लर्निंग मॉडल जैसे अन्य क्लासिफायर का अन्वेषण करें।
हाइपरपैरामीटर ट्यूनिंग: सटीकता बढ़ाने के लिए ग्रिड सर्च या रैंडम सर्च का उपयोग करके मॉडल पैरामीटर्स को अनुकूलित करें।
उन्नत फीचर एक्सट्रैक्शन: n-ग्राम, वर्ड एम्बेडिंग्स, या विभिन्न नॉर्मलाइजेशन रणनीतियों के साथ TF-IDF जैसी तकनीकों को शामिल करें।
असंतुलित डेटा को संभालना: असंतुलित वर्गों वाले डेटासेट को संभालने के लिए अंडरसैम्पलिंग, ओवरसैम्पलिंग जैसी रणनीतियों या विशेषीकृत मेट्रिक्स का उपयोग करें।

टेक्स्ट वर्गीकरण की यात्रा शुरू करने से अनगिनत अनुप्रयोगों के दरवाजे खुलते हैं, जैसे ग्राहक की भावनाओं को समझना से लेकर सामग्री मॉडरेशन को स्वचालित करना। इस मार्गदर्शिका में जो नींव रखी गई है, उससे आप NLP की आकर्षक दुनिया में और गहराई से जाने के लिए अच्छी तरह से तैयार हैं।

संदर्भ: