S39L05 – 텍스트 분류기 구축하기

html
Scikit-Learn을 사용한 효과적인 텍스트 분류기 구축: 종합 가이드

메타 설명: Scikit-Learn을 활용한 NLP 텍스트 분류에 뛰어들어 보세요. 텍스트 데이터 전처리, CountVectorizer 및 TfidfVectorizer 활용, LinearSVC 모델 학습 방법을 배우고, 견고한 텍스트 분류기를 구축하는 과정에서 흔히 발생하는 문제를 극복하는 방법을 알아보세요.



빅데이터 시대에 자연어 처리(NLP)는 방대한 양의 텍스트에서 의미 있는 통찰을 추출하는 데 필수적인 도구가 되었습니다. 감성 분석, 스팸 감지, 주제 분류 등 텍스트 분류는 NLP 응용 분야의 최전선에 서 있습니다. 이 종합 가이드는 Jupyter Notebook의 실용적인 코드 스니펫을 통해 Scikit-Learn을 사용하여 효과적인 텍스트 분류기를 구축하는 과정을 안내합니다. 데이터 전처리 기술, 벡터화 방법, 모델 학습 및 일반적인 문제 해결 방법을 탐구할 것입니다.

목차

    텍스트 분류 소개
    데이터셋 개요
    데이터 전처리
        
            라이브러리 가져오기
            데이터 로딩
        
    
    특징 추출
        
            CountVectorizer
            TfidfVectorizer
        
    
    모델 학습 및 평가
        
            훈련-테스트 분할
            LinearSVC 모델 학습
            모델 성능 평가
        
    
    일반적인 문제 및 해결책
    결론 및 다음 단계




텍스트 분류 소개

텍스트 분류는 텍스트 데이터를 사전 정의된 카테고리에 할당하는 NLP의 기본 작업입니다. 응용 분야는 감성 분석—리뷰가 긍정적인지 부정적인지 판단하는 것—부터 주제 라벨링 및 스팸 감지와 같은 더 복잡한 작업에 이르기까지 다양합니다. 텍스트를 숫자 표현으로 변환함으로써 기계 학습 모델은 이러한 카테고리를 효과적으로 학습하고 예측할 수 있습니다.

데이터셋 개요

이 가이드에서는 Kaggle에서 제공하는 영화 리뷰 데이터셋을 활용할 것입니다. 이 데이터셋은 감성(pos: 긍정, neg: 부정)으로 라벨링된 64,720개의 영화 리뷰로 구성되어 있어 이진 감성 분류 작업에 이상적입니다.

데이터 로딩

필요한 라이브러리를 가져오고 데이터셋을 로드하는 것부터 시작하겠습니다.





		
		
			
			
Java
			
			import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
			
				
					
				
					1
2
3
				
						import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
					
				
			
		







		
		
			
			
Java
			
			# 데이터셋 로드
data = pd.read_csv('movie_review.csv')
data.head()
			
				
					
				
					1
2
3
				
						# 데이터셋 로드
data = pd.read_csv('movie_review.csv')
data.head()
					
				
			
		



샘플 출력:


    
        fold_id
        cv_tag
        html_id
        sent_id
        text
        tag
    
    
        0
        cv000
        29590
        0
        films adapted from comic books have ...
        pos
    
    
        1
        cv000
        29590
        1
        for starters, it was created by Alan ...
        pos
    
    
        2
        cv000
        29590
        2
        to say Moore and Campbell thoroughly r...
        pos
    
    
        3
        cv000
        29590
        3
        the book (or "graphic novel," if you wi...
        pos
    
    
        4
        cv000
        29590
        4
        in other words, don't dismiss this film b...
        pos
    


데이터 전처리

특징 추출 및 모델 학습에 뛰어들기 전에 데이터를 적절하게 전처리하는 것이 필수적입니다.

라이브러리 가져오기

필요한 모든 라이브러리가 설치되어 있는지 확인하십시오. Scikit-Learn은 텍스트 전처리 및 모델 구축을 위한 강력한 도구를 제공합니다.





		
		
			
			
Java
			
			from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score
			
				
					
				
					1
2
3
				
						from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score
					
				
			
		



데이터 로딩

이미 데이터셋을 로드했습니다. 이제 특징과 레이블을 분리해 보겠습니다.





		
		
			
			
Java
			
			X = data.iloc[:, -2]  # 'text' 열 선택
y = data.iloc[:, -1]  # 'tag' 열 선택
			
				
					
				
					1
2
				
						X = data.iloc[:, -2]  # 'text' 열 선택
y = data.iloc[:, -1]  # 'tag' 열 선택
					
				
			
		



특징 추출

기계 학습 모델은 숫자 입력을 필요로 합니다. 따라서 텍스트 데이터를 숫자 특징으로 변환하는 것이 중요합니다. 두 가지 인기 있는 방법은 CountVectorizer와 TfidfVectorizer입니다.

CountVectorizer

CountVectorizer는 텍스트를 토큰 수의 행렬로 변환하여 말뭉치 내 각 단어의 빈도를 캡처합니다.





		
		
			
			
Java
			
			from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?'
]
vectorizer = CountVectorizer()
X_counts = vectorizer.fit_transform(corpus)

print(vectorizer.get_feature_names_out())
print(X_counts.toarray())
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
				
						from sklearn.feature_extraction.text import CountVectorizer
 
corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?'
]
vectorizer = CountVectorizer()
X_counts = vectorizer.fit_transform(corpus)
 
print(vectorizer.get_feature_names_out())
print(X_counts.toarray())
					
				
			
		



출력:




		
		
			
			
Java
			
			['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']
[[0 1 1 1 0 0 1 0 1]
 [0 2 0 1 0 1 1 0 1]
 [1 0 0 1 1 0 0 1 1]
 [0 1 1 1 0 0 1 0 1]]
			
				
					
				
					1
2
3
4
5
				
						['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']
[[0 1 1 1 0 0 1 0 1]
 [0 2 0 1 0 1 1 0 1]
 [1 0 0 1 1 0 0 1 1]
 [0 1 1 1 0 0 1 0 1]]
					
				
			
		



TfidfVectorizer

TfidfVectorizer는 각 단어의 출현 횟수를 계산할 뿐만 아니라 문서 전체에서 나타나는 빈도에 따라 그 비율을 조정합니다. 이는 일반적인 단어의 가중치를 줄이고 보다 정보성이 높은 단어를 강조하는 데 도움이 됩니다.





		
		
			
			
Java
			
			from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
X_tfidf = vectorizer.fit_transform(X_train)
print(vectorizer.get_feature_names_out())
print(X_tfidf.toarray())
			
				
					
				
					1
2
3
4
5
6
				
						from sklearn.feature_extraction.text import TfidfVectorizer
 
vectorizer = TfidfVectorizer()
X_tfidf = vectorizer.fit_transform(X_train)
print(vectorizer.get_feature_names_out())
print(X_tfidf.toarray())
					
				
			
		



출력:




		
		
			
			
Java
			
			[[0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 ...
 [0.         0.         0.         ... 0.         0.         0.        ]]
			
				
					
				
					1
2
3
4
				
						[[0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 ...
 [0.         0.         0.         ... 0.         0.         0.        ]]
					
				
			
		



참고: 실제 출력은 데이터셋 전체의 용어 빈도를 나타내는 많은 0이 포함된 큰 희소 행렬이 될 것입니다.

모델 학습 및 평가

숫자 표현이 준비되었으므로 분류기를 학습시킬 수 있습니다.

훈련-테스트 분할

데이터셋을 훈련 세트와 테스트 세트로 분할하면 모델이 보지 못한 데이터에 대한 성능을 평가하는 데 도움이 됩니다.





		
		
			
			
Java
			
			X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1)
			
				
					
				
					1
				
						X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1)
					
				
			
		



LinearSVC 모델 학습

LinearSVC는 텍스트 분류 작업에 적합한 일반적으로 사용되는 서포트 벡터 머신(SVM) 분류기입니다.





		
		
			
			
Java
			
			from sklearn.svm import LinearSVC

model = LinearSVC()
model.fit(X_tfidf, y_train)
			
				
					
				
					1
2
3
4
				
						from sklearn.svm import LinearSVC
 
model = LinearSVC()
model.fit(X_tfidf, y_train)
					
				
			
		



모델 성능 평가

테스트 세트에서 모델의 정확도를 평가합니다.





		
		
			
			
Java
			
			from sklearn.metrics import accuracy_score

y_pred = model.predict(X_test)
accuracy = accuracy_score(y_pred, y_test)
print(f"Model Accuracy: {accuracy:.2f}")
			
				
					
				
					1
2
3
4
5
				
						from sklearn.metrics import accuracy_score
 
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_pred, y_test)
print(f"Model Accuracy: {accuracy:.2f}")
					
				
			
		



잠재적 출력:




		
		
			
			
Java
			
			Model Accuracy: 0.85
			
				
					
				
					1
				
						Model Accuracy: 0.85
					
				
			
		



참고: 실제 정확도는 데이터셋 및 전처리 단계에 따라 달라질 수 있습니다.

일반적인 문제 및 해결책

희소 행렬 처리

텍스트 데이터는 종종 고차원 희소 행렬을 생성합니다. 희소 행렬은 대부분의 요소가 0인 행렬로, 메모리 효율성이 떨어질 수 있습니다.

문제:
X_test를 예측할 때, 훈련 데이터에 맞춰 학습된 벡터라이저를 사용하지 않으면 모델이 오류를 발생시키거나 신뢰할 수 없는 예측을 할 수 있습니다.

해결책:
훈련 데이터와 테스트 데이터를 변환할 때 동일한 벡터라이저 인스턴스를 항상 사용하십시오. 테스트 데이터에서 벡터라이저를 다시 학습(fit)하지 마십시오.





		
		
			
			
Java
			
			# 올바른 변환
X_test_tfidf = vectorizer.transform(X_test)
y_pred = model.predict(X_test_tfidf)
accuracy = accuracy_score(y_pred, y_test)
			
				
					
				
					1
2
3
4
				
						# 올바른 변환
X_test_tfidf = vectorizer.transform(X_test)
y_pred = model.predict(X_test_tfidf)
accuracy = accuracy_score(y_pred, y_test)
					
				
			
		



피해야 할 사항:




		
		
			
			
Java
			
			# 잘못된 변환
X_test_tfidf = vectorizer.fit_transform(X_test)  # 테스트 데이터에서 벡터라이저를 다시 학습함
			
				
					
				
					1
2
				
						# 잘못된 변환
X_test_tfidf = vectorizer.fit_transform(X_test)  # 테스트 데이터에서 벡터라이저를 다시 학습함
					
				
			
		



데이터 형태 불일치

변환된 테스트 데이터의 형태가 훈련 데이터와 일치하는지 확인하는 것은 정확한 예측을 위해 매우 중요합니다.

문제:
테스트 데이터에 훈련 중에 보지 못한 단어가 포함되어 있으면 피처 행렬의 형태가 달라질 수 있습니다.

해결책:
일관성을 유지하기 위해 테스트 데이터에 fit_transform 대신 transform을 사용하십시오.

모델 과적합

모델이 훈련 데이터에서는 매우 잘 작동하지만 보지 않은 데이터에서는 성능이 저조할 수 있습니다.

해결책:
교차 검증, 정규화 기법을 구현하고, 데이터셋의 균형을 맞추어 과적합을 방지하십시오.

파이프라인을 통한 문제 해결

전사에서 강조한 바와 같이, 각 전처리 및 모델링 단계를 수동으로 관리하는 것은 번거롭고 오류가 발생하기 쉽습니다. Scikit-Learn의 Pipeline 클래스는 이러한 단계를 체인으로 연결하여 일관성을 보장하고 코드 가독성을 향상시키는 간소화된 솔루션을 제공합니다.

파이프라인 사용의 장점:

    간소화된 워크플로우: 전체 워크플로우를 단일 객체로 캡슐화합니다.
    일관성: 훈련 및 예측 시 동일한 전처리 단계를 적용합니다.
    하이퍼파라미터 튜닝의 용이성: 그리드 서치나 교차 검증을 원활하게 수행할 수 있습니다.


예시:





		
		
			
			
Java
			
			from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import LinearSVC

pipeline = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('svc', LinearSVC())
])

# 파이프라인 학습
pipeline.fit(X_train, y_train)

# 예측 및 평가
y_pred = pipeline.predict(X_test)
accuracy = accuracy_score(y_pred, y_test)
print(f"Pipeline Model Accuracy: {accuracy:.2f}")
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
				
						from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import LinearSVC
 
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('svc', LinearSVC())
])
 
# 파이프라인 학습
pipeline.fit(X_train, y_train)
 
# 예측 및 평가
y_pred = pipeline.predict(X_test)
accuracy = accuracy_score(y_pred, y_test)
print(f"Pipeline Model Accuracy: {accuracy:.2f}")
					
				
			
		



이 접근 방식은 테스트 데이터를 별도로 변환할 필요를 없애며, 파이프라인이 모든 필요한 변환을 올바르게 적용하도록 보장합니다.

결론 및 다음 단계

견고한 텍스트 분류기를 구축하려면 신중한 전처리, 특징 추출, 모델 선택 및 평가가 필요합니다. CountVectorizer, TfidfVectorizer, LinearSVC, Pipeline과 같은 Scikit-Learn의 강력한 도구를 활용함으로써 과정을 간소화하고 NLP 작업에서 높은 정확도를 달성할 수 있습니다.

다음 단계:

    다양한 모델 실험: 나이브 베이즈나 딥러닝 모델과 같은 다른 분류기를 탐색하여 잠재적으로 더 나은 성능을 도모하십시오.
    하이퍼파라미터 튜닝: 그리드 서치나 랜덤 서치를 사용하여 모델 매개변수를 최적화하여 정확도를 향상시키십시오.
    고급 특징 추출: n-그램, 단어 임베딩 또는 다양한 정규화 전략을 사용하는 TF-IDF와 같은 기법을 통합하십시오.
    불균형 데이터 처리: 언더샘플링, 오버샘플링 또는 특수한 메트릭을 사용하여 클래스가 불균형한 데이터셋을 처리하는 전략을 구현하십시오.


텍스트 분류의 여정을 시작하면 고객의 감정을 이해하거나 콘텐츠 조정을 자동화하는 등 무수한 응용 분야가 열립니다. 이 가이드에서 다룬 기초를 바탕으로 NLP의 매혹적인 세계로 더욱 깊이 들어갈 준비가 되었습니다.



참고 문헌:

    Scikit-Learn TfidfVectorizer 문서
    Scikit-Learn 텍스트 데이터 다루기 튜토리얼
    Kaggle 영화 리뷰 데이터셋
fold_id	cv_tag	html_id	sent_id	text	tag
0	cv000	29590	0	films adapted from comic books have ...	pos
1	cv000	29590	1	for starters, it was created by Alan ...	pos
2	cv000	29590	2	to say Moore and Campbell thoroughly r...	pos
3	cv000	29590	3	the book (or "graphic novel," if you wi...	pos
4	cv000	29590	4	in other words, don't dismiss this film b...	pos