TF-IDF 이해하기: 용어 빈도-역 문서 빈도를 통한 텍스트 분석 강화

자연어 처리(NLP) 분야에서 텍스트 데이터를 효과적으로 분석하고 이해하는 것은 매우 중요합니다. 다양한 기술 중에서 용어 빈도-역 문서 빈도(Term Frequency-Inverse Document Frequency, TF-IDF)는 텍스트를 의미 있는 수치적 표현으로 변환하는 강력한 도구로 돋보입니다. 이 포괄적인 가이드는 TF-IDF의 기본 개념, 장점 및 Python의 Scikit-learn 라이브러리를 사용한 실용적인 구현 방법을 깊이 있게 탐구합니다.

TF-IDF란 무엇인가?

용어 빈도-역 문서 빈도(Term Frequency-Inverse Document Frequency, TF-IDF)는 단어가 문서 내에서 얼마나 중요한지를 나타내는 수치적 통계입니다. 이는 정보 검색, 텍스트 마이닝 및 NLP에서 특정 문서가 큰 데이터셋 내에서 단어의 관련성을 평가하는 데 널리 사용됩니다.

왜 TF-IDF를 사용하는가?

CountVectorizer와 같은 단순 단어 빈도 계산은 용어의 원시 빈도를 제공하지만, 용어가 말뭉치 내에서 얼마나 중요한지를 고려하지 않습니다. “the”, “is”, “and”와 같은 일반적인 단어는 자주 등장할 수 있지만, 의미적 무게는 적습니다. TF-IDF는 용어가 문서 전체에서 분포되는 방식을 기반으로 단어의 가중치를 조정하여, 더 독특하고 유익한 용어를 강조함으로써 이를 해결합니다.

TF-IDF의 작동 원리

TF-IDF는 두 가지 지표를 결합합니다:

용어 빈도(TF): 문서 내에서 용어가 얼마나 자주 나타나는지를 측정합니다.

\[ \text{TF}(t, d) = \frac{\text{문서 } d \text{에서 용어 } t \text{가 나타난 횟수}}{\text{문서 } d \text{의 총 용어 수}} \]

역 문서 빈도(IDF): 용어가 전체 말뭉치에서 얼마나 중요한지를 측정합니다.

\[ \text{IDF}(t, D) = \log \left( \frac{\text{전체 문서 수 } N}{\text{용어 } t \text{를 포함하는 문서 수}} \right) \]

TF-IDF 점수는 TF와 IDF의 곱입니다:

\[ \text{TF-IDF}(t, d, D) = \text{TF}(t, d) \times \text{IDF}(t, D) \]

이 계산은 여러 문서에 걸쳐 일반적인 용어는 낮은 가중치를, 특정 문서에만 독특하게 나타나는 용어는 높은 가중치를 부여하도록 합니다.

Python에서 TF-IDF 구현하기

Python의 Scikit-learn 라이브러리는 TfidfVectorizer를 통해 TF-IDF를 구현할 수 있는 강력한 도구를 제공합니다. 아래는 데이터셋에 TF-IDF를 적용하는 단계별 가이드입니다.

데이터셋 설정

실용 예제를 위해 Kaggle의 영화 리뷰 데이터셋을 사용하겠습니다. 이 데이터셋은 긍정(pos) 또는 부정(neg)으로 라벨링된 64,720개의 영화 리뷰로 구성되어 있습니다.

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

# Import Data
data = pd.read_csv('movie_review.csv')
data.head()

import numpy as np

import pandas as pd

from sklearn.model_selection import train_test_split

# Import Data

data = pd.read_csv('movie_review.csv')

data.head()

샘플 출력:

   fold_id cv_tag  html_id  sent_id                                               text tag
0        0  cv000    29590        0  films adapted from comic books have had plenty...  pos
1        0  cv000    29590        1  for starters , it was created by alan moore ( ...  pos
2        0  cv000    29590        2  to say moore and campbell thoroughly researche...  pos
3        0  cv000    29590        3  the book ( or " graphic novel , " if you will ...  pos
4        0  cv000    29590        4  in other words , don't dismiss this film becau...  pos

fold_id cv_tag html_id sent_id text tag

0 0 cv000 29590 0 films adapted from comic books have had plenty... pos

1 0 cv000 29590 1 for starters , it was created by alan moore ( ... pos

2 0 cv000 29590 2 to say moore and campbell thoroughly researche... pos

3 0 cv000 29590 3 the book ( or " graphic novel , " if you will ... pos

4 0 cv000 29590 4 in other words , don't dismiss this film becau... pos

CountVectorizer 사용하기

TF-IDF로 넘어가기 전에, 텍스트 문서 컬렉션을 토큰 카운트 매트릭스로 변환하는 CountVectorizer를 이해하는 것이 유익합니다.

from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?'
]

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names_out())
print(X.toarray())

from sklearn.feature_extraction.text import CountVectorizer

corpus = [

'This is the first document.',

'This document is the second document.',

'And this is the third one.',

'Is this the first document?'

]

vectorizer = CountVectorizer()

X = vectorizer.fit_transform(corpus)

print(vectorizer.get_feature_names_out())

print(X.toarray())

출력:

['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']
[[0 1 1 1 0 0 1 0 1]
 [0 2 0 1 0 1 1 0 1]
 [1 0 0 1 1 0 1 1 1]
 [0 1 1 1 0 0 1 0 1]]

['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']

[[0 1 1 1 0 0 1 0 1]

[0 2 0 1 0 1 1 0 1]

[1 0 0 1 1 0 1 1 1]

[0 1 1 1 0 0 1 0 1]]

출력에서 우리는 말뭉치 내의 각 단어가 수치적 매트릭스 형태로 어떻게 카운트되는지를 확인할 수 있습니다. 하지만 이 방법은 말뭉치 전체에서 각 단어의 중요성을 고려하지 않습니다.

TfidfVectorizer 적용하기

분석을 향상시키기 위해, TfidfVectorizer는 텍스트 데이터를 TF-IDF 특징으로 변환하여 용어의 중요도에 따라 가중치를 부여합니다.

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names_out())
print(X.toarray())

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()

X = vectorizer.fit_transform(corpus)

print(vectorizer.get_feature_names_out())

print(X.toarray())

출력:

['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']
[[0.         0.46979139 0.58028582 0.38408524 0.         0.
  0.38408524 0.         0.38408524]
 [0.         0.6876236  0.         0.28108867 0.         0.53864762
  0.28108867 0.         0.28108867]
 [0.51184851 0.         0.         0.26710379 0.51184851 0.
  0.26710379 0.51184851 0.26710379]
 [0.         0.46979139 0.58028582 0.38408524 0.         0.
  0.38408524 0.         0.38408524]]

['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']

[[0. 0.46979139 0.58028582 0.38408524 0. 0.

0.38408524 0. 0.38408524]

[0. 0.6876236 0. 0.28108867 0. 0.53864762

0.28108867 0. 0.28108867]

[0.51184851 0. 0. 0.26710379 0.51184851 0.

0.26710379 0.51184851 0.26710379]

[0. 0.46979139 0.58028582 0.38408524 0. 0.

0.38408524 0. 0.38408524]]

이제 TF-IDF 매트릭스는 각 문서 내에서 단어의 중요성을 전체 말뭉치에 비해 강조하여 가중치가 부여된 표현을 제공합니다.

모델링을 위한 데이터 준비

예측 모델을 구축하기 위해 데이터셋을 훈련 세트와 테스트 세트로 분할합니다.

X = data['text']
y = data['tag']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1)

X = data['text']

y = data['tag']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1)

실용 예제: 영화 리뷰 분석

TF-IDF를 활용하여 영화 리뷰를 긍정 또는 부정으로 분류하는 모델을 구축할 수 있습니다. 아래는 간소화된 워크플로우입니다:

데이터 로딩 및 전처리:
- 데이터셋을 불러옵니다.
- 데이터 구조를 탐색합니다.
- 누락된 값이나 이상치를 처리합니다.
특징 추출:
- TfidfVectorizer를 사용하여 텍스트 데이터를 TF-IDF 특징으로 변환합니다.
- 선택적으로, 모델 성능 향상을 위해 불용어를 제거합니다:
Java

vectorizer = TfidfVectorizer(stop_words='english')

1

vectorizer = TfidfVectorizer(stop_words='english')
모델 구축:
- 분류 알고리즘을 선택합니다 (예: 로지스틱 회귀, 서포트 벡터 머신).
- 훈련 세트로 모델을 학습시킵니다.
- 테스트 세트에서 성능을 평가합니다.
평가 지표:
- 정확도, 정밀도, 재현율, F1-스코어, ROC-AUC는 모델 성능을 평가하는 일반적인 지표입니다.

샘플 코드:

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

# Vectorization
vectorizer = TfidfVectorizer(stop_words='english')
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)

# Model Training
model = LogisticRegression()
model.fit(X_train_tfidf, y_train)

# Predictions
y_pred = model.predict(X_test_tfidf)

# Evaluation
print(classification_report(y_test, y_pred))

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.linear_model import LogisticRegression

from sklearn.metrics import classification_report

# Vectorization

vectorizer = TfidfVectorizer(stop_words='english')

X_train_tfidf = vectorizer.fit_transform(X_train)

X_test_tfidf = vectorizer.transform(X_test)

# Model Training

model = LogisticRegression()

model.fit(X_train_tfidf, y_train)

# Predictions

y_pred = model.predict(X_test_tfidf)

# Evaluation

print(classification_report(y_test, y_pred))

샘플 출력:

              precision    recall  f1-score   support

         neg       0.85      0.90      0.87      3200
         pos       0.88      0.83      0.85      3200

    accuracy                           0.86      6400
   macro avg       0.86      0.86      0.86      6400
weighted avg       0.86      0.86      0.86      6400

precision recall f1-score support

neg 0.85 0.90 0.87 3200

pos 0.88 0.83 0.85 3200

accuracy 0.86 6400

macro avg 0.86 0.86 0.86 6400

weighted avg 0.86 0.86 0.86 6400

모델은 긍정적 및 부정적 리뷰를 정확하게 구분하며 강력한 성능을 보여줍니다.

TF-IDF의 장점

중요 단어 강조: 드물지만 중요한 용어에 높은 가중치를 부여함으로써 TF-IDF는 특징의 판별력을 향상시킵니다.
노이즈 감소: 의미적 가치가 낮은 일반 단어의 가중치를 낮춰 보다 깔끔한 특징 세트를 만듭니다.
다용성: 문서 분류, 군집화, 정보 검색 등 다양한 NLP 작업에 적용 가능합니다.
구현의 용이성: Scikit-learn과 같은 라이브러리는 TF-IDF를 데이터 파이프라인에 쉽게 통합할 수 있도록 합니다.

TF-IDF의 한계

희소 표현: 결과 매트릭스는 종종 희소하여 매우 큰 말뭉치의 경우 계산 비용이 많이 들 수 있습니다.
의미 이해 부족: TF-IDF는 단어 간의 문맥이나 의미적 관계를 포착하지 못합니다. Word2Vec 또는 BERT와 같은 고급 모델이 이 한계를 해결합니다.
문서 길이에 대한 민감성: 긴 문서는 더 높은 용어 빈도를 가질 수 있어 TF-IDF 점수를 왜곡할 수 있습니다.

결론

용어 빈도-역 문서 빈도(Term Frequency-Inverse Document Frequency, TF-IDF)는 텍스트 데이터를 의미 있는 수치적 표현으로 변환할 수 있는 NLP 도구 키트에서 필수적인 기술입니다. 개별 문서 내 용어의 빈도를 말뭉치 전체에서의 빈도와 균형을 맞춤으로써 TF-IDF는 가장 유익한 단어를 강조하여 다양한 텍스트 기반 모델의 성능을 향상시킵니다.

감정 분석 도구, 검색 엔진 또는 추천 시스템을 구축하든, TF-IDF를 이해하고 활용하는 것은 프로젝트의 효과성과 정확성을 크게 높일 수 있습니다.

추가 자료

이론적 통찰과 실용적인 구현을 통합함으로써, 이 가이드는 TF-IDF에 대한 총체적인 이해를 제공하며, 텍스트 분석 작업에서 그 능력을 활용할 수 있도록 합니다.

S39L04 – 단어 빈도 역문서 빈도