Construindo um Classificador de Texto Robusto com Python: Aproveitando Pipelines e LinearSVC

Índice

Introdução à Classificação de Texto
Visão Geral do Conjunto de Dados
Configurando o Ambiente
Pré-processamento de Dados
Vetorização com TF-IDF
Construindo um Pipeline de Aprendizado de Máquina
Treinando o Modelo
Avaliando o Desempenho do Modelo
Realizando Previsões
Conclusão
Recursos Adicionais

Introdução à Classificação de Texto

A classificação de texto é uma tarefa crítica em Processamento de Linguagem Natural (NLP) que envolve a atribuição de categorias predefinidas aos dados textuais. As aplicações vão desde análise de sentimento e rotulagem de tópicos até filtragem de conteúdo e muito mais. Os passos principais na construção de um classificador de texto incluem coleta de dados, pré-processamento, extração de características, treinamento do modelo e avaliação.

Neste guia, focaremos em transformar dados textuais em características numéricas utilizando vetorização TF-IDF e construir um modelo de classificação usando LinearSVC dentro de um pipeline simplificado. Utilizar pipelines garante que a sucessão de etapas de processamento de dados seja gerenciada de forma eficiente, reduzindo o risco de erros e aumentando a reprodutibilidade.

Visão Geral do Conjunto de Dados

Para este tutorial, utilizaremos o Conjunto de Dados de Avaliação de Filmes do Kaggle, que contém 64.720 avaliações de filmes rotuladas como positivas (pos) ou negativas (neg). Este conjunto de dados é ideal para tarefas de análise de sentimento binária.

Visualização de Dados de Amostra:

fold_id	cv_tag	html_id	sent_id	text	tag
0	cv000	29590	0	filmes adaptados de quadrinhos tiveram bastante…	pos
1	cv000	29590	1	para começar, foi criado por Alan Moore (…)	pos
…	…	…	…	…	…

Configurando o Ambiente

Antes de mergulhar no código, certifique-se de que você tenha as bibliotecas necessárias instaladas. Você pode instalá-las usando pip:

pip install numpy pandas scikit-learn

1	pip install numpy pandas scikit-learn

Alternativamente, se você estiver usando Anaconda:

conda install numpy pandas scikit-learn

1	conda install numpy pandas scikit-learn

Pré-processamento de Dados

O pré-processamento de dados é uma etapa crucial na preparação do seu conjunto de dados para a modelagem. Envolve o carregamento dos dados, tratamento de valores ausentes e divisão do conjunto de dados em conjuntos de treinamento e teste.

Importando Bibliotecas

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

import numpy as np

import pandas as pd

from sklearn.model_selection import train_test_split

from sklearn.svm import LinearSVC

from sklearn.metrics import accuracy_score

Carregando o Conjunto de Dados

# Carregar o conjunto de dados
data = pd.read_csv('movie_review.csv')

# Exibir as primeiras linhas
data.head()

# Carregar o conjunto de dados

data = pd.read_csv('movie_review.csv')

# Exibir as primeiras linhas

data.head()

Exemplo de Saída:

   fold_id  cv_tag  html_id  sent_id  \
0        0  cv000    29590        0   
1        0  cv000    29590        1   
2        0  cv000    29590        2   
3        0  cv000    29590        3   
4        0  cv000    29590        4   

                                                    text tag  
0  filmes adaptados de quadrinhos tiveram bastante...  pos  
1  para começar, foi criado por Alan Moore (...)  pos  
2  para dizer que Moore e Campbell pesquisaram minuciosamente...  pos  
3  o livro (ou "romance gráfico,") se você preferir...  pos  
4  em outras palavras, não descarte este filme porque...  pos

fold_id cv_tag html_id sent_id \

0 0 cv000 29590 0

1 0 cv000 29590 1

2 0 cv000 29590 2

3 0 cv000 29590 3

4 0 cv000 29590 4

text tag

0 filmes adaptados de quadrinhos tiveram bastante... pos

1 para começar, foi criado por Alan Moore (...) pos

2 para dizer que Moore e Campbell pesquisaram minuciosamente... pos

3 o livro (ou "romance gráfico,") se você preferir... pos

4 em outras palavras, não descarte este filme porque... pos

Seleção de Características

Usaremos a coluna text como nossa característica (X) e a coluna tag como nossa variável alvo (y).

X = data['text']
y = data['tag']

1 2	X = data['text'] y = data['tag']

Dividindo o Conjunto de Dados

Dividir os dados em conjuntos de treinamento e teste nos permite avaliar o desempenho do modelo em dados não vistos.

from sklearn.model_selection import train_test_split

# Dividir o conjunto de dados (80% treinamento, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1)

from sklearn.model_selection import train_test_split

# Dividir o conjunto de dados (80% treinamento, 20% teste)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1)

Vetorização com TF-IDF

Modelos de aprendizado de máquina requerem entrada numérica. A vetorização converte dados textuais em características numéricas. Enquanto o CountVectorizer simplesmente conta ocorrências de palavras, o TF-IDF (Term Frequency-Inverse Document Frequency) fornece uma representação ponderada que enfatiza palavras importantes.

Por que TF-IDF?

O TF-IDF não apenas considera a frequência dos termos, mas também reduz a importância de termos que aparecem com frequência em todos os documentos, capturando assim a importância dos termos dentro de documentos individuais.

Construindo um Pipeline de Aprendizado de Máquina

A classe Pipeline do Scikit-learn permite a integração perfeita de múltiplas etapas de processamento em um único objeto. Isso garante que todas as etapas sejam executadas na ordem correta e simplifica o treinamento e a avaliação do modelo.

from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer

# Definir o pipeline
text_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', LinearSVC()),
])

from sklearn.pipeline import Pipeline

from sklearn.feature_extraction.text import TfidfVectorizer

# Definir o pipeline

text_clf = Pipeline([

('tfidf', TfidfVectorizer()),

('clf', LinearSVC()),

])

Componentes do Pipeline:

TF-IDF Vectorizer (tfidf): Converte dados textuais em vetores de características TF-IDF.
Classificador de Máquinas de Vetores de Suporte Linear (clf): Realiza a tarefa de classificação.

Treinando o Modelo

Com o pipeline definido, treinar o modelo envolve ajustá-lo aos dados de treinamento.

# Treinar o modelo
text_clf.fit(X_train, y_train)

1 2	# Treinar o modelo text_clf.fit(X_train, y_train)

Saída:

Pipeline(steps=[
  ('tfidf', TfidfVectorizer()),
  ('clf', LinearSVC())
])

Pipeline(steps=[

('tfidf', TfidfVectorizer()),

('clf', LinearSVC())

])

Avaliando o Desempenho do Modelo

Avaliar a acurácia do modelo no conjunto de teste fornece insights sobre suas capacidades preditivas.

from sklearn.metrics import accuracy_score

# Fazer previsões no conjunto de teste
y_pred = text_clf.predict(X_test)

# Calcular acurácia
accuracy = accuracy_score(y_pred, y_test)
print(f'Acurácia: {accuracy:.2%}')

from sklearn.metrics import accuracy_score

# Fazer previsões no conjunto de teste

y_pred = text_clf.predict(X_test)

# Calcular acurácia

accuracy = accuracy_score(y_pred, y_test)

print(f'Acurácia: {accuracy:.2%}')

Exemplo de Saída:

Acurácia: 69.83%

1	Acurácia: 69.83%

Uma acurácia de aproximadamente 69,83% indica que o modelo classifica corretamente quase 70% das avaliações, o que é um ponto de partida promissor. Para uma avaliação mais aprofundada, considere gerar um relatório de classificação e uma matriz de confusão para entender a precisão, recall e F1-score do modelo.

Realizando Previsões

Uma vez que o modelo está treinado, ele pode classificar novos dados textuais. Veja como prever o sentimento de avaliações individuais:

# Exemplo de previsões
sample_reviews = [
    'Filme fantástico! Eu realmente gostei.',
    'Evite este filme a todo custo, simplesmente não é bom.'
]

predictions = text_clf.predict(sample_reviews)
for review, sentiment in zip(sample_reviews, predictions):
    print(f'Avaliação: "{review}" - Sentimento: {sentiment}')

# Exemplo de previsões

sample_reviews = [

'Filme fantástico! Eu realmente gostei.',

'Evite este filme a todo custo, simplesmente não é bom.'

]

predictions = text_clf.predict(sample_reviews)

for review, sentiment in zip(sample_reviews, predictions):

print(f'Avaliação: "{review}" - Sentimento: {sentiment}')

Exemplo de Saída:

Avaliação: "Filme fantástico! Eu realmente gostei." - Sentimento: pos
Avaliação: "Evite este filme a todo custo, simplesmente não é bom." - Sentimento: neg

1 2	Avaliação: "Filme fantástico! Eu realmente gostei." - Sentimento: pos Avaliação: "Evite este filme a todo custo, simplesmente não é bom." - Sentimento: neg

O modelo diferencia com sucesso entre sentimentos positivos e negativos nos exemplos fornecidos.

Conclusão

Construir um classificador de texto envolve várias etapas chave, desde o pré-processamento de dados e extração de características até o treinamento e avaliação do modelo. Utilizar pipelines no Scikit-learn simplifica o fluxo de trabalho, garantindo que cada etapa seja executada de forma consistente e eficiente. Embora este guia utilize um modelo LinearSVC simples com vetorização TF-IDF, a estrutura permite a experimentação com várias técnicas de vetorização e algoritmos de classificação para aprimorar ainda mais o desempenho.

Recursos Adicionais

Documentação do Scikit-learn:
- TfidfVectorizer
- Pipeline
Tutoriais:
- Trabalhando com Dados Textuais
Conjuntos de Dados:
- Conjunto de Dados de Avaliação de Filmes no Kaggle

Ao seguir este guia, você agora possui o conhecimento fundamental para construir e refinar seus próprios classificadores de texto, abrindo caminho para aplicações de NLP mais avançadas.