S39L07 – Construção do classificador de texto continua com múltiplos modelos

html
Construindo Classificadores de Texto com Múltiplos Modelos em PLN: Um Guia Abrangente

Índice

  Introdução à Classificação de Texto em PLN
  Visão Geral do Conjunto de Dados
  Pré-processamento de Dados com Vetorização TF-IDF
  Seleção e Implementação de Modelos
    
      1. Classificador de Vetor de Suporte Linear (LinearSVC)
      2. Naive Bayes
      3. K-Vizinhos Mais Próximos (KNN)
      4. XGBoost
      5. Floresta Aleatória
    
  
  Métricas de Avaliação de Modelos
  Análise Comparativa dos Modelos
  Conclusão e Direções Futuras
  Referências



1. Introdução à Classificação de Texto em PLN
A classificação de texto é uma tarefa fundamental em PLN que envolve atribuir categorias pré-definidas a dados textuais. As aplicações variam desde a detecção de spam em e-mails até a análise de sentimentos em avaliações de produtos. A precisão desses classificadores é crucial para obter insights significativos e processos de tomada de decisão.
Neste guia, vamos percorrer a construção de um classificador de texto utilizando o Conjunto de Dados de Avaliação de Filmes do Kaggle. Empregaremos vários modelos de aprendizado de máquina para entender seu desempenho na classificação de avaliações de filmes como positivas ou negativas.


2. Visão Geral do Conjunto de Dados
O conjunto de dados compreende 64.720 avaliações de filmes, cada uma rotulada com uma tag de sentimento: positiva (pos) ou negativa (neg). Cada avaliação é segmentada em sentenças, proporcionando uma visão detalhada dos sentimentos expressos ao longo da crítica do filme.
Dados de Amostra:

  
    fold_id
    cv_tag
    html_id
    sent_id
    texto
    tag
  
  
    0
    cv000
    29590
    0
    films adapted from comic books...
    pos
  
  
    0
    cv000
    29590
    1
    for starters, it was created by Alan Moore...
    pos
  
  
    ...
    ...
    ...
    ...
    ...
    ...
  

Esse formato estruturado permite um treinamento e avaliação eficaz de modelos de aprendizado de máquina.


3. Pré-processamento de Dados com Vetorização TF-IDF
Antes de alimentar os dados textuais nos modelos de aprendizado de máquina, é essencial converter o texto em representações numéricas. Usamos a Vetorização de Frequência de Termos-Inversa Frequência de Documentos (TF-IDF) para esse propósito.
Por que TF-IDF?

  Frequência de Termos (TF): Mede quão frequentemente um termo aparece em um documento.
  Frequência de Documentos Inversa (IDF): Mede a importância de um termo em todo o corpus.

Passos de Implementação:

  Importar Bibliotecas:





		
		
			
			
Java
			
			import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
			
				
					
				
					1
2
3
4
				
						import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
					
				
			
		



  Carregar Dados:





		
		
			
			
Java
			
			data = pd.read_csv('movie_review.csv')
X = data['text']
y = data['tag']
			
				
					
				
					1
2
3
				
						data = pd.read_csv('movie_review.csv')
X = data['text']
y = data['tag']
					
				
			
		



  Vetorização:





		
		
			
			
Java
			
			vectorizer = TfidfVectorizer()
X_vectors = vectorizer.fit_transform(X)
			
				
					
				
					1
2
				
						vectorizer = TfidfVectorizer()
X_vectors = vectorizer.fit_transform(X)
					
				
			
		



  Divisão de Treino e Teste:





		
		
			
			
Java
			
			X_train, X_test, y_train, y_test = train_test_split(X_vectors, y, test_size=0.20, random_state=1)
			
				
					
				
					1
				
						X_train, X_test, y_train, y_test = train_test_split(X_vectors, y, test_size=0.20, random_state=1)
					
				
			
		




4. Seleção e Implementação de Modelos
Vamos explorar cinco diferentes modelos de aprendizado de máquina para classificar avaliações de filmes: LinearSVC, Naive Bayes, K-Nearest Neighbors (KNN), XGBoost e Floresta Aleatória. Cada modelo tem suas vantagens e é adequado para diferentes tipos de dados e problemas.


4.1 Classificador de Vetor de Suporte Linear (LinearSVC)
LinearSVC é uma implementação eficiente adequada para grandes conjuntos de dados. Seu objetivo é encontrar o hiperplano que melhor separa as classes com a margem máxima.
Implementação:




		
		
			
			
Java
			
			from sklearn.svm import LinearSVC
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

text_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', LinearSVC()),
])
text_clf.fit(X_train, y_train)
y_pred = text_clf.predict(X_test)
print(accuracy_score(y_pred, y_test))
print(classification_report(y_pred, y_test))
print(confusion_matrix(y_pred, y_test))
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
				
						from sklearn.svm import LinearSVC
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
 
text_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', LinearSVC()),
])
text_clf.fit(X_train, y_train)
y_pred = text_clf.predict(X_test)
print(accuracy_score(y_pred, y_test))
print(classification_report(y_pred, y_test))
print(confusion_matrix(y_pred, y_test))
					
				
			
		


Resultados:

  Precisão: ~70%
  Observações: Precisão e recall equilibrados para ambas as classes.



4.2 Naive Bayes
Naive Bayes são classificadores baseados no Teorema de Bayes e são particularmente eficazes para a classificação de texto devido à sua simplicidade e desempenho.
Implementação:




		
		
			
			
Java
			
			from sklearn.naive_bayes import MultinomialNB

text_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', MultinomialNB()),
])
text_clf.fit(X_train, y_train)
y_pred = text_clf.predict(X_test)
print(accuracy_score(y_pred, y_test))
print(classification_report(y_pred, y_test))
print(confusion_matrix(y_pred, y_test))
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
				
						from sklearn.naive_bayes import MultinomialNB
 
text_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', MultinomialNB()),
])
text_clf.fit(X_train, y_train)
y_pred = text_clf.predict(X_test)
print(accuracy_score(y_pred, y_test))
print(classification_report(y_pred, y_test))
print(confusion_matrix(y_pred, y_test))
					
				
			
		


Resultados:

  Precisão: ~70,7%
  Observações: Precisão melhorada para avaliações positivas em comparação com LinearSVC.



4.3 K-Vizinhos Mais Próximos (KNN)
KNN é um algoritmo não paramétrico que classifica pontos de dados com base no voto majoritário de seus vizinhos. É simples, mas pode ser computacionalmente intensivo para grandes conjuntos de dados.
Implementação:




		
		
			
			
Java
			
			from sklearn.neighbors import KNeighborsClassifier

text_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', KNeighborsClassifier()),
])
text_clf.fit(X_train, y_train)
y_pred = text_clf.predict(X_test)
print(accuracy_score(y_pred, y_test))
print(classification_report(y_pred, y_test))
print(confusion_matrix(y_pred, y_test))
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
				
						from sklearn.neighbors import KNeighborsClassifier
 
text_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', KNeighborsClassifier()),
])
text_clf.fit(X_train, y_train)
y_pred = text_clf.predict(X_test)
print(accuracy_score(y_pred, y_test))
print(classification_report(y_pred, y_test))
print(confusion_matrix(y_pred, y_test))
					
				
			
		


Resultados:

  Precisão: ~50,9%
  Observações: Desempenho significativamente menor em comparação com LinearSVC e Naive Bayes.



4.4 XGBoost
XGBoost é uma biblioteca de gradient boosting otimizada projetada para velocidade e desempenho. É altamente eficaz para dados estruturados, mas requer ajuste cuidadoso de parâmetros para dados textuais.
Implementação:




		
		
			
			
Java
			
			import xgboost as xgb

text_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', xgb.XGBClassifier(use_label_encoder=False, eval_metric='logloss')),
])
text_clf.fit(X_train, y_train)
y_pred = text_clf.predict(X_test)
print(accuracy_score(y_pred, y_test))
print(classification_report(y_pred, y_test))
print(confusion_matrix(y_pred, y_test))
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
				
						import xgboost as xgb
 
text_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', xgb.XGBClassifier(use_label_encoder=False, eval_metric='logloss')),
])
text_clf.fit(X_train, y_train)
y_pred = text_clf.predict(X_test)
print(accuracy_score(y_pred, y_test))
print(classification_report(y_pred, y_test))
print(confusion_matrix(y_pred, y_test))
					
				
			
		


Resultados:

  Precisão: ~62,7%
  Observações: Desempenho moderado; mostra melhoria sobre KNN, mas fica atrás de LinearSVC e Naive Bayes.



4.5 Floresta Aleatória
Floresta Aleatória é um método de aprendizado de conjunto que constrói múltiplas árvores de decisão durante o treinamento e produz a moda de suas previsões.
Implementação:




		
		
			
			
Java
			
			from sklearn.ensemble import RandomForestClassifier

text_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', RandomForestClassifier()),
])
text_clf.fit(X_train, y_train)
y_pred = text_clf.predict(X_test)
print(accuracy_score(y_pred, y_test))
print(classification_report(y_pred, y_test))
print(confusion_matrix(y_pred, y_test))
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
				
						from sklearn.ensemble import RandomForestClassifier
 
text_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', RandomForestClassifier()),
])
text_clf.fit(X_train, y_train)
y_pred = text_clf.predict(X_test)
print(accuracy_score(y_pred, y_test))
print(classification_report(y_pred, y_test))
print(confusion_matrix(y_pred, y_test))
					
				
			
		


Resultados:

  Precisão: ~63,6%
  Observações: Comparable ao XGBoost; melhor precisão para avaliações positivas.



5. Métricas de Avaliação de Modelos
A avaliação do desempenho de modelos de classificação envolve várias métricas:

  Precisão: A proporção de instâncias corretamente previstas em relação ao total de instâncias.
  Precisão Positiva (Precision): A proporção de observações positivas corretamente previstas em relação ao total de positivos previstos.
  Recall: A proporção de observações positivas corretamente previstas em relação a todas as positivas reais.
  F1-Score: A média ponderada entre Precisão e Recall.
  Matriz de Confusão: Uma tabela que descreve o desempenho de um modelo de classificação.

Entendendo as Métricas:

  
    Métrica
    Descrição
  
  
    Precisão
    Correção geral do modelo.
  
  
    Precisão Positiva
    Correção das previsões positivas.
  
  
    Recall
    Capacidade do modelo de encontrar todas as instâncias positivas.
  
  
    F1-Score
    Equilíbrio entre Precisão e Recall.
  
  
    Matriz de Confusão
    Detalhamento dos resultados da previsão entre as classes.
  



6. Análise Comparativa dos Modelos
Vamos resumir o desempenho de cada modelo com base nas métricas de avaliação:

  
    Modelo
    Precisão
    Precisão (Neg)
    Precisão (Pos)
    Recall (Neg)
    Recall (Pos)
    F1-Score (Neg)
    F1-Score (Pos)
  
  
    LinearSVC
    70%
    69%
    70%
    69%
    71%
    0.69
    0.71
  
  
    Naive Bayes
    70,7%
    68%
    73%
    70%
    71%
    0.69
    0.72
  
  
    KNN
    50,9%
    63%
    39%
    49%
    53%
    0.56
    0.45
  
  
    XGBoost
    62,7%
    59%
    66%
    62%
    63%
    0.61
    0.65
  
  
    Floresta Aleatória
    63,6%
    58%
    68%
    63%
    64%
    0.61
    0.66
  

Principais Insights:

  LinearSVC e Naive Bayes superam outros modelos, alcançando mais de 70% de precisão.
  KNN enfrenta dificuldades com precisão mais baixa e escores de precisão desequilibrados.
  XGBoost e Floresta Aleatória oferecem desempenho moderado, mas ficam atrás dos dois principais modelos.
  Métodos de conjunto como Floresta Aleatória ainda podem ser valiosos dependendo dos requisitos específicos da aplicação.



7. Conclusão e Direções Futuras
Construir classificadores de texto eficazes em PLN envolve não apenas a seleção dos modelos certos, mas também um pré-processamento de dados meticuloso e avaliação cuidadosa. Nossa exploração com o Conjunto de Dados de Avaliação de Filmes mostrou que LinearSVC e Naive Bayes são escolhas robustas para tarefas de análise de sentimento, oferecendo um equilíbrio entre precisão, precisão positiva e recall.
No entanto, o campo de PLN é vasto e está em constante evolução. Enquanto os modelos de aprendizado de máquina tradicionais fornecem uma base sólida, modelos de Aprendizado Profundo como Redes Neurais Recorrentes (RNNs) e Transformers estão expandindo os limites do que é possível na classificação de texto. Estudos futuros explorarão essas arquiteturas avançadas para aproveitarem todo o seu potencial na compreensão e classificação da linguagem humana.
Para profissionais que desejam experimentar mais, o Jupyter Notebook acompanhante fornece uma abordagem prática para implementar e ajustar esses modelos. Explorar diferentes técnicas de vetorização, ajuste de hiperparâmetros e estratégias de conjunto pode levar a um desempenho ainda mais otimizado.


8. Referências

  Conjunto de Dados de Avaliação de Filmes no Kaggle
  Scikit-learn: Documentação do TfidfVectorizer
  Scikit-learn: Tutorial de Trabalho com Dados de Texto
  Documentação do XGBoost


Sobre o Autor
Com ampla experiência em aprendizado de máquina e PLN, nossa equipe técnica está dedicada a fornecer guias e tutoriais perspicazes para ajudá-lo a dominar técnicas de ciência de dados. Fique atento para mais artigos aprofundados e projetos práticos para aprimorar suas habilidades.
Junte-se à Nossa Comunidade
Assine nossa newsletter para receber as últimas atualizações, tutoriais e conteúdo exclusivo sobre aprendizado de máquina, PLN e muito mais!

Disclaimer: Este artigo destina-se a fins educacionais. O desempenho dos modelos pode variar com base nas especificidades do conjunto de dados e nuances de implementação.
fold_id	cv_tag	html_id	sent_id	texto	tag
0	cv000	29590	0	films adapted from comic books...	pos
0	cv000	29590	1	for starters, it was created by Alan Moore...	pos
...	...	...	...	...	...
Métrica	Descrição
Precisão	Correção geral do modelo.
Precisão Positiva	Correção das previsões positivas.
Recall	Capacidade do modelo de encontrar todas as instâncias positivas.
F1-Score	Equilíbrio entre Precisão e Recall.
Matriz de Confusão	Detalhamento dos resultados da previsão entre as classes.
Modelo	Precisão	Precisão (Neg)	Precisão (Pos)	Recall (Neg)	Recall (Pos)	F1-Score (Neg)	F1-Score (Pos)
LinearSVC	70%	69%	70%	69%	71%	0.69	0.71
Naive Bayes	70,7%	68%	73%	70%	71%	0.69	0.72
KNN	50,9%	63%	39%	49%	53%	0.56	0.45
XGBoost	62,7%	59%	66%	62%	63%	0.61	0.65
Floresta Aleatória	63,6%	58%	68%	63%	64%	0.61	0.66