Dominando ROC e AUC: Otimizando Limiares para Melhorar o Desempenho de Machine Learning

No âmbito do aprendizado de máquina, especialmente em tarefas de classificação binária, avaliar efetivamente o desempenho do modelo é fundamental. Duas métricas críticas nesse processo de avaliação são a Curva Característica de Operação do Receptor (ROC) e a Área Sob a Curva ROC (AUC). Compreender como otimizar limiares usando essas métricas pode aprimorar significativamente as capacidades preditivas do seu modelo. Este guia abrangente explora ROC e AUC, métodos para calcular limiares ótimos e examina sua aplicabilidade em conjuntos de dados desequilibrados através de um estudo de caso prático utilizando o conjunto de dados Weather Australia.

Índice

Introdução ao ROC e AUC
A Importância da Seleção de Limiar
Método de Youden para Limiar Ótimo
Desafios do ROC em Conjuntos de Dados Desequilibrados
Estudo de Caso: Conjunto de Dados Weather Australia
Etapas de Pré-processamento de Dados
Construção e Avaliação do Modelo
Análise Comparativa dos Modelos
Limitações do ROC e Métodos Alternativos
Conclusão

Introdução ao ROC e AUC

A Curva Característica de Operação do Receptor (ROC) é uma representação gráfica que ilustra a capacidade diagnóstica de um classificador binário à medida que seu limiar de discriminação varia. A curva plota a Taxa de Verdadeiros Positivos (TPR) contra a Taxa de Falsos Positivos (FPR) em vários ajustes de limiar. A Área Sob a Curva ROC (AUC) quantifica a capacidade geral do modelo de discriminar entre classes positivas e negativas.

Por Que ROC e AUC São Importantes

Curva ROC: Ajuda a visualizar o desempenho de um modelo de classificação em diferentes limiares.
AUC: Fornece um valor escalar único para resumir a capacidade do modelo de distinguir entre classes, independentemente do limiar.

A Importância da Seleção de Limiar

Na classificação binária, o limiar determina o ponto de corte para classificar instâncias em classes positivas ou negativas. Selecionar um limiar ótimo é crucial porque impacta diretamente métricas como precisão, recall e acurácia geral.

Considerações Principais

Equilíbrio Entre Precisão e Recall: Dependendo do domínio do problema, você pode priorizar a minimização de falsos positivos ou falsos negativos.
Impacto nas Métricas de Negócios: O limiar escolhido deve estar alinhado com as implicações reais dos erros de previsão.

Método de Youden para Limiar Ótimo

Estatística J de Youden é um método comumente utilizado para determinar o limiar ótimo, maximizando a diferença entre a taxa de verdadeiros positivos e a taxa de falsos positivos. Matematicamente, é expressa como:

\[ J = \text{Sensibilidade} + \text{Especificidade} – 1 \]

O limiar que maximiza \( J \) é considerado ótimo.

Implementando o Método de Youden em Python

from sklearn.metrics import roc_curve

def get_optimal_threshold(y_true, y_scores):
    fpr, tpr, thresholds = roc_curve(y_true, y_scores)
    J = tpr - fpr
    ix = J.argmax()
    return thresholds[ix]

optimal_threshold = get_optimal_threshold(y_test, predicted_probabilities[:,1])

from sklearn.metrics import roc_curve

def get_optimal_threshold(y_true, y_scores):

fpr, tpr, thresholds = roc_curve(y_true, y_scores)

J = tpr - fpr

ix = J.argmax()

return thresholds[ix]

optimal_threshold = get_optimal_threshold(y_test, predicted_probabilities[:,1])

Desafios do ROC em Conjuntos de Dados Desequilibrados

Curvas ROC podem, às vezes, apresentar uma visão excessivamente otimista do desempenho do modelo em conjuntos de dados desequilibrados. Quando uma classe supera significativamente a outra, a AUC pode ser enganosa, pois o modelo poderia alcançar uma alta AUC ao prever predominantemente a classe majoritária corretamente.

Estratégias para Mitigar

Usar Curvas de Precisão-Recall (PR): Curvas PR podem fornecer informações mais perspicazes em casos de desequilíbrio de classes.
Técnicas de Reamostragem: Aplique oversampling ou undersampling para equilibrar o conjunto de dados antes do treinamento.

Estudo de Caso: Conjunto de Dados Weather Australia

Para ilustrar os conceitos de ROC, AUC e otimização de limiar, analisaremos o conjunto de dados Weather Australia. Este conjunto de dados é um problema de classificação binária onde o objetivo é prever se irá chover amanhã com base em vários parâmetros meteorológicos.

Visão Geral do Conjunto de Dados

Características: Inclui temperatura, umidade, velocidade do vento e outras métricas relacionadas ao clima.
Classes: “Yes” para chuva e “No” para não chover amanhã.
Desequilíbrio: Aproximadamente 76% de classes “No” e 22% de classes “Yes”.

Etapas de Pré-processamento de Dados

O pré-processamento adequado dos dados é essencial para garantir a confiabilidade das avaliações do modelo.

Etapas Envolvidas

Tratamento de Dados Faltantes:
- Características Numéricas: Imputadas usando a estratégia da média.
- Características Categóricas: Imputadas usando a estratégia da mais frequente.
Codificação de Variáveis Categóricas:
- Codificação de Rótulo (Label Encoding): Para variáveis categóricas binárias ou de alta cardinalidade.
- Codificação One-Hot: Para variáveis categóricas com baixa cardinalidade.
Seleção de Características:
- Utilizou SelectKBest com o teste Qui-Quadrado para selecionar as 10 principais características.
Escalonamento de Características:
- Aplicou Padronização para normalizar os valores das características.

Snippet de Implementação em Python

from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.compose import ColumnTransformer

# Handling missing numeric data
imp_mean = SimpleImputer(strategy='mean')
X[numerical_cols] = imp_mean.fit_transform(X[numerical_cols])

# Handling missing categorical data
imp_freq = SimpleImputer(strategy='most_frequent')
X[categorical_cols] = imp_freq.fit_transform(X[categorical_cols])

# Encoding categorical variables
ct = ColumnTransformer([
    ('onehot', OneHotEncoder(), one_hot_indices)
], remainder='passthrough')
X = ct.fit_transform(X)

# Feature selection
selector = SelectKBest(score_func=chi2, k=10)
X_selected = selector.fit_transform(X, y)

# Feature scaling
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_selected)

from sklearn.impute import SimpleImputer

from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler

from sklearn.feature_selection import SelectKBest, chi2

from sklearn.compose import ColumnTransformer

# Handling missing numeric data

imp_mean = SimpleImputer(strategy='mean')

X[numerical_cols] = imp_mean.fit_transform(X[numerical_cols])

# Handling missing categorical data

imp_freq = SimpleImputer(strategy='most_frequent')

X[categorical_cols] = imp_freq.fit_transform(X[categorical_cols])

# Encoding categorical variables

ct = ColumnTransformer([

('onehot', OneHotEncoder(), one_hot_indices)

], remainder='passthrough')

X = ct.fit_transform(X)

# Feature selection

selector = SelectKBest(score_func=chi2, k=10)

X_selected = selector.fit_transform(X, y)

# Feature scaling

scaler = StandardScaler()

X_scaled = scaler.fit_transform(X_selected)

Construção e Avaliação do Modelo

Utilizar vários algoritmos de aprendizado de máquina proporciona uma compreensão abrangente dos desempenhos dos modelos em diferentes cenários. Abaixo, exploramos vários modelos, sua implementação e métricas de avaliação usando ROC e AUC.

K-Vizinhos Mais Próximos (KNN)

Visão Geral: KNN é um algoritmo de aprendizado baseado em instâncias simples que classifica novas instâncias com base na maioria dos rótulos entre seus vizinhos mais próximos.

Métricas de Desempenho:

Acurácia: 85.9%
AUC: 79.9%
Limiar Ótimo: 0.333

Observações:

O limiar ótimo reduz ligeiramente a acurácia em comparação com o padrão 0.5.
A precisão melhora para ambas as classes ao usar o limiar ótimo.

Regressão Logística

Visão Geral: A Regressão Logística é um modelo estatístico que prevê a probabilidade de um resultado binário com base em uma ou mais variáveis preditoras.

Métricas de Desempenho:

Acurácia: 87.2%
AUC: 88.4%
Limiar Ótimo: 0.132

Observações:

O modelo alcança uma AUC mais alta comparado ao KNN.
A precisão melhora significativamente com um limiar mais baixo, tornando o modelo mais sensível à classe positiva.

Gaussian Naive Bayes

Visão Geral: Gaussian Naive Bayes aplica o teorema de Bayes com a suposição de independência entre as características e assume uma distribuição Gaussiana para características numéricas.

Métricas de Desempenho:

Acurácia: 83.1%
AUC: 0.884
Limiar Ótimo: 0.132

Observações:

AUC comparável à Regressão Logística.
Precisão equilibrada, mas recall mais baixo, indicando melhor precisão para a classe positiva.

Máquinas de Vetores de Suporte (SVM)

Visão Geral: SVM é um modelo de aprendizado supervisionado que encontra o hiperplano ótimo que separa as classes no espaço de características.

Métricas de Desempenho:

Acurácia: 87.65%
AUC: 85.4%
Limiar Ótimo: 0.144

Observações:

Alta acurácia com uma AUC respeitável.
Precisão e recall equilibrados após a otimização do limiar.

Árvore de Decisão

Visão Geral: Árvores de Decisão particionam o espaço de características em regiões baseadas nos valores das características, tomando decisões em cada nó para fazer previsões.

Métricas de Desempenho:

Acurácia: 82.35%
AUC: 0.716
Limiar Ótimo: 1.0

Observações:

A baixa AUC indica desempenho inferior na distinção entre classes.
Um limiar ótimo de 1.0 sugere que o modelo está inclinado a prever a classe majoritária.

Random Forest

Visão Geral: Random Forest é um método de aprendizado em conjunto que constrói múltiplas árvores de decisão e agrega seus resultados para melhorar a acurácia e estabilidade.

Métricas de Desempenho:

Acurácia: 87.25%
AUC: 0.876
Limiar Ótimo: 0.221

Observações:

Alta AUC e acurácia indicam desempenho robusto.
Recall melhorado para a classe positiva com a otimização do limiar.

AdaBoost

Visão Geral: AdaBoost é uma técnica de conjunto que combina múltiplos classificadores fracos para formar um classificador forte, focando em instâncias anteriormente mal classificadas.

Métricas de Desempenho:

Acurácia: 87.25%
AUC: 0.881
Limiar Ótimo: 0.491

Observações:

Precisão e recall equilibrados após a otimização.
Precisão ligeiramente aumentada para a classe positiva.

XGBoost

Visão Geral: XGBoost é uma poderosa estrutura de boosting de gradiente conhecida por sua eficiência e desempenho em dados estruturados/tablulados.

Métricas de Desempenho:

Acurácia: 87.15%
AUC: 0.879
Limiar Ótimo: 0.186

Observações:

Alta AUC e acurácia.
Precisão aprimorada para a classe positiva com um limiar reduzido.

Análise Comparativa dos Modelos

Analisar os modelos através de várias métricas proporciona insights sobre seus pontos fortes e áreas para melhoria:

Modelo	Acurácia	AUC	Limiar Ótimo	Precisão (Positiva)	Recall (Positiva)
KNN	85.9%	0.799	0.333	0.76	0.41
Regressão Logística	87.2%	0.884	0.132	0.86	0.43
Gaussian NB	83.1%	0.884	0.132	0.86	0.43
SVM	87.65%	0.854	0.144	0.73	0.58
Árvore de Decisão	82.35%	0.716	1.0	0.55	0.53
Random Forest	87.25%	0.876	0.221	0.73	0.53
AdaBoost	87.25%	0.881	0.491	0.84	0.46
XGBoost	87.15%	0.879	0.186	0.76	0.53

Principais Conclusões:

Regressão Logística e Gaussian Naive Bayes exibem a maior AUC, indicando fortes habilidades discriminativas.
Árvores de Decisão têm desempenho inferior com uma AUC baixa e limiar tendencioso.
Métodos de Conjunto como Random Forest, AdaBoost e XGBoost demonstram desempenho robusto com precisão e recall equilibrados após a otimização do limiar.
SVM equilibra alta acurácia com uma AUC razoável.

Limitações do ROC e Métodos Alternativos

Embora ROC e AUC sejam ferramentas inestimáveis para a avaliação de modelos, eles possuem limitações, especialmente no contexto de conjuntos de dados desequilibrados.

Limitações

Valores AUC Enganosos: Em conjuntos de dados desequilibrados, uma AUC alta pode ser enganosa, pois o modelo pode predominantemente prever a classe majoritária.
Insensibilidade ao Limiar: Curvas ROC avaliam todos os limiares possíveis, o que pode não ser prático para aplicações do mundo real onde limiares específicos são necessários.

Alternativas

Curvas de Precisão-Recall (PR): Mais informativas em cenários com desequilíbrio de classes, focando no trade-off entre precisão e recall.
F1 Score: Equilibra precisão e recall, fornecendo uma única métrica que considera ambos.

Conclusão

Otimizar o desempenho do modelo em tarefas de classificação binária requer uma compreensão detalhada de métricas de avaliação como ROC e AUC. Ao selecionar meticulosamente limiares usando métodos como o J de Youden e ao estar atento aos desequilíbrios do conjunto de dados, os profissionais podem aprimorar significativamente a precisão preditiva e a confiabilidade de seus modelos. Este guia, fundamentado em um estudo de caso prático com o conjunto de dados Weather Australia, destaca a importância da avaliação abrangente do modelo e da otimização do limiar no desenvolvimento de soluções robustas de aprendizado de máquina.

Palavras-chave: Curva ROC, AUC, otimização de limiar, classificação binária, método de Youden, conjuntos de dados desequilibrados, avaliação de modelo de aprendizado de máquina, Regressão Logística, KNN, Random Forest, AdaBoost, XGBoost, curva precisão-recall.