S29L03 – ROC, AUC – Calculando el umbral óptimo (método de Youden)

html
Dominando ROC y AUC: Optimización de Umbrales para Mejorar el Rendimiento del Aprendizaje Automático
En el ámbito del aprendizaje automático, especialmente en tareas de clasificación binaria, evaluar el rendimiento del modelo de manera efectiva es fundamental. Dos métricas críticas en este proceso de evaluación son la Curva Característica Operativa del Receptor (ROC) y el Área Bajo la Curva ROC (AUC). Entender cómo optimizar umbrales utilizando estas métricas puede mejorar significativamente las capacidades predictivas de su modelo. Esta guía comprensiva profundiza en ROC y AUC, explora métodos para calcular umbrales óptimos y examina su aplicabilidad en conjuntos de datos desequilibrados mediante un estudio de caso práctico utilizando el conjunto de datos Weather Australia.
Tabla de Contenidos

Introducción a ROC y AUC
La Importancia de la Selección de Umbrales
Método de Youden para el Umbral Óptimo
Desafíos de ROC en Conjuntos de Datos Desequilibrados
Estudio de Caso: Conjunto de Datos Weather Australia
Pasos de Preprocesamiento de Datos
Construcción y Evaluación de Modelos
    
        K-Vecinos Más Cercanos (KNN)
        Regresión Logística
        Naive Bayes Gaussiano
        Máquinas de Vectores de Soporte (SVM)
        Árbol de Decisión
        Bosque Aleatorio
        AdaBoost
        XGBoost
    

Análisis Comparativo de Modelos
Limitaciones de ROC y Métodos Alternativos
Conclusión


Introducción a ROC y AUC
La Curva Característica Operativa del Receptor (ROC) es una representación gráfica que ilustra la capacidad diagnóstica de un clasificador binario a medida que varía su umbral de discriminación. La curva traza la Tasa de Verdaderos Positivos (TPR) contra la Tasa de Falsos Positivos (FPR) en diferentes configuraciones de umbral. El Área Bajo la Curva ROC (AUC) cuantifica la capacidad general del modelo para discriminar entre clases positivas y negativas.
Por Qué Importan ROC y AUC

Curva ROC: Ayuda a visualizar el rendimiento de un modelo de clasificación a través de diferentes umbrales.
AUC: Proporciona un valor escalar único para resumir la capacidad del modelo de distinguir entre clases, independientemente del umbral.

La Importancia de la Selección de Umbrales
En la clasificación binaria, el umbral determina el punto de corte para clasificar instancias en clases positivas o negativas. Seleccionar un umbral óptimo es crucial porque impacta directamente en métricas como precisión, recuperación y exactitud general.
Consideraciones Clave

Balance entre Precisión y Recuperación: Dependiendo del dominio del problema, puede priorizar minimizar falsos positivos o falsos negativos.
Impacto en Métricas de Negocio: El umbral elegido debe alinearse con las implicaciones reales de los errores de predicción.

Método de Youden para el Umbral Óptimo
Estadística J de Youden es un método comúnmente utilizado para determinar el umbral óptimo al maximizar la diferencia entre la tasa de verdaderos positivos y la tasa de falsos positivos. Matemáticamente, se expresa como:
\[ J = \text{Sensibilidad} + \text{Especificidad} - 1 \]
El umbral que maximiza \( J \) se considera óptimo.
Implementación del Método de Youden en Python




		
		
			
			
Java
			
			from sklearn.metrics import roc_curve

def get_optimal_threshold(y_true, y_scores):
    fpr, tpr, thresholds = roc_curve(y_true, y_scores)
    J = tpr - fpr
    ix = J.argmax()
    return thresholds[ix]

optimal_threshold = get_optimal_threshold(y_test, predicted_probabilities[:,1])
			
				
					
				
					1
2
3
4
5
6
7
8
9
				
						from sklearn.metrics import roc_curve
 
def get_optimal_threshold(y_true, y_scores):
    fpr, tpr, thresholds = roc_curve(y_true, y_scores)
    J = tpr - fpr
    ix = J.argmax()
    return thresholds[ix]
 
optimal_threshold = get_optimal_threshold(y_test, predicted_probabilities[:,1])
					
				
			
		


Desafíos de ROC en Conjuntos de Datos Desequilibrados
Las curvas ROC a veces pueden presentar una visión excesivamente optimista del rendimiento del modelo en conjuntos de datos desequilibrados. Cuando una clase supera significativamente a la otra, el AUC podría ser engañoso, ya que el modelo podría lograr un alto AUC al predecir principalmente correctamente la clase mayoritaria.
Estrategias para Mitigar

Usar Curvas Precisión-Recuperación (PR): Las curvas PR pueden proporcionar información más valiosa en casos de desequilibrio de clases.
Técnicas de Remuestreo: Aplicar sobremuestreo o submuestreo para equilibrar el conjunto de datos antes del entrenamiento.

Estudio de Caso: Conjunto de Datos Weather Australia
Para ilustrar los conceptos de ROC, AUC y optimización de umbrales, analizaremos el conjunto de datos Weather Australia. Este conjunto de datos es un problema de clasificación binaria donde el objetivo es predecir si lloverá mañana basado en varios parámetros meteorológicos.
Descripción del Conjunto de Datos

Características: Incluye temperatura, humedad, velocidad del viento y otras métricas relacionadas con el clima.
Clases: "Sí" para lluvia y "No" para no llover mañana.
Desequilibrio: Aproximadamente 76% clase "No" y 22% clase "Sí".

Pasos de Preprocesamiento de Datos
El preprocesamiento adecuado de los datos es esencial para garantizar la confiabilidad de las evaluaciones del modelo.
Pasos Involucrados

Manejo de Datos Faltantes:
    
        Características Numéricas: Imputadas usando la estrategia de la media.
        Características Categóricas: Imputadas usando la estrategia de la más frecuente.
    

Codificación de Variables Categóricas:
    
        Codificación de Etiquetas: Para variables categóricas binarias o de alta cardinalidad.
        Codificación One-Hot: Para variables categóricas con baja cardinalidad.
    

Selección de Características:
    
        Utilizado SelectKBest con la prueba de Chi-Cuadrado para seleccionar las 10 características principales.
    

Escalado de Características:
    
        Aplicada Estandarización para normalizar los valores de las características.
    


Fragmento de Implementación en Python




		
		
			
			
Java
			
			from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.compose import ColumnTransformer

# Handling missing numeric data
imp_mean = SimpleImputer(strategy='mean')
X[numerical_cols] = imp_mean.fit_transform(X[numerical_cols])

# Handling missing categorical data
imp_freq = SimpleImputer(strategy='most_frequent')
X[categorical_cols] = imp_freq.fit_transform(X[categorical_cols])

# Encoding categorical variables
ct = ColumnTransformer([
    ('onehot', OneHotEncoder(), one_hot_indices)
], remainder='passthrough')
X = ct.fit_transform(X)

# Feature selection
selector = SelectKBest(score_func=chi2, k=10)
X_selected = selector.fit_transform(X, y)

# Feature scaling
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_selected)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
				
						from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.compose import ColumnTransformer
 
# Handling missing numeric data
imp_mean = SimpleImputer(strategy='mean')
X[numerical_cols] = imp_mean.fit_transform(X[numerical_cols])
 
# Handling missing categorical data
imp_freq = SimpleImputer(strategy='most_frequent')
X[categorical_cols] = imp_freq.fit_transform(X[categorical_cols])
 
# Encoding categorical variables
ct = ColumnTransformer([
    ('onehot', OneHotEncoder(), one_hot_indices)
], remainder='passthrough')
X = ct.fit_transform(X)
 
# Feature selection
selector = SelectKBest(score_func=chi2, k=10)
X_selected = selector.fit_transform(X, y)
 
# Feature scaling
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_selected)
					
				
			
		


Construcción y Evaluación de Modelos
El uso de diversos algoritmos de aprendizaje automático proporciona una comprensión integral de los rendimientos de los modelos en diferentes escenarios. A continuación, exploramos varios modelos, su implementación y métricas de evaluación utilizando ROC y AUC.
K-Vecinos Más Cercanos (KNN)
Descripción: KNN es un algoritmo de aprendizaje basado en instancias y sencillo que clasifica nuevas instancias basándose en la etiqueta mayoritaria entre sus vecinos más cercanos.
Métricas de Rendimiento:

Precisión: 85.9%
AUC: 0.799
Umbral Óptimo: 0.333

Observaciones:

El umbral óptimo reduce ligeramente la precisión en comparación con el valor predeterminado de 0.5.
La precisión mejora para ambas clases al utilizar el umbral óptimo.

Regresión Logística
Descripción: La Regresión Logística es un modelo estadístico que predice la probabilidad de un resultado binario basado en una o más variables predictoras.
Métricas de Rendimiento:

Precisión: 87.2%
AUC: 88.4%
Umbral Óptimo: 0.132

Observaciones:

El modelo logra un AUC más alto en comparación con KNN.
La precisión mejora significativamente con un umbral más bajo, haciendo que el modelo sea más sensible a la clase positiva.

Naive Bayes Gaussiano
Descripción: Naive Bayes Gaussiano aplica el teorema de Bayes con la suposición de independencia entre características y asume una distribución Gaussiana para las características numéricas.
Métricas de Rendimiento:

Precisión: 83.1%
AUC: 0.884
Umbral Óptimo: 0.132

Observaciones:

AUC comparable al de la Regresión Logística.
Precisión equilibrada pero menor recuperación, indicando mejor precisión para la clase positiva.

Máquinas de Vectores de Soporte (SVM)
Descripción: SVM es un modelo de aprendizaje supervisado que encuentra el hiperplano óptimo que separa las clases en el espacio de características.
Métricas de Rendimiento:

Precisión: 87.65%
AUC: 85.4%
Umbral Óptimo: 0.144

Observaciones:

Alta precisión con un AUC respetable.
Precisión y recuperación equilibradas después de la optimización del umbral.

Árbol de Decisión
Descripción: Los Árboles de Decisión particionan el espacio de características en regiones basadas en los valores de las características, tomando decisiones en cada nodo para realizar predicciones.
Métricas de Rendimiento:

Precisión: 82.35%
AUC: 0.716
Umbral Óptimo: 1.0

Observaciones:

Un AUC más bajo indica un rendimiento pobre al distinguir entre clases.
Un umbral óptimo de 1.0 sugiere que el modelo está sesgado hacia la predicción de la clase mayoritaria.

Bosque Aleatorio
Descripción: Bosque Aleatorio es un método de aprendizaje en conjunto que construye múltiples árboles de decisión y agrega sus resultados para mejorar la precisión y estabilidad.
Métricas de Rendimiento:

Precisión: 87.25%
AUC: 0.876
Umbral Óptimo: 0.221

Observaciones:

Alto AUC y precisión indican un rendimiento robusto.
Recuperación mejorada para la clase positiva con la optimización del umbral.

AdaBoost
Descripción: AdaBoost es una técnica de conjunto que combina múltiples aprendices débiles para formar un clasificador fuerte enfocándose en instancias previamente mal clasificadas.
Métricas de Rendimiento:

Precisión: 87.25%
AUC: 0.881
Umbral Óptimo: 0.491

Observaciones:

Precisión y recuperación equilibradas después de la optimización.
Precisión ligeramente aumentada para la clase positiva.

XGBoost
Descripción: XGBoost es un potente marco de impulso de gradiente conocido por su eficiencia y rendimiento en datos estructurados/tabulares.
Métricas de Rendimiento:

Precisión: 87.15%
AUC: 0.879
Umbral Óptimo: 0.186

Observaciones:

Alto AUC y precisión.
Precisión mejorada para la clase positiva con un umbral reducido.

Análisis Comparativo de Modelos
Analizar los modelos a través de varias métricas proporciona una visión de sus fortalezas y áreas de mejora:


Modelo
Precisión
AUC
Umbral Óptimo
Precisión (Positivo)
Sensibilidad (Positiva)


KNN
85.9%
0.799
0.333
0.76
0.41


Regresión Logística
87.2%
0.884
0.132
0.86
0.43


Naive Bayes Gaussiano
83.1%
0.884
0.132
0.86
0.43


SVM
87.65%
0.854
0.144
0.73
0.58


Árbol de Decisión
82.35%
0.716
1.0
0.55
0.53


Bosque Aleatorio
87.25%
0.876
0.221
0.73
0.53


AdaBoost
87.25%
0.881
0.491
0.84
0.46


XGBoost
87.15%
0.879
0.186
0.76
0.53


Conclusiones Clave:

Regresión Logística y Naive Bayes Gaussiano exhiben el AUC más alto, indicando fuertes habilidades discriminativas.
Árboles de Decisión tienen un rendimiento inferior con un AUC bajo y umbral sesgado.
Métodos de Conjunto como Bosque Aleatorio, AdaBoost y XGBoost demuestran un rendimiento robusto con precisión y recuperación equilibradas después de la optimización del umbral.
SVM equilibra entre alta precisión y un AUC razonable.

Limitaciones de ROC y Métodos Alternativos
Si bien ROC y AUC son herramientas invaluables para la evaluación de modelos, tienen limitaciones, especialmente en el contexto de conjuntos de datos desequilibrados.
Limitaciones

Valores AUC Engañosos: En conjuntos de datos desequilibrados, un AUC alto puede ser engañoso ya que el modelo podría predecir predominantemente la clase mayoritaria.
Insensibilidad al Umbral: Las curvas ROC evalúan todos los umbrales posibles, lo que puede no ser práctico para aplicaciones del mundo real donde se necesitan umbrales específicos.

Alternativas

Curvas Precisión-Recuperación (PR): Más informativas en escenarios con desequilibrio de clases, enfocándose en la compensación entre precisión y recuperación.
Puntuación F1: Equilibra precisión y recuperación, proporcionando una métrica única que considera ambos.

Conclusión
Optimizar el rendimiento del modelo en tareas de clasificación binaria requiere una comprensión matizada de métricas de evaluación como ROC y AUC. Al seleccionar meticulosamente los umbrales utilizando métodos como la estadística J de Youden, y al ser conscientes de los desequilibrios en los conjuntos de datos, los profesionales pueden mejorar significativamente la exactitud predictiva y la confiabilidad de sus modelos. Esta guía, anclada en un estudio de caso práctico con el conjunto de datos Weather Australia, resalta la importancia de una evaluación comprensiva del modelo y la optimización de umbrales en el desarrollo de soluciones robustas de aprendizaje automático.

Palabras Clave: curva ROC, AUC, optimización de umbrales, clasificación binaria, método de Youden, conjuntos de datos desequilibrados, evaluación de modelos de aprendizaje automático, Regresión Logística, KNN, Bosque Aleatorio, AdaBoost, XGBoost, curva precisión-recall.
Modelo	Precisión	AUC	Umbral Óptimo	Precisión (Positivo)	Sensibilidad (Positiva)
KNN	85.9%	0.799	0.333	0.76	0.41
Regresión Logística	87.2%	0.884	0.132	0.86	0.43
Naive Bayes Gaussiano	83.1%	0.884	0.132	0.86	0.43
SVM	87.65%	0.854	0.144	0.73	0.58
Árbol de Decisión	82.35%	0.716	1.0	0.55	0.53
Bosque Aleatorio	87.25%	0.876	0.221	0.73	0.53
AdaBoost	87.25%	0.881	0.491	0.84	0.46
XGBoost	87.15%	0.879	0.186	0.76	0.53