S29L04 – ROC, AUC – Calculando el umbral óptimo (mejor método de exactitud)

Optimizando Modelos de Clasificación Binaria con ROC, AUC y Análisis de Umbral: Una Guía Integral

Desbloquea el máximo potencial de tus modelos de aprendizaje automático dominando las curvas ROC, las métricas AUC y la selección de umbrales óptimos. Esta guía profundiza en la preprocesamiento, el modelado de regresión logística y la optimización del rendimiento utilizando un conjunto de datos meteorológicos del mundo real.


Introducción

En el ámbito del aprendizaje automático, particularmente en tareas de clasificación binaria, evaluar y optimizar el rendimiento del modelo es fundamental. Métricas como las curvas Características de Operación del Receptor (ROC) y el Área Bajo la Curva (AUC) brindan valiosas perspectivas sobre la capacidad de un modelo para discriminar entre clases. Además, ajustar el umbral de clasificación puede mejorar significativamente la precisión del modelo, el puntaje F1 y el rendimiento general. Este artículo explora estos conceptos en detalle, utilizando un conjunto de datos meteorológicos del mundo real para demostrar la aplicación práctica a través de un ejemplo en Jupyter Notebook.


Comprendiendo las Curvas ROC y el AUC

¿Qué es una Curva ROC?

Una curva ROC es una representación gráfica que ilustra la capacidad diagnóstica de un sistema clasificador binario a medida que varía su umbral de discriminación. Traza la Tasa de Verdaderos Positivos (TPR) contra la Tasa de Falsos Positivos (FPR) en varios ajustes de umbral.

  • Tasa de Verdaderos Positivos (TPR): También conocida como Recall o Sensibilidad, mide la proporción de positivos reales identificados correctamente por el modelo. \[ \text{TPR} = \frac{\text{Verdaderos Positivos}}{\text{Verdaderos Positivos} + \text{Falsos Negativos}} \]
  • Tasa de Falsos Positivos (FPR): Mide la proporción de negativos reales identificados incorrectamente como positivos por el modelo. \[ \text{FPR} = \frac{\text{Falsos Positivos}}{\text{Falsos Positivos} + \text{Verdaderos Negativos}} \]

¿Qué es el AUC?

El Área Bajo la Curva (AUC) cuantifica la capacidad general del modelo para discriminar entre las clases positivas y negativas. Un AUC más alto indica un modelo con mejor rendimiento. Un AUC de 0.5 sugiere que no hay poder discriminativo, equivalente a una suposición aleatoria, mientras que un AUC de 1.0 representa una discriminación perfecta.


Descripción del Conjunto de Datos: Weather Australia

Para esta guía, utilizaremos un conjunto de datos de Weather Australia, que contiene varios atributos meteorológicos. El conjunto de datos ha sido preprocesado para incluir 10,000 registros, lo que garantiza manejabilidad y efectividad para ilustrar los conceptos.

Fuente de Datos: Conjunto de Datos Weather Australia en Kaggle


Preprocesamiento de Datos

El preprocesamiento efectivo es crucial para construir modelos de aprendizaje automático robustos. Los siguientes pasos describen la tubería de preprocesamiento aplicada al conjunto de datos Weather Australia.

1. Importación de Bibliotecas y Datos

Salida de Muestra:

Date Location MinTemp MaxTemp Rainfall Evaporation Sunshine RainToday RISK_MM RainTomorrow
05/01/2012 CoffsHarbour 21.3 26.5 0.6 7.6 6.4 No 0.0 No

2. Selección de Características

Separa el conjunto de datos en características (X) y objetivo (y).

3. Manejo de Datos Faltantes

a. Características Numéricas

Imputar valores faltantes en columnas numéricas utilizando la estrategia de la media.

b. Características Categóricas

Imputar valores faltantes en columnas categóricas utilizando la estrategia más frecuente.

4. Codificación de Variables Categóricas

a. Codificación de Etiquetas

Convertir etiquetas categóricas en valores numéricos para la variable objetivo.

b. Codificación One-Hot

Aplicar Codificación One-Hot a las características categóricas con más de dos valores únicos.

5. Escalado y Selección de Características

a. Escalado de Características

Estandarizar el conjunto de características para asegurar uniformidad entre las variables.

b. Selección de Características

Seleccionar las 10 principales características basadas en la prueba estadística Chi-Cuadrado (chi2).

6. División de Entrenamiento y Prueba

Dividir el conjunto de datos en conjuntos de entrenamiento y prueba para evaluar el rendimiento del modelo.


Construcción y Evaluación del Modelo de Regresión Logística

Con los datos preprocesados, procedemos a construir un modelo de Regresión Logística, evaluar su rendimiento y optimizarlo utilizando las métricas ROC y AUC.

1. Entrenamiento del Modelo

Salida:

2. Cálculo de la Curva ROC y el AUC

Trazar la curva ROC y calcular el AUC proporciona una comprensión integral del rendimiento del modelo.

Salida:

3. Optimización del Umbral de Clasificación

El umbral predeterminado de 0.5 puede no siempre ofrecer el mejor rendimiento. Ajustar este umbral puede mejorar la precisión y otras métricas.

a. Cálculo de la Precisión en Diferentes Umbrales

Salida de Muestra:

b. Selección del Umbral Óptimo

c. Evaluación con el Umbral Óptimo

Salida:

Comparación con el Umbral Predeterminado:

Salida:

Perspectivas:

  • Mejora de la Precisión: El umbral óptimo aumenta ligeramente la precisión del 87.2% al 88%.
  • Mejora del Puntaje F1: El puntaje F1 mejora de 0.60 a 0.59 (una mejora marginal dado el equilibrio entre precisión y recall).
  • Precisión y Recall Equilibrados: El umbral óptimo mantiene un equilibrio entre precisión y recall, asegurando que ninguno sea favorecido desproporcionadamente.

Mejores Prácticas para la Optimización de Umbrales

  • Comprender los Compromisos: Ajustar el umbral afecta la sensibilidad y la especificidad. Es esencial alinear la selección del umbral con los objetivos específicos de tu aplicación.
  • Usar Métricas Relevantes: Dependiendo del problema, prioriza métricas como el puntaje F1, precisión o recall sobre la mera precisión.
  • Automatizar la Selección de Umbral: Aunque la inspección manual es beneficiosa, aprovechar métodos automatizados o la validación cruzada puede aumentar la robustez.

Conclusión

Optimizar modelos de clasificación binaria va más allá de lograr una alta precisión. Al aprovechar las curvas ROC, las métricas AUC y los ajustes estratégicos de umbral, los profesionales pueden afinar los modelos para cumplir con criterios de rendimiento específicos. Este enfoque integral asegura que los modelos sean no solo precisos, sino también confiables y efectivos en diversos escenarios.

Puntos Clave:

  • ROC y AUC proporcionan una visión holística del rendimiento del modelo a través de diferentes umbrales.
  • Optimización de Umbral puede mejorar las métricas del modelo, adaptando el rendimiento a las necesidades específicas de la aplicación.
  • Preprocesamiento Integral es fundamental para construir modelos de aprendizaje automático robustos y efectivos.

Emprende el perfeccionamiento de tus modelos con estas estrategias para lograr un rendimiento superior y obtener insights accionables.


Recursos Adicionales


Autor: [Tu Nombre]
Redactor Técnico y Entusiasta de la Ciencia de Datos

Comparte tu aprecio