S16L02 – Modelo de regresión de plantilla maestra – Modelos y evaluación

Dominar la Predicción de Precios de Automóviles con Modelos de Regresión Avanzados: Una Guía Integral

Tabla de Contenidos

  1. Introducción
  2. Visión General del Conjunto de Datos
  3. Importación de Datos y Exploración Inicial
  4. Limpieza y Preprocesamiento de Datos
    1. Manejo de Datos Numéricos Faltantes
    2. Manejo de Datos Categóricos Faltantes
  5. Selección y Codificación de Características
    1. Eliminación de Características Irrelevantes
    2. Codificación One-Hot de Variables Categóricas
  6. División de Entrenamiento y Prueba
  7. Escalado de Características
  8. Construcción y Evaluación de Modelos de Regresión
    1. 1. Regresión Lineal
    2. 2. Regresión Lineal Polinómica
    3. 3. Regresión con Árbol de Decisión
    4. 4. Regresión con Bosque Aleatorio
    5. 5. Regresión AdaBoost
    6. 6. Regresión XGBoost
    7. 7. Regresión de Vectores de Soporte (SVR)
  9. Comparación del Rendimiento de los Modelos
  10. Conclusión

Introducción

La analítica predictiva empodera a las empresas para anticipar tendencias futuras, optimizar operaciones y mejorar los procesos de toma de decisiones. La predicción de precios de automóviles es un ejemplo quintesencial donde los modelos de aprendizaje automático pueden prever los precios de los vehículos basándose en atributos como la marca, especificaciones del motor, tipo de combustible y más. Esta guía te conduce a través de la construcción de una tubería de modelos de regresión completa, desde el preprocesamiento de datos hasta la evaluación de múltiples algoritmos de regresión.

Visión General del Conjunto de Datos

El conjunto de datos de Predicción de Precios de Automóviles en Kaggle es un recurso rico que contiene 205 entradas con 26 características cada una. Estas características abarcan varios aspectos de los automóviles, como el número de puertas, tamaño del motor, caballos de fuerza, tipo de combustible y más, todos los cuales influyen en el precio de mercado del automóvil.

Características Clave:

  • CarName: Nombre del automóvil (marca y modelo)
  • FuelType: Tipo de combustible utilizado (por ejemplo, gasolina, diésel)
  • Aspiration: Tipo de aspiración del motor
  • Doornumber: Número de puertas (dos o cuatro)
  • Enginesize: Tamaño del motor
  • Horsepower: Potencia del motor
  • Price: Precio de mercado del automóvil (variable objetivo)

Importación de Datos y Exploración Inicial

Primero, importamos el conjunto de datos usando pandas y echamos un vistazo preliminar a la estructura de los datos.

Salida de Muestra:

Limpieza y Preprocesamiento de Datos

Manejo de Datos Numéricos Faltantes

Los valores faltantes pueden sesgar significativamente el rendimiento de los modelos de aprendizaje automático. Primero abordamos los datos numéricos faltantes imputando con el valor medio.

Manejo de Datos Categóricos Faltantes

Para las variables categóricas, los valores faltantes se imputan utilizando la estrategia más frecuente.

Selección y Codificación de Características

Eliminación de Características Irrelevantes

La columna car_ID es un identificador único y no contribuye al poder predictivo del modelo. Por lo tanto, se elimina.

Codificación One-Hot de Variables Categóricas

Los algoritmos de aprendizaje automático requieren una entrada numérica. Por lo tanto, las variables categóricas se transforman utilizando la Codificación One-Hot.

Antes de la Codificación:

  • Forma: (205, 24)

Después de la Codificación:

  • Forma: (205, 199)

División de Entrenamiento y Prueba

Dividir el conjunto de datos en conjuntos de entrenamiento y prueba es crucial para evaluar el rendimiento del modelo.

Salida:

Escalado de Características

El escalado de características asegura que todas las características contribuyan por igual al rendimiento del modelo. Aquí, utilizamos la Estandarización.

Construcción y Evaluación de Modelos de Regresión

Exploraremos varios modelos de regresión, evaluando cada uno basado en la puntuación R².

1. Regresión Lineal

La Regresión Lineal sirve como un modelo de referencia.

Puntuación R²: 0.097
Interpretación: El modelo explica aproximadamente el 9.7% de la varianza en los precios de los automóviles.

2. Regresión Lineal Polinómica

Para capturar relaciones no lineales, introducimos características polinómicas.

Puntuación R²: -0.45
Interpretación: El modelo rinde peor que el modelo base, explicando -45% de la varianza.

3. Regresión con Árbol de Decisión

Los Árboles de Decisión pueden modelar relaciones complejas al particionar los datos.

Puntuación R²: 0.88
Interpretación: Una mejora significativa, explicando el 88% de la varianza.

4. Regresión con Bosque Aleatorio

Random Forest agrega múltiples Árboles de Decisión para mejorar el rendimiento y mitigar el sobreajuste.

Puntuación R²: 0.91
Interpretación: Rendimiento excelente, explicando el 91% de la varianza.

5. Regresión AdaBoost

AdaBoost combina aprendices débiles para formar un predictor fuerte enfocándose en los errores.

Puntuación R²: 0.88
Interpretación: Comparable al Árbol de Decisión, explicando el 88% de la varianza.

6. Regresión XGBoost

XGBoost es un potente marco de boosting de gradiente conocido por su eficiencia y rendimiento.

Puntuación R²: 0.89
Interpretación: Rendimiento robusto, explicando el 89% de la varianza.

7. Regresión de Vectores de Soporte (SVR)

SVR es efectivo en espacios de alta dimensionalidad pero puede tener un rendimiento inferior con conjuntos de datos más grandes.

Puntuación R²: -0.03
Interpretación: Rendimiento deficiente, explicando -3% de la varianza.

Comparación del Rendimiento de los Modelos

Modelo Puntuación R²
Regresión Lineal 0.10
Regresión Lineal Polinómica -0.45
Regresión con Árbol de Decisión 0.88
Regresión con Bosque Aleatorio 0.91
Regresión AdaBoost 0.88
Regresión XGBoost 0.89
Regresión de Vectores de Soporte (SVR) -0.03

Perspectivas:

  • Regresión con Bosque Aleatorio supera a todos los demás modelos con una puntuación R² de 0.91, lo que indica que explica el 91% de la varianza en los precios de los automóviles.
  • Regresión Lineal Polinómica tuvo el peor desempeño, incluso peor que el modelo base, lo que sugiere sobreajuste o una transformación inadecuada de las características.
  • Regresión de Vectores de Soporte (SVR) tuvo dificultades con este conjunto de datos, posiblemente debido a la alta dimensionalidad posterior a la codificación.

Conclusión

El modelado predictivo para la predicción de precios de automóviles subraya la importancia de seleccionar el algoritmo adecuado y realizar un preprocesamiento exhaustivo de los datos. En nuestra exploración:

  • Los modelos de Árbol de Decisión y Bosque Aleatorio demostraron un rendimiento excepcional, con Bosque Aleatorio superando ligeramente a los demás.
  • Los métodos de ensamble como AdaBoost y XGBoost también mostraron resultados sólidos, destacando su eficacia en el manejo de conjuntos de datos complejos.
  • Los modelos lineales, especialmente cuando se extienden a características polinómicas, no siempre garantizan un mejor rendimiento y, a veces, pueden degradar la eficacia del modelo.
  • Regresión de Vectores de Soporte (SVR) puede no ser la mejor opción para conjuntos de datos con alta dimensionalidad o donde los patrones no lineales son menos pronunciados.

Conclusiones Clave:

  1. Preprocesamiento de Datos: Manejar valores faltantes y codificar variables categóricas son pasos cruciales que influyen significativamente en el rendimiento del modelo.
  2. Escalado de Características: Asegura que todas las características contribuyan de manera equitativa, mejorando la eficiencia de los algoritmos basados en gradientes.
  3. Selección de Modelos: Los métodos de ensamble como Bosques Aleatorios y XGBoost a menudo ofrecen un rendimiento superior en tareas de regresión.
  4. Evaluación de Modelos: La puntuación R² es una métrica valiosa para evaluar qué tan bien las predicciones se aproximan a los resultados reales.

Emprender la predicción de precios de automóviles utilizando modelos de regresión avanzados no solo mejora la precisión predictiva sino que también equipa a las partes interesadas con insights accionables sobre la dinámica del mercado. A medida que el campo del aprendizaje automático continúa evolucionando, mantenerse al día con los últimos algoritmos y técnicas sigue siendo esencial para entusiastas y profesionales de los datos por igual.

Comparte tu aprecio