Desbloqueando el Poder de la Regresión de Vectores de Soporte (SVR) en Python: Una Guía Integral

Tabla de Contenidos

Introducción
¿Qué es la Regresión de Vectores de Soporte (SVR)?
¿Por Qué Elegir SVR?
Descripción del Conjunto de Datos: Análisis de Datos de Seguros
1. Características del Conjunto de Datos:
Preprocesamiento de Datos
Construcción y Entrenamiento del Modelo SVR
1. 1. Importación de SVR
2. 2. Inicialización y Entrenamiento del Modelo
Realización de Predicciones y Evaluación del Modelo
Interpretación de los Resultados
1. ¿Por Qué SVR Rendió Mal?
Mejorando el Rendimiento de SVR
Conclusión
Recursos Adicionales
Preguntas Frecuentes

Introducción

En el vasto panorama del aprendizaje automático, los modelos de regresión juegan un papel fundamental en la predicción de resultados continuos. Entre estos modelos, la Regresión de Vectores de Soporte (SVR) se destaca como una herramienta poderosa pero a menudo subutilizada. Mientras que las Máquinas de Vectores de Soporte (SVM) son predominantemente preferidas para tareas de clasificación, SVR ofrece un enfoque único para abordar problemas de regresión. Esta guía integral profundiza en las complejidades de SVR, su implementación en Python y su rendimiento en escenarios del mundo real, particularmente utilizando un conjunto de datos de seguros.

¿Qué es la Regresión de Vectores de Soporte (SVR)?

La Regresión de Vectores de Soporte es una extensión del algoritmo de Máquina de Vectores de Soporte (SVM) adaptada para tareas de regresión. A diferencia de los modelos de regresión tradicionales que buscan minimizar el error entre los valores predichos y los reales, SVR se enfoca en la función de pérdida inclusiva de epsilon. Este enfoque permite que SVR cree un margen de tolerancia (epsilon) dentro del cual se ignoran los errores, lo que lleva a un modelo más robusto frente a valores atípicos.

¿Por Qué Elegir SVR?

Si bien SVR es una herramienta robusta para la regresión, es esencial entender su posicionamiento en el ámbito del aprendizaje automático:

Fortalezas:
- Efectivo en espacios de alta dimensionalidad.
- Robusto contra el sobreajuste, especialmente en casos con puntos de datos limitados.
- Utiliza funciones de núcleo para modelar relaciones no lineales.
Debilidades:
- Intensivo computacionalmente, lo que lo hace menos adecuado para conjuntos de datos grandes.
- El ajuste de hiperparámetros puede ser complejo.
- A menudo es superado por métodos de ensamblaje como Random Forests o Gradient Boosting en tareas de regresión.

Dadas estas características, SVR es más adecuado para escenarios específicos donde sus fortalezas pueden ser plenamente aprovechadas.

Descripción del Conjunto de Datos: Análisis de Datos de Seguros

Para ilustrar la implementación de SVR, utilizaremos el Conjunto de Datos de Seguros de Kaggle. Este conjunto de datos proporciona información sobre las características demográficas y de salud de los individuos, con el objetivo de predecir los cargos de seguros.

Características del Conjunto de Datos:

age: Edad del beneficiario principal.
sex: Género del individuo.
bmi: Índice de masa corporal.
children: Número de hijos cubiertos por el seguro de salud.
smoker: Indicador si el individuo fuma.
region: Área residencial en los EE. UU.
charges: Costos médicos facturados por el seguro de salud.

Preprocesamiento de Datos

Un preprocesamiento de datos efectivo es fundamental para el éxito de cualquier modelo de aprendizaje automático. A continuación, se presenta un desglose paso a paso de los pasos de preprocesamiento utilizando las bibliotecas pandas y sklearn de Python.

1. Importación de Bibliotecas

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

sns.set()

2. Carga del Conjunto de Datos

# Cargar el conjunto de datos de seguros
data = pd.read_csv('S07_datasets_13720_18513_insurance.csv')
print(data.head())

# Cargar el conjunto de datos de seguros

data = pd.read_csv('S07_datasets_13720_18513_insurance.csv')

print(data.head())

Salida de Muestra:

age	sex	bmi	children	smoker	region	charges
19	female	27.900	0	yes	southwest	16884.92400
18	male	33.770	1	no	southeast	1725.55230
28	male	33.000	3	no	southeast	4449.46200
33	male	22.705	0	no	northwest	21984.47061
32	male	28.880	0	no	northwest	3866.85520

3. Separación de Características y Variable Objetivo

X = data.iloc[:,:-1]  # Características
Y = data.iloc[:,-1]   # Variable objetivo (charges)

1 2	X = data.iloc[:,:-1] # Características Y = data.iloc[:,-1] # Variable objetivo (charges)

4. Codificación de Etiquetas

Las variables categóricas necesitan ser convertidas a formatos numéricos. Utilizamos la Codificación de Etiquetas para categorías binarias como ‘sex’ y ‘smoker’.

from sklearn import preprocessing
le = preprocessing.LabelEncoder()

# Codificar las columnas 'sex' y 'smoker'
X['sex'] = le.fit_transform(X['sex'])
X['smoker'] = le.fit_transform(X['smoker'])
print(X.head())

from sklearn import preprocessing

le = preprocessing.LabelEncoder()

# Codificar las columnas 'sex' y 'smoker'

X['sex'] = le.fit_transform(X['sex'])

X['smoker'] = le.fit_transform(X['smoker'])

print(X.head())

Salida de Muestra:

…

age	sex	bmi	children	smoker	region
19	0	27.9	0	1	southwest
18	1	33.77	1	0	southeast
28	1	33.0	3	0	southeast
33	1	22.705	0	0	northwest
32	1	28.88	0	0	northwest

5. Codificación One-Hot

Para variables categóricas con más de dos categorías, se prefiere la Codificación One-Hot. Aquí, la columna ‘region’ es una variable categórica de este tipo.

from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

# Aplicar Codificación One-Hot a la columna 'region'
columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), [5])], remainder='passthrough')
X = columnTransformer.fit_transform(X)
print(X)

from sklearn.preprocessing import OneHotEncoder

from sklearn.compose import ColumnTransformer

# Aplicar Codificación One-Hot a la columna 'region'

columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), [5])], remainder='passthrough')

X = columnTransformer.fit_transform(X)

print(X)

Salida de Muestra:

[[0.    0.    0.   ... 27.9   0.    1.  ]
 [0.    0.    1.   ... 33.77  1.    0.  ]
 [0.    0.    1.   ... 33.    3.    0.  ]
 ...
 [0.    0.    1.   ... 36.85  0.    0.  ]
 [0.    0.    0.   ... 25.8   0.    0.  ]
 [0.    1.    0.   ... 29.07  0.    1.  ]]

[[0. 0. 0. ... 27.9 0. 1. ]

[0. 0. 1. ... 33.77 1. 0. ]

[0. 0. 1. ... 33. 3. 0. ]

...

[0. 0. 1. ... 36.85 0. 0. ]

[0. 0. 0. ... 25.8 0. 0. ]

[0. 1. 0. ... 29.07 0. 1. ]]

6. División de los Datos

Dividimos el conjunto de datos en conjuntos de entrenamiento y prueba para evaluar el rendimiento del modelo.

from sklearn.model_selection import train_test_split

# Dividir los datos: 80% entrenamiento y 20% prueba
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)

from sklearn.model_selection import train_test_split

# Dividir los datos: 80% entrenamiento y 20% prueba

X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)

Construcción y Entrenamiento del Modelo SVR

Con los datos preprocesados, ahora podemos construir el modelo SVR utilizando sklearn.

1. Importación de SVR

from sklearn.svm import SVR

1	from sklearn.svm import SVR

2. Inicialización y Entrenamiento del Modelo

# Inicializar el modelo SVR con parámetros por defecto
model = SVR()

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Inicializar el modelo SVR con parámetros por defecto

model = SVR()

# Entrenar el modelo con los datos de entrenamiento

model.fit(X_train, y_train)

Salida del Modelo:

SVR()

SVR()

Realización de Predicciones y Evaluación del Modelo

Después del entrenamiento, utilizamos el modelo para hacer predicciones en el conjunto de prueba y evaluar su rendimiento utilizando el puntaje R².

1. Predicciones

# Predecir con los datos de prueba
y_pred = model.predict(X_test)

1 2	# Predecir con los datos de prueba y_pred = model.predict(X_test)

2. Comparación de Valores Reales vs. Predichos

# Crear un DataFrame para comparar los cargos reales y predichos
comparison = pd.DataFrame()
comparison['Actual'] = y_test
comparison['Predicted'] = y_pred
print(comparison.head())

# Crear un DataFrame para comparar los cargos reales y predichos

comparison = pd.DataFrame()

comparison['Actual'] = y_test

comparison['Predicted'] = y_pred

print(comparison.head())

Salida de Muestra:

Actual	Predicted
1646.43	9111.903501
11353.23	9307.009935
8798.59	9277.155786
10381.48	9265.538282
2103.08	9114.774006

3. Evaluación del Modelo

El puntaje R² indica qué tan bien las predicciones del modelo se ajustan a los datos reales. Un puntaje R² más cercano a 1 significa un mejor ajuste.

from sklearn.metrics import r2_score

# Calcular el puntaje R²
r2 = r2_score(y_test, y_pred)
print(f'Puntaje R²: {r2}')

from sklearn.metrics import r2_score

# Calcular el puntaje R²

r2 = r2_score(y_test, y_pred)

print(f'Puntaje R²: {r2}')

Salida:

Puntaje R²: -0.1157396589643176

1	Puntaje R²: -0.1157396589643176

Interpretación de los Resultados

Un puntaje R² de -0.1157 significa que el modelo SVR tiene un rendimiento deficiente en el conjunto de datos dado. En el análisis de regresión, valores negativos de R² indican que el modelo se ajusta a los datos peor que una línea horizontal (es decir, peor que simplemente predecir la media de la variable objetivo).

¿Por Qué SVR Rendió Mal?

Varios factores pueden contribuir al bajo rendimiento de SVR en este escenario:

Hiperparámetros por Defecto: El rendimiento de SVR es altamente sensible a sus hiperparámetros (por ejemplo, tipo de núcleo, C, epsilon). Utilizar configuraciones por defecto puede no capturar eficazmente los patrones subyacentes en los datos.
Tamaño del Conjunto de Datos: SVR puede ser intensivo computacionalmente, especialmente con conjuntos de datos más grandes. El conjunto de datos de seguros, con 1,338 registros, puede aún plantear desafíos para que SVR generalice de manera efectiva.
Escalado de Características: SVR requiere que las características de entrada estén escaladas adecuadamente. La falta de escalado de características puede llevar a un rendimiento subóptimo.
Relaciones No Lineales: Aunque SVR puede manejar relaciones no lineales usando funciones de núcleo, la elección del núcleo y sus parámetros influyen en gran medida en el rendimiento.

Mejorando el Rendimiento de SVR

Para mejorar el rendimiento del modelo SVR, considere los siguientes pasos:

1. Escalado de Características:

from sklearn.preprocessing import StandardScaler

# Inicializar los escaladores
sc_X = StandardScaler()
sc_y = StandardScaler()

# Ajustar y transformar los datos de entrenamiento
X_train = sc_X.fit_transform(X_train)
y_train = sc_y.fit_transform(y_train.values.reshape(-1, 1)).ravel()

# Transformar los datos de prueba
X_test = sc_X.transform(X_test)
y_test = sc_y.transform(y_test.values.reshape(-1, 1)).ravel()

from sklearn.preprocessing import StandardScaler

# Inicializar los escaladores

sc_X = StandardScaler()

sc_y = StandardScaler()

# Ajustar y transformar los datos de entrenamiento

X_train = sc_X.fit_transform(X_train)

y_train = sc_y.fit_transform(y_train.values.reshape(-1, 1)).ravel()

# Transformar los datos de prueba

X_test = sc_X.transform(X_test)

y_test = sc_y.transform(y_test.values.reshape(-1, 1)).ravel()

2. Ajuste de Hiperparámetros:

Utilice técnicas como Grid Search con Validación Cruzada para encontrar los hiperparámetros óptimos.

from sklearn.model_selection import GridSearchCV

# Definir la cuadrícula de parámetros
param_grid = {
    'C': [0.1, 1, 10, 100],
    'epsilon': [0.01, 0.1, 0.2, 0.5],
    'kernel': ['linear', 'rbf', 'poly']
}

# Inicializar Grid Search
grid_search = GridSearchCV(SVR(), param_grid, cv=5, scoring='r2', n_jobs=-1)

# Ejecutar Grid Search
grid_search.fit(X_train, y_train)

# Mejores parámetros
print(grid_search.best_params_)

from sklearn.model_selection import GridSearchCV

# Definir la cuadrícula de parámetros

param_grid = {

'C': [0.1, 1, 10, 100],

'epsilon': [0.01, 0.1, 0.2, 0.5],

'kernel': ['linear', 'rbf', 'poly']

}

# Inicializar Grid Search

grid_search = GridSearchCV(SVR(), param_grid, cv=5, scoring='r2', n_jobs=-1)

# Ejecutar Grid Search

grid_search.fit(X_train, y_train)

# Mejores parámetros

print(grid_search.best_params_)

3. Modelos Alternativos:

Dadas las limitaciones observadas, explorar otros modelos de regresión como Random Forests o XGBoost podría arrojar mejores resultados.

Conclusión

La Regresión de Vectores de Soporte es una herramienta potente en el arsenal del aprendizaje automático, especialmente para escenarios que requieren robustez contra valores atípicos y manejo de datos de alta dimensionalidad. Sin embargo, su eficacia depende del preprocesamiento meticuloso y del ajuste de hiperparámetros. En aplicaciones prácticas, como se demostró con el conjunto de datos de seguros, SVR puede tener un rendimiento inferior en comparación con métodos de ensamblaje como Random Forests o Gradient Boosting, que a menudo proporcionan una mayor precisión en tareas de regresión.

Para los profesionales que buscan aprovechar SVR, es imperativo:

Escalar las Características Adecuadamente: Asegurarse de que todas las características contribuyan por igual al modelo.
Optimizar los Hiperparámetros: Emplear técnicas como Grid Search para ajustar finamente las configuraciones del modelo.
Evaluar Modelos Alternativos: A veces, otros algoritmos pueden ser inherentemente más adecuados para la tarea en cuestión.

Al comprender las fortalezas y limitaciones de SVR, los científicos de datos pueden tomar decisiones informadas, asegurando el despliegue de los modelos de regresión más efectivos para sus casos de uso específicos.

Recursos Adicionales

Preguntas Frecuentes

1. ¿Cuándo debo usar la Regresión de Vectores de Soporte en lugar de otros modelos de regresión?

SVR es particularmente útil cuando se trabaja con conjuntos de datos de alta dimensionalidad y cuando la relación entre las características y la variable objetivo es no lineal. También es beneficioso cuando su conjunto de datos contiene valores atípicos, ya que SVR es robusto contra ellos.

2. ¿Puede SVR manejar grandes conjuntos de datos de manera eficiente?

SVR puede ser intensivo computacionalmente con grandes conjuntos de datos, lo que lleva a tiempos de entrenamiento más largos. Para conjuntos de datos considerables, métodos de ensamblaje como Random Forests o Gradient Boosting podrían ser más eficientes y proporcionar un mejor rendimiento.

3. ¿Cómo afecta la elección del núcleo al rendimiento de SVR?

La función de núcleo determina la transformación de los datos a un espacio de mayor dimensionalidad, permitiendo que el modelo capture relaciones no lineales. Los núcleos comunes incluyen lineal, polinomial (poly) y función de base radial (rbf). La elección del núcleo y sus parámetros (como gamma en rbf) influyen significativamente en el rendimiento de SVR.

4. ¿Es obligatorio escalar las características para SVR?

Sí, el escalado de características es crucial para SVR. Sin escalado, las características con mayores magnitudes pueden dominar la función objetivo, lo que lleva a un rendimiento subóptimo. El escalado asegura que todas las características contribuyan por igual al modelo.

5. ¿Cuáles son las alternativas a SVR para tareas de regresión?

Las alternativas populares incluyen Regresión Lineal, Árboles de Decisión, Random Forests, Máquinas de Gradient Boosting (por ejemplo, XGBoost) y Redes Neuronales. Cada una tiene sus fortalezas y está adaptada a diferentes tipos de problemas de regresión.