Dominando la Regresión Lineal Múltiple: Una Guía Completa para Codificar Variables Categóricas

Tabla de Contenidos

Comprendiendo los Datos Categóricos en Modelos de Regresión
Codificación de Etiquetas vs. Codificación One-Hot
Demostración Práctica Usando Python y Jupyter Notebook
La Trampa de Variables Dummy en la Regresión Lineal Múltiple
Pasos de Preprocesamiento para Modelos de Regresión
Evaluación del Modelo
Conclusión

Comprendiendo los Datos Categóricos en Modelos de Regresión

La regresión lineal múltiple es una técnica estadística que modela la relación entre una variable dependiente y múltiples variables independientes. Mientras que los datos numéricos pueden usarse directamente en estos modelos, los datos categóricos—que representan características o etiquetas—requieren una transformación para ser utilizados de manera efectiva.

Por Qué Importa la Codificación

Las variables categóricas, como «gender» o «region», son no numéricas y necesitan ser convertidas a un formato numérico. Una codificación adecuada asegura que el algoritmo de aprendizaje automático interprete correctamente estas variables sin introducir sesgos o patrones engañosos.

Codificación de Etiquetas vs. Codificación One-Hot

Al tratar con variables categóricas, se emplean dos técnicas principales de codificación:

Codificación de Etiquetas: Convierte cada categoría en un entero único. Adecuada para categorías binarias o datos ordinales donde el orden importa.
Codificación One-Hot: Crea columnas binarias para cada categoría, eliminando efectivamente cualquier relación ordinal y permitiendo que el modelo trate cada categoría de manera independiente.

Elegir el método de codificación adecuado es crucial para el rendimiento y la interpretabilidad del modelo.

Demostración Práctica Usando Python y Jupyter Notebook

Vamos a realizar un ejemplo práctico utilizando la biblioteca scikit-learn de Python y Jupyter Notebook para demostrar la codificación de etiquetas y la codificación one-hot en un modelo de regresión lineal múltiple.

Importación de Bibliotecas

Comienza importando las bibliotecas necesarias para la manipulación de datos, visualización y aprendizaje automático.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

sns.set()

Carga y Exploración del Conjunto de Datos

Usaremos el conjunto de datos de Seguros de Kaggle, que contiene información sobre las demografías de individuos y los cargos de seguros.

# Load the dataset
data = pd.read_csv('S07_datasets_13720_18513_insurance.csv')

# Separate features and target variable
X = data.iloc[:,:-1]
Y = data.iloc[:,-1]

# Display the first few rows
data.head()

# Load the dataset

data = pd.read_csv('S07_datasets_13720_18513_insurance.csv')

# Separate features and target variable

X = data.iloc[:,:-1]

Y = data.iloc[:,-1]

# Display the first few rows

data.head()

Salida:

edad	sexo	IMC	hijos	fumador	región	cobros
19	female	27.900	0	yes	southwest	16884.92400
18	male	33.770	1	no	southeast	1725.55230
28	male	33.000	3	no	southeast	4449.46200
33	male	22.705	0	no	northwest	21984.47061
32	male	28.880	0	no	northwest	3866.85520

Codificación de Etiquetas para Características Categóricas

La codificación de etiquetas es ideal para variables categóricas binarias. En este conjunto de datos, «sexo» y «fumador» son binarias y, por lo tanto, adecuadas para la codificación de etiquetas.

from sklearn import preprocessing
le = preprocessing.LabelEncoder()

# Encode 'sex' and 'smoker' columns
X['sex'] = le.fit_transform(X['sex'])
X['smoker'] = le.fit_transform(X['smoker'])

# Display the transformed features
X

from sklearn import preprocessing

le = preprocessing.LabelEncoder()

# Encode 'sex' and 'smoker' columns

X['sex'] = le.fit_transform(X['sex'])

X['smoker'] = le.fit_transform(X['smoker'])

# Display the transformed features

Salida:

edad	sexo	IMC	hijos	fumador	región
19	0	27.900	0	1	southwest
18	1	33.770	1	0	southeast
28	1	33.000	3	0	southeast
33	1	22.705	0	0	northwest
32	1	28.880	0	0	northwest
…	…	…	…	…	…
61	0	29.070	0	1	northwest

Codificación One-Hot para Características Categóricas

Para variables categóricas con más de dos categorías, se prefiere la codificación one-hot para evitar introducir relaciones ordinales.

from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

# Apply One-Hot Encoding to the 'region' column (index 5)
columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), [5])], remainder='passthrough')
X = columnTransformer.fit_transform(X)

# Display the transformed features
print(X)

from sklearn.preprocessing import OneHotEncoder

from sklearn.compose import ColumnTransformer

# Apply One-Hot Encoding to the 'region' column (index 5)

columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), [5])], remainder='passthrough')

X = columnTransformer.fit_transform(X)

# Display the transformed features

print(X)

Salida:

[[ 0.    0.    0.   ... 27.9   0.    1.  ]
 [ 0.    0.    1.   ... 33.77  1.    0.  ]
 [ 0.    0.    1.   ... 33.    3.    0.  ]
 ...
 [ 0.    0.    1.   ... 36.85  0.    0.  ]
 [ 0.    0.    0.   ... 25.8   0.    0.  ]
 [ 0.    1.    0.   ... 29.07  0.    1.  ]]

[[ 0. 0. 0. ... 27.9 0. 1. ]

[ 0. 0. 1. ... 33.77 1. 0. ]

[ 0. 0. 1. ... 33. 3. 0. ]

...

[ 0. 0. 1. ... 36.85 0. 0. ]

[ 0. 0. 0. ... 25.8 0. 0. ]

[ 0. 1. 0. ... 29.07 0. 1. ]]

La Trampa de Variables Dummy en la Regresión Lineal Múltiple

Al emplear la codificación one-hot, es esencial tener cuidado con la trampa de variables dummy—un escenario donde surge multicolinealidad debido a variables dummy redundantes. Esto puede llevar a estimaciones de varianza infladas y coeficientes de modelo no confiables.

Comprendiendo la Trampa

Si se crean tres variables dummy para una característica categórica con tres categorías (por ejemplo, Suroeste, Noroeste, Central), incluir las tres en el modelo de regresión introduce una multicolinealidad perfecta. Esto se debe a que una variable puede ser exactamente predicha a partir de las otras, lo que hace que la inversión de la matriz requerida para la regresión falle.

Solución

Para evitar la trampa de variables dummy, elimina una de las variables dummy. Esto asegura que el modelo permanezca identificable y evita la multicolinealidad.

# Modify OneHotEncoder to drop one category
columnTransformer = ColumnTransformer(
    [("encoder", OneHotEncoder(drop='first'), [5])],
    remainder='passthrough'
)
X = columnTransformer.fit_transform(X)

# Modify OneHotEncoder to drop one category

columnTransformer = ColumnTransformer(

[("encoder", OneHotEncoder(drop='first'), [5])],

remainder='passthrough'

)

X = columnTransformer.fit_transform(X)

Pasos de Preprocesamiento para Modelos de Regresión

Un preprocesamiento efectivo es crucial para construir modelos de regresión robustos. A continuación se describen los pasos esenciales:

Importación de Datos: Carga tu conjunto de datos usando pandas.
Manejo de Datos Faltantes: Aborda cualquier valor faltante mediante imputación o eliminación.
División en Train-Test: Divide los datos en conjuntos de entrenamiento y prueba para evaluar el rendimiento del modelo.
Selección de Características: Aunque bibliotecas como scikit-learn manejan esto internamente, comprender la importancia de las características puede ser beneficioso.
Codificación de Variables Categóricas: Como se discutió, utiliza la codificación de etiquetas o la codificación one-hot de manera apropiada.
Manejo de Datos Desequilibrados: No típicamente aplicable en regresión a menos que se requieran distribuciones específicas.
Escalado de Características: Aunque a menudo esencial en clasificación, puede ser opcional en modelos de regresión.

Nota: En los modelos de regresión, el escalado de características es generalmente opcional ya que el escalado a veces puede ocultar la interpretabilidad de los coeficientes.

Evaluación del Modelo

Después del preprocesamiento, es momento de construir y evaluar el modelo de regresión.

Construcción del Modelo Lineal

from sklearn.linear_model import LinearRegression

# Initialize and train the model
model = LinearRegression()
model.fit(X_train, y_train)

from sklearn.linear_model import LinearRegression

# Initialize and train the model

model = LinearRegression()

model.fit(X_train, y_train)

Realización de Predicciones

# Predict on the test set
y_pred = model.predict(X_test)

1 2	# Predict on the test set y_pred = model.predict(X_test)

Comparación de Valores Reales vs. Predichos

# Create a comparison DataFrame
comparison = pd.DataFrame({
    'Actual': y_test,
    'Predicted': y_pred
})
comparison.head()

# Create a comparison DataFrame

comparison = pd.DataFrame({

'Actual': y_test,

'Predicted': y_pred

})

comparison.head()

Salida:

Real	Predicho
1646.4297	4383.6809
11353.2276	12885.0389
8798.5930	12589.2165
10381.4787	13286.2292
2103.0800	544.7283

Evaluación con el Puntaje R²

El puntaje R² mide la proporción de la varianza en la variable dependiente que es predecible a partir de las variables independientes.

from sklearn.metrics import r2_score

# Calculate R² score
r2 = r2_score(y_test, y_pred)
print(f"R² Score: {r2}")

from sklearn.metrics import r2_score

# Calculate R² score

r2 = r2_score(y_test, y_pred)

print(f"R² Score: {r2}")

Salida:

R² Score: 0.7623311844057112

1	R² Score: 0.7623311844057112

Un puntaje R² de aproximadamente 0.76 indica que el 76% de la variabilidad en los cargos de seguros puede ser explicado por el modelo, lo cual es un rendimiento respetable para muchas aplicaciones.

Conclusión

Dominar la regresión lineal múltiple implica más que simplemente ajustar un modelo a los datos. Codificar adecuadamente las variables categóricas utilizando técnicas como la codificación de etiquetas y la codificación one-hot, mientras se tiene en cuenta problemas como la trampa de variables dummy, es esencial para construir modelos precisos y confiables. Al seguir los pasos de preprocesamiento y aprovechar las robustas bibliotecas de Python, puedes navegar efectivamente por las complejidades del análisis de regresión y extraer insights significativos de tus datos.

Preguntas Frecuentes (FAQs)

1. ¿Cuál es la diferencia entre la codificación de etiquetas y la codificación one-hot?

La codificación de etiquetas asigna un entero único a cada categoría, preservando las relaciones ordinales, lo que la hace ideal para variables categóricas binarias u ordinales. La codificación one-hot crea columnas binarias para cada categoría, eliminando cualquier relación ordinal y evitando que el algoritmo asuma algún orden inherente.

2. ¿Por qué el escalado de características es opcional en los modelos de regresión?

A diferencia de los modelos de clasificación donde el escalado de características puede impactar significativamente el rendimiento de ciertos algoritmos, los modelos de regresión suelen manejar más gracefully las diferentes escalas de las características. Sin embargo, en algunos casos, especialmente cuando se involucra regularización, el escalado puede seguir siendo beneficioso.

3. ¿Cómo puedo evitar la trampa de variables dummy?

Para evitar la trampa de variables dummy, elimina una variable dummy de cada conjunto de variables categóricas después de la codificación one-hot. Esto elimina la multicolinealidad y asegura un modelo más estable.

4. ¿Qué significa un puntaje R² en los modelos de regresión?

El puntaje R² mide la proporción de la varianza en la variable dependiente que es predecible a partir de las variables independientes. Un R² más alto indica un mejor ajuste del modelo a los datos.

5. ¿Puedo usar otras técnicas de codificación además de la codificación de etiquetas y la codificación one-hot?

Sí, existen otras técnicas de codificación como la codificación de objetivo (target encoding), la codificación de frecuencia, y la codificación binaria, cada una con sus propias ventajas dependiendo del contexto y la naturaleza de los datos.

Emprender el camino de la regresión lineal múltiple te equipa con herramientas poderosas para analizar y predecir resultados continuos. Al dominar las técnicas de codificación de datos y comprender la mecánica subyacente de los modelos de regresión, abres el camino para decisiones basadas en datos que son profundas e impactantes.