S07L01 – Regresión lineal múltiple en Python

html
Dominando la Regresión Lineal Múltiple en Python: Una Guía Completa

Desbloquea el poder de la analítica predictiva con la regresión lineal múltiple en Python. Ya seas un entusiasta de la ciencia de datos o un profesional experimentado, esta guía te guía a través de la construcción, evaluación y optimización de un modelo de regresión lineal múltiple utilizando las robustas bibliotecas de Python. Sumérgete para mejorar tus habilidades de modelado de datos y tomar decisiones informadas.



Tabla de Contenidos


    Introducción a la Regresión Lineal Múltiple
    Entendiendo el Conjunto de Datos
    Configurando el Entorno
    Preprocesamiento de Datos
        
            Importando Bibliotecas
            Cargando los Datos
            Explorando los Datos
            Codificación One Hot de Variables Categóricas
        
    
    Dividiendo los Datos
    Construyendo el Modelo de Regresión Lineal Múltiple
    Realizando Predicciones
    Comparando Valores Reales vs. Predichos
    Evaluando el Rendimiento del Modelo
    Conclusión




Introducción a la Regresión Lineal Múltiple

Regresión Lineal Múltiple es una técnica estadística fundamental utilizada para predecir el resultado de una variable objetivo basada en dos o más variables predictoras. A diferencia de la regresión lineal simple, que se basa en una sola variable independiente, la regresión lineal múltiple proporciona una comprensión más completa de las relaciones de los datos, lo que la hace invaluable en campos como la economía, la medicina y la ingeniería.



Entendiendo el Conjunto de Datos

Para esta guía, utilizaremos el Conjunto de Datos de Costos Médicos Personales, accesible aquí en Kaggle. Este conjunto de datos contiene información sobre los gastos médicos de individuos y diversos factores que podrían influir en dichos gastos, como la edad, el sexo, el IMC, el número de hijos, el estado de fumador y la región.

Datos de Muestra:


    
        edad
        sexo
        imc
        hijos
        fumador
        región
        cargos
    
    
        19
        femenino
        27.9
        0
        sí
        suroeste
        16884.924
    
    
        18
        masculino
        33.77
        1
        no
        sureste
        1725.5523
    
    
        28
        masculino
        33
        3
        no
        sureste
        4449.462
    
    
        ...
        ...
        ...
        ...
        ...
        ...
        ...
    


Cargos es nuestra variable objetivo, que representa los gastos médicos facturados a un individuo.



Configurando el Entorno

Antes de sumergirse en el análisis de datos, asegúrate de tener instaladas las herramientas necesarias. Utilizaremos:


    Python 3.x
    Jupyter Notebook
    Bibliotecas: NumPy, Pandas, Matplotlib, Seaborn, Scikit-Learn


Puedes instalar las bibliotecas requeridas usando pip:





		
		
			
			
Java
			
			pip install numpy pandas matplotlib seaborn scikit-learn
			
				
					
				
					1
				
						pip install numpy pandas matplotlib seaborn scikit-learn
					
				
			
		





Preprocesamiento de Datos

El preprocesamiento de datos es un paso crucial que implica limpiar y transformar datos crudos en un formato adecuado para el modelado.

Importando Bibliotecas

Comienza importando las bibliotecas esenciales de Python:





		
		
			
			
Java
			
			import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
			
				
					
				
					1
2
3
4
5
				
						import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
					
				
			
		



Cargando los Datos

Carga el conjunto de datos en un DataFrame de Pandas:





		
		
			
			
Java
			
			data = pd.read_csv('S07_datasets_13720_18513_insurance.csv')
			
				
					
				
					1
				
						data = pd.read_csv('S07_datasets_13720_18513_insurance.csv')
					
				
			
		



Explorando los Datos

Entiende la estructura y el contenido del conjunto de datos:





		
		
			
			
Java
			
			data.head()
			
				
					
				
					1
				
						data.head()
					
				
			
		



Salida:


    
        edad
        sexo
        imc
        hijos
        fumador
        región
        cargos
    
    
        19
        femenino
        27.9
        0
        sí
        suroeste
        16884.924
    
    
        18
        masculino
        33.77
        1
        no
        sureste
        1725.5523
    
    
        28
        masculino
        33
        3
        no
        sureste
        4449.462
    
    
        33
        masculino
        22.705
        0
        no
        noroeste
        21984.47061
    
    
        32
        masculino
        28.88
        0
        no
        noroeste
        3866.8552
    


Codificación One Hot de Variables Categóricas

Los modelos de aprendizaje automático requieren entradas numéricas. Por lo tanto, necesitamos convertir variables categóricas como sexo, fumador y región en formatos numéricos utilizando Codificación One Hot.





		
		
			
			
Java
			
			from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

# Define el transformador de columnas con OneHotEncoder para columnas categóricas
columnTransformer = ColumnTransformer(
    [('encoder', OneHotEncoder(), [1, 4, 5])], 
    remainder='passthrough'
)

# Aplica la transformación al conjunto de características
X = columnTransformer.fit_transform(X)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
				
						from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
 
# Define el transformador de columnas con OneHotEncoder para columnas categóricas
columnTransformer = ColumnTransformer(
    [('encoder', OneHotEncoder(), [1, 4, 5])], 
    remainder='passthrough'
)
 
# Aplica la transformación al conjunto de características
X = columnTransformer.fit_transform(X)
					
				
			
		



Explicación:


    ColumnTransformer aplica transformadores a columnas específicas.
    OneHotEncoder convierte variables categóricas en vectores binarios.
    remainder='passthrough' asegura que las columnas no especificadas permanezcan sin cambios.




Dividiendo los Datos

Divide el conjunto de datos en conjuntos de entrenamiento y prueba para evaluar el rendimiento del modelo de manera efectiva.





		
		
			
			
Java
			
			from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, Y, test_size=0.20, random_state=1
)
			
				
					
				
					1
2
3
4
5
				
						from sklearn.model_selection import train_test_split
 
X_train, X_test, y_train, y_test = train_test_split(
    X, Y, test_size=0.20, random_state=1
)
					
				
			
		



Parámetros:


    test_size=0.20 asigna el 20% de los datos para prueba.
    random_state=1 asegura la reproducibilidad.




Construyendo el Modelo de Regresión Lineal Múltiple

Con los datos preparados, es hora de construir y entrenar el modelo de regresión.





		
		
			
			
Java
			
			from sklearn.linear_model import LinearRegression

# Inicializa el modelo
model = LinearRegression()

# Entrena el modelo con los datos de entrenamiento
model.fit(X_train, y_train)
			
				
					
				
					1
2
3
4
5
6
7
				
						from sklearn.linear_model import LinearRegression
 
# Inicializa el modelo
model = LinearRegression()
 
# Entrena el modelo con los datos de entrenamiento
model.fit(X_train, y_train)
					
				
			
		



Puntos Clave:


    LinearRegression() de Scikit-Learn es una manera sencilla de implementar modelos lineales.
    El método .fit() entrena el modelo usando los datos de entrenamiento.




Realizando Predicciones

Utiliza el modelo entrenado para predecir los cargos basados en el conjunto de prueba.





		
		
			
			
Java
			
			y_pred = model.predict(X_test)
			
				
					
				
					1
				
						y_pred = model.predict(X_test)
					
				
			
		





Comparando Valores Reales vs. Predichos

Analizar las diferencias entre los valores reales y predichos proporciona perspectivas sobre el rendimiento del modelo.





		
		
			
			
Java
			
			comparision = pd.DataFrame()
comparision['Actual'] = y_test
comparision['Predicted'] = y_pred
comparision
			
				
					
				
					1
2
3
4
				
						comparision = pd.DataFrame()
comparision['Actual'] = y_test
comparision['Predicted'] = y_pred
comparision
					
				
			
		



Salida de Muestra:


    
        Real
        Predicho
    
    
        1646.4297
        4383.680900
    
    
        11353.2276
        12885.038922
    
    
        8798.5930
        12589.216532
    
    
        ...
        ...
    
    
        5227.98875
        6116.920574
    


Observaciones:


    Algunas predicciones coinciden de cerca con los valores reales.
    Las discrepancias indican áreas donde el modelo puede mejorar.




Evaluando el Rendimiento del Modelo

Evalúa la precisión del modelo usando la métrica R-cuadrado (R²), que representa la proporción de varianza explicada por el modelo.





		
		
			
			
Java
			
			from sklearn.metrics import r2_score

r2 = r2_score(y_test, y_pred)
print(f"R² Score: {r2:.2f}")
			
				
					
				
					1
2
3
4
				
						from sklearn.metrics import r2_score
 
r2 = r2_score(y_test, y_pred)
print(f"R² Score: {r2:.2f}")
					
				
			
		



Salida:





		
		
			
			
Java
			
			R² Score: 0.76
			
				
					
				
					1
				
						R² Score: 0.76
					
				
			
		



Interpretación:


    Un R² de 0.76 sugiere que aproximadamente el 76% de la varianza en los cargos médicos es explicada por el modelo.
    Si bien es prometedor, hay margen para mejorar y lograr mayor precisión.




Conclusión

Construir un modelo de regresión lineal múltiple en Python implica varios pasos cruciales, desde el preprocesamiento de datos y la codificación de variables categóricas hasta el entrenamiento del modelo y la evaluación de su rendimiento. Esta guía proporcionó un recorrido completo utilizando el Conjunto de Datos de Costos Médicos Personales, demostrando cómo aprovechar las poderosas bibliotecas de Python para la analítica predictiva.

Próximos Pasos:


    Ingeniería de Características: Explora la creación de nuevas características o la transformación de las existentes para mejorar el rendimiento del modelo.
    Optimización del Modelo: Experimenta con diferentes algoritmos o hiperparámetros para lograr una mejor precisión.
    Manejo del Sobreajuste: Implementa técnicas como la validación cruzada o regularización para evitar que el modelo memorice los datos de entrenamiento.


Adopta estas estrategias para refinar aún más tus modelos y desbloquear perspectivas más profundas de tus datos. ¡Feliz modelado!



Recursos Adicionales


    Jupyter Notebook: Accede al Notebook Completo Aquí *(Reemplazar con enlace real)*
    Conjunto de Datos: Conjunto de Datos de Costos Médicos Personales en Kaggle
    Documentación de Scikit-Learn: Regresión Lineal




Palabras Clave: Regresión Lineal Múltiple en Python, Preprocesamiento de Datos, Codificación One Hot, Scikit-Learn, Evaluación de Modelos, R-cuadrado, Analítica Predictiva, Predicción de Costos Médicos, Ciencia de Datos en Python, Tutorial de Aprendizaje Automático
edad	sexo	imc	hijos	fumador	región	cargos
19	femenino	27.9	0	sí	suroeste	16884.924
18	masculino	33.77	1	no	sureste	1725.5523
28	masculino	33	3	no	sureste	4449.462
...	...	...	...	...	...	...
Real	Predicho
1646.4297	4383.680900
11353.2276	12885.038922
8798.5930	12589.216532
...	...
5227.98875	6116.920574