S06L02 – Implementación de regresión lineal en Python – Parte 1

html
Guía Paso a Paso para Construir un Modelo de Regresión Lineal en Python

Desbloquea el poder de la toma de decisiones basada en datos con esta guía completa sobre la implementación de la regresión lineal en Python. Ya sea que seas un principiante en ciencia de datos o que busques perfeccionar tus habilidades en aprendizaje automático, este tutorial te guiará a través de todo el proceso, desde la comprensión del conjunto de datos hasta realizar predicciones precisas.



Tabla de Contenidos


    Introducción a la Regresión Lineal
    Comprensión del Conjunto de Datos
    Configurando tu Entorno de Python
    Importando y Explorando los Datos
    Preprocesamiento de Datos
    Construyendo el Modelo de Regresión Lineal
    Realizando Predicciones
    Evaluando el Modelo
    Conclusión
    Recursos Adicionales




Introducción a la Regresión Lineal 

La regresión lineal es un algoritmo fundamental en el campo del aprendizaje automático y la estadística. Establece una relación entre una variable dependiente y una o más variables independientes al ajustar una ecuación lineal a los datos observados. Esta técnica se utiliza ampliamente para análisis predictivo, pronósticos y para comprender la fuerza de los predictores.

Temas Clave Cubiertos:

    ¿Qué es la Regresión Lineal?
    Aplicaciones de la Regresión Lineal
    Regresión Lineal vs. No Lineal
    Función de Costo y Optimización




Comprensión del Conjunto de Datos 

Para este tutorial, utilizaremos el conjunto de datos Canada Per Capita Income, que está disponible en Kaggle. Este conjunto de datos comprende el ingreso per cápita anual en Canadá, medido en dólares estadounidenses.

Descripción del Conjunto de Datos:

    Columnas:
        
            year: El año del ingreso registrado.
            per capita income (US$): El ingreso por persona en USD.
        
    


Datos de Muestra:


    
        año
        ingreso per cápita (US$)
    
    
        1970
        3399.299037
    
    
        1971
        3768.297935
    
    
        1972
        4251.175484
    
    
        1973
        4804.463248
    
    
        1974
        5576.514583
    




Configurando tu Entorno de Python 

Antes de sumergirse en el código, asegúrese de que su entorno de Python esté configurado con las bibliotecas necesarias. Utilizaremos:


    NumPy: Para operaciones numéricas.
    Pandas: Para manipulación y análisis de datos.
    Matplotlib & Seaborn: Para visualización de datos.
    Scikit-Learn: Para construir y evaluar el modelo de regresión lineal.


Comandos de Instalación:





		
		
			
			
Java
			
			pip install numpy pandas matplotlib seaborn scikit-learn
			
				
					
				
					1
				
						pip install numpy pandas matplotlib seaborn scikit-learn
					
				
			
		





Importando y Explorando los Datos 

Comienza importando las bibliotecas esenciales y cargando el conjunto de datos en un DataFrame de Pandas.





		
		
			
			
Java
			
			import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Set seaborn style for better aesthetics
sns.set()

# Load the dataset
data = pd.read_csv('canada_per_capita_income.csv')

# Display the first few rows
print(data.head())
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
				
						import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
 
# Set seaborn style for better aesthetics
sns.set()
 
# Load the dataset
data = pd.read_csv('canada_per_capita_income.csv')
 
# Display the first few rows
print(data.head())
					
				
			
		



Output:





		
		
			
			
Java
			
			   year  per capita income (US$)
0  1970              3399.299037
1  1971              3768.297935
2  1972              4251.175484
3  1973              4804.463248
4  1974              5576.514583
			
				
					
				
					1
2
3
4
5
6
				
						   year  per capita income (US$)
0  1970              3399.299037
1  1971              3768.297935
2  1972              4251.175484
3  1973              4804.463248
4  1974              5576.514583
					
				
			
		



Visualizando los Datos:

Es crucial visualizar los datos para entender los patrones y relaciones subyacentes.





		
		
			
			
Java
			
			# Scatter plot to visualize the relationship
sns.scatterplot(data=data, x='year', y='per capita income (US$)')
plt.title('Canada Per Capita Income Over Years')
plt.xlabel('Year')
plt.ylabel('Per Capita Income (US$)')
plt.show()
			
				
					
				
					1
2
3
4
5
6
				
						# Scatter plot to visualize the relationship
sns.scatterplot(data=data, x='year', y='per capita income (US$)')
plt.title('Canada Per Capita Income Over Years')
plt.xlabel('Year')
plt.ylabel('Per Capita Income (US$)')
plt.show()
					
				
			
		



*Este diagrama de dispersión revela una tendencia lineal positiva, indicando que el ingreso per cápita ha aumentado generalmente a lo largo de los años.*



Preprocesamiento de Datos 

El preprocesamiento de datos asegura que el conjunto de datos esté limpio y sea adecuado para construir un modelo eficaz.

1. Verificación de Valores Faltantes





		
		
			
			
Java
			
			# Check for null values
print(data.isnull().sum())
			
				
					
				
					1
2
				
						# Check for null values
print(data.isnull().sum())
					
				
			
		



Output:





		
		
			
			
Java
			
			year                         0
per capita income (US$)      0
dtype: int64
			
				
					
				
					1
2
3
				
						year                         0
per capita income (US$)      0
dtype: int64
					
				
			
		



*No se encontraron valores faltantes.*

2. División de Características y Variable Objetivo





		
		
			
			
Java
			
			# Features
X = data.iloc[:, :-1]  # All columns except the last

# Target variable
Y = data.iloc[:, -1]   # The last column
			
				
					
				
					1
2
3
4
5
				
						# Features
X = data.iloc[:, :-1]  # All columns except the last
 
# Target variable
Y = data.iloc[:, -1]   # The last column
					
				
			
		



3. División de Datos en Entrenamiento y Prueba

Dividir el conjunto de datos en conjuntos de entrenamiento y prueba nos permite evaluar el rendimiento del modelo en datos no vistos.





		
		
			
			
Java
			
			from sklearn.model_selection import train_test_split

# Split the data (80% training, 20% testing)
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)
			
				
					
				
					1
2
3
4
				
						from sklearn.model_selection import train_test_split
 
# Split the data (80% training, 20% testing)
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)
					
				
			
		



*Usar una semilla aleatoria garantiza la reproducibilidad de los resultados.*



Construyendo el Modelo de Regresión Lineal 

Con los datos preparados, ahora podemos construir el modelo de regresión lineal.





		
		
			
			
Java
			
			from sklearn.linear_model import LinearRegression

# Initialize the model
model = LinearRegression()

# Train the model
model.fit(X_train, y_train)
			
				
					
				
					1
2
3
4
5
6
7
				
						from sklearn.linear_model import LinearRegression
 
# Initialize the model
model = LinearRegression()
 
# Train the model
model.fit(X_train, y_train)
					
				
			
		



Resumen del Modelo:





		
		
			
			
Java
			
			print(model)
			
				
					
				
					1
				
						print(model)
					
				
			
		



Output:





		
		
			
			
Java
			
			LinearRegression()
			
				
					
				
					1
				
						LinearRegression()
					
				
			
		



*Esta salida indica que nuestro modelo está listo para realizar predicciones.*



Realizando Predicciones 

Usando el modelo entrenado, podemos predecir el ingreso per cápita para el conjunto de prueba.





		
		
			
			
Java
			
			# Make predictions on the test set
y_pred = model.predict(X_test)

# Display the predictions alongside actual values
comparison = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})
print(comparison)
			
				
					
				
					1
2
3
4
5
6
				
						# Make predictions on the test set
y_pred = model.predict(X_test)
 
# Display the predictions alongside actual values
comparison = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})
print(comparison)
					
				
			
		



*Esta comparación nos permite visualizar qué tan de cerca las predicciones de nuestro modelo coinciden con los datos reales.*



Evaluando el Modelo 

Evaluar el rendimiento del modelo es crucial para entender su precisión y confiabilidad.

1. Calculando el Puntaje R²

El puntaje R², también conocido como el coeficiente de determinación, indica qué tan bien los datos se ajustan al modelo de regresión.





		
		
			
			
Java
			
			from sklearn.metrics import r2_score

# Calculate R²
r2 = r2_score(y_test, y_pred)
print(f'R² Score: {r2:.2f}')
			
				
					
				
					1
2
3
4
5
				
						from sklearn.metrics import r2_score
 
# Calculate R²
r2 = r2_score(y_test, y_pred)
print(f'R² Score: {r2:.2f}')
					
				
			
		



Interpretación:

    R² = 1: Ajuste perfecto.
    R² = 0: El modelo no explica ninguna variabilidad.
    0 < R² < 1: Indica la proporción de la varianza explicada por el modelo.


*En nuestro caso, un valor de R² más alto significa un mejor ajuste.*

2. Visualizando Predicciones vs. Valores Reales





		
		
			
			
Java
			
			# Plotting Actual vs Predicted values
plt.figure(figsize=(10,6))
plt.scatter(X_test, y_test, color='blue', label='Actual')
plt.scatter(X_test, y_pred, color='red', label='Predicted')
plt.title('Actual vs Predicted Per Capita Income')
plt.xlabel('Year')
plt.ylabel('Per Capita Income (US$)')
plt.legend()
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
				
						# Plotting Actual vs Predicted values
plt.figure(figsize=(10,6))
plt.scatter(X_test, y_test, color='blue', label='Actual')
plt.scatter(X_test, y_pred, color='red', label='Predicted')
plt.title('Actual vs Predicted Per Capita Income')
plt.xlabel('Year')
plt.ylabel('Per Capita Income (US$)')
plt.legend()
plt.show()
					
				
			
		



*Esta visualización ayuda a evaluar la precisión de las predicciones a lo largo de diferentes años.*



Conclusión 

En este tutorial, hemos profundizado en el proceso de construir un modelo de regresión lineal en Python utilizando el conjunto de datos Canada Per Capita Income. Desde comprender el conjunto de datos hasta el preprocesamiento, construcción del modelo, predicción y evaluación, cada paso es crucial para desarrollar modelos predictivos precisos y confiables.

Puntos Clave:

    La regresión lineal es una herramienta poderosa para predecir variables continuas.
    El preprocesamiento adecuado de los datos mejora el rendimiento del modelo.
    La visualización ayuda a comprender las tendencias de los datos y la precisión del modelo.
    Métricas de evaluación como R² son esenciales para evaluar la efectividad del modelo.


Próximos Pasos:

    Explorar conjuntos de datos más complejos con múltiples características.
    Aprender sobre otras técnicas de regresión como Regresión Ridge y Lasso.
    Adentrarse en algoritmos de clasificación para problemas de datos categóricos.




Recursos Adicionales 


    Documentación de Scikit-Learn
    Kaggle: Canada Per Capita Income Dataset
    Manual de Ciencia de Datos en Python de Jake VanderPlas
    Curso Intensivo de Aprendizaje Automático de Google




Empodera tu viaje en ciencia de datos dominando la regresión lineal en Python. ¡Mantente atento para más tutoriales e ideas sobre aprendizaje automático y análisis de datos!
año	ingreso per cápita (US$)
1970	3399.299037
1971	3768.297935
1972	4251.175484
1973	4804.463248
1974	5576.514583