S06L02 – Implementação de regressão linear em Python – Parte 1

html
Guia Passo a Passo para Construir um Modelo de Regressão Linear em Python

Desbloqueie o poder da tomada de decisões baseada em dados com este guia abrangente sobre a implementação de regressão linear em Python. Seja você um iniciante em ciência de dados ou esteja procurando aprimorar suas habilidades de machine learning, este tutorial irá guiá-lo por todo o processo, desde a compreensão do conjunto de dados até a realização de previsões precisas.



Índice


    Introdução à Regressão Linear
    Compreendendo o Conjunto de Dados
    Configurando o Ambiente Python
    Importando e Explorando os Dados
    Pré-processamento de Dados
    Construindo o Modelo de Regressão Linear
    Fazendo Previsões
    Avaliando o Modelo
    Conclusão
    Recursos Adicionais




Introdução à Regressão Linear 

A regressão linear é um algoritmo fundamental no campo de machine learning e estatística. Ela estabelece uma relação entre uma variável dependente e uma ou mais variáveis independentes ajustando uma equação linear aos dados observados. Esta técnica é amplamente utilizada para análise preditiva, previsão e compreensão da força dos preditores.

Tópicos Principais Abordados:

    O que é Regressão Linear?
    Aplicações da Regressão Linear
    Regressão Linear vs. Não Linear
    Função de Custo e Otimização




Compreendendo o Conjunto de Dados 

Para este tutorial, utilizaremos o conjunto de dados Renda per Capita do Canadá, que está disponível no Kaggle. Este conjunto de dados compreende a renda per capita anual no Canadá, medida em dólares americanos.

Visão Geral do Conjunto de Dados:

    Colunas:
        
            year: O ano da renda registrada.
            per capita income (US$): A renda por indivíduo em USD.
        
    


Dados de Exemplo:


    
        ano
        renda per capita (US$)
    
    
        1970
        3399.299037
    
    
        1971
        3768.297935
    
    
        1972
        4251.175484
    
    
        1973
        4804.463248
    
    
        1974
        5576.514583
    




Configurando o Ambiente Python 

Antes de mergulhar no código, certifique-se de que seu ambiente Python esteja configurado com as bibliotecas necessárias. Nós iremos utilizar:


    NumPy: Para operações numéricas.
    Pandas: Para manipulação e análise de dados.
    Matplotlib & Seaborn: Para visualização de dados.
    Scikit-Learn: Para construir e avaliar o modelo de regressão linear.


Comandos de Instalação:





		
		
			
			
Java
			
			pip install numpy pandas matplotlib seaborn scikit-learn
			
				
					
				
					1
				
						pip install numpy pandas matplotlib seaborn scikit-learn
					
				
			
		





Importando e Explorando os Dados 

Comece importando as bibliotecas essenciais e carregando o conjunto de dados em um DataFrame do Pandas.





		
		
			
			
Java
			
			import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Set seaborn style for better aesthetics
sns.set()

# Load the dataset
data = pd.read_csv('canada_per_capita_income.csv')

# Display the first few rows
print(data.head())
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
				
						import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
 
# Set seaborn style for better aesthetics
sns.set()
 
# Load the dataset
data = pd.read_csv('canada_per_capita_income.csv')
 
# Display the first few rows
print(data.head())
					
				
			
		



Saída:





		
		
			
			
Java
			
			   year  per capita income (US$)
0  1970              3399.299037
1  1971              3768.297935
2  1972              4251.175484
3  1973              4804.463248
4  1974              5576.514583
			
				
					
				
					1
2
3
4
5
6
				
						   year  per capita income (US$)
0  1970              3399.299037
1  1971              3768.297935
2  1972              4251.175484
3  1973              4804.463248
4  1974              5576.514583
					
				
			
		



Visualizando os Dados:

É crucial visualizar os dados para entender os padrões e relacionamentos subjacentes.





		
		
			
			
Java
			
			# Scatter plot to visualize the relationship
sns.scatterplot(data=data, x='year', y='per capita income (US$)')
plt.title('Canada Per Capita Income Over Years')
plt.xlabel('Year')
plt.ylabel('Per Capita Income (US$)')
plt.show()
			
				
					
				
					1
2
3
4
5
6
				
						# Scatter plot to visualize the relationship
sns.scatterplot(data=data, x='year', y='per capita income (US$)')
plt.title('Canada Per Capita Income Over Years')
plt.xlabel('Year')
plt.ylabel('Per Capita Income (US$)')
plt.show()
					
				
			
		



*Este gráfico de dispersão revela uma tendência linear positiva, indicando que a renda per capita aumentou geralmente ao longo dos anos.*



Pré-processamento de Dados 

O pré-processamento de dados garante que o conjunto de dados esteja limpo e adequado para construir um modelo eficaz.

1. Verificando Valores Faltantes





		
		
			
			
Java
			
			# Check for null values
print(data.isnull().sum())
			
				
					
				
					1
2
				
						# Check for null values
print(data.isnull().sum())
					
				
			
		



Saída:





		
		
			
			
Java
			
			year                         0
per capita income (US$)      0
dtype: int64
			
				
					
				
					1
2
3
				
						year                         0
per capita income (US$)      0
dtype: int64
					
				
			
		



*Nenhum valor faltante encontrado.*

2. Dividindo as Características e a Variável Alvo





		
		
			
			
Java
			
			# Features
X = data.iloc[:, :-1]  # All columns except the last

# Target variable
Y = data.iloc[:, -1]   # The last column
			
				
					
				
					1
2
3
4
5
				
						# Features
X = data.iloc[:, :-1]  # All columns except the last
 
# Target variable
Y = data.iloc[:, -1]   # The last column
					
				
			
		



3. Divisão Treino-Teste

Dividir o conjunto de dados em conjuntos de treinamento e teste nos permite avaliar o desempenho do modelo em dados não vistos.





		
		
			
			
Java
			
			from sklearn.model_selection import train_test_split

# Split the data (80% training, 20% testing)
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)
			
				
					
				
					1
2
3
4
				
						from sklearn.model_selection import train_test_split
 
# Split the data (80% training, 20% testing)
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)
					
				
			
		



*Usar um estado aleatório garante a reprodutibilidade dos resultados.*



Construindo o Modelo de Regressão Linear 

Com os dados preparados, agora podemos construir o modelo de regressão linear.





		
		
			
			
Java
			
			from sklearn.linear_model import LinearRegression

# Initialize the model
model = LinearRegression()

# Train the model
model.fit(X_train, y_train)
			
				
					
				
					1
2
3
4
5
6
7
				
						from sklearn.linear_model import LinearRegression
 
# Initialize the model
model = LinearRegression()
 
# Train the model
model.fit(X_train, y_train)
					
				
			
		



Resumo do Modelo:





		
		
			
			
Java
			
			print(model)
			
				
					
				
					1
				
						print(model)
					
				
			
		



Saída:





		
		
			
			
Java
			
			LinearRegression()
			
				
					
				
					1
				
						LinearRegression()
					
				
			
		



*Esta saída significa que nosso modelo está pronto para fazer previsões.*



Fazendo Previsões 

Usando o modelo treinado, podemos prever a renda per capita para o conjunto de dados de teste.





		
		
			
			
Java
			
			# Make predictions on the test set
y_pred = model.predict(X_test)

# Display the predictions alongside actual values
comparison = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})
print(comparison)
			
				
					
				
					1
2
3
4
5
6
				
						# Make predictions on the test set
y_pred = model.predict(X_test)
 
# Display the predictions alongside actual values
comparison = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})
print(comparison)
					
				
			
		



*Esta comparação nos permite visualizar o quão próximas as previsões do nosso modelo estão dos dados reais.*



Avaliando o Modelo 

Avaliar o desempenho do modelo é crucial para entender sua precisão e confiabilidade.

1. Calculando a Pontuação R²

A pontuação R², também conhecida como coeficiente de determinação, indica quão bem os dados se ajustam ao modelo de regressão.





		
		
			
			
Java
			
			from sklearn.metrics import r2_score

# Calculate R²
r2 = r2_score(y_test, y_pred)
print(f'R² Score: {r2:.2f}')
			
				
					
				
					1
2
3
4
5
				
						from sklearn.metrics import r2_score
 
# Calculate R²
r2 = r2_score(y_test, y_pred)
print(f'R² Score: {r2:.2f}')
					
				
			
		



Interpretação:

    R² = 1: Ajuste perfeito.
    R² = 0: O modelo não explica nenhuma variabilidade.
    0 < R² < 1: Indica a proporção da variância explicada pelo modelo.


*No nosso caso, um valor de R² mais alto significa um ajuste melhor.*

2. Visualizando Previsões vs. Valores Reais





		
		
			
			
Java
			
			# Plotting Actual vs Predicted values
plt.figure(figsize=(10,6))
plt.scatter(X_test, y_test, color='blue', label='Actual')
plt.scatter(X_test, y_pred, color='red', label='Predicted')
plt.title('Actual vs Predicted Per Capita Income')
plt.xlabel('Year')
plt.ylabel('Per Capita Income (US$)')
plt.legend()
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
				
						# Plotting Actual vs Predicted values
plt.figure(figsize=(10,6))
plt.scatter(X_test, y_test, color='blue', label='Actual')
plt.scatter(X_test, y_pred, color='red', label='Predicted')
plt.title('Actual vs Predicted Per Capita Income')
plt.xlabel('Year')
plt.ylabel('Per Capita Income (US$)')
plt.legend()
plt.show()
					
				
			
		



*Esta visualização ajuda na avaliação da precisão das previsões ao longo de diferentes anos.*



Conclusão 

Neste tutorial, nos aprofundamos no processo de construção de um modelo de regressão linear em Python usando o conjunto de dados de Renda per Capita do Canadá. Desde a compreensão do conjunto de dados até o pré-processamento, construção do modelo, previsão e avaliação, cada etapa é crucial para desenvolver modelos preditivos precisos e confiáveis.

Principais Aprendizados:

    A regressão linear é uma ferramenta poderosa para prever variáveis contínuas.
    O pré-processamento adequado de dados melhora o desempenho do modelo.
    A visualização ajuda a entender as tendências dos dados e a precisão do modelo.
    Métricas de avaliação como o R² são essenciais para avaliar a eficácia do modelo.


Próximos Passos:

    Explore conjuntos de dados mais complexos com múltiplas características.
    Aprenda sobre outras técnicas de regressão como Regressão Ridge e Lasso.
    Aprofunde-se em algoritmos de classificação para problemas de dados categóricos.




Recursos Adicionais 


    Documentação do Scikit-Learn
    Kaggle: Conjunto de Dados de Renda per Capita do Canadá
    Manual de Ciência de Dados em Python por Jake VanderPlas
    Curso Intensivo de Machine Learning pelo Google




Potencialize sua jornada em ciência de dados dominando a regressão linear em Python. Fique atento para mais tutoriais e insights sobre machine learning e análise de dados!
ano	renda per capita (US$)
1970	3399.299037
1971	3768.297935
1972	4251.175484
1973	4804.463248
1974	5576.514583