S06L02 – Python中线性回归的实现 – 第1部分

html
用Python构建线性回归模型的逐步指南

通过本全面指南，释放数据驱动决策的力量，学习如何在Python中实现线性回归。无论您是数据科学初学者，还是希望提升机器学习技能，本教程将带您完成整个过程，从理解数据集到做出准确预测。



目录


    线性回归简介
    理解数据集
    设置您的Python环境
    导入和探索数据
    数据预处理
    构建线性回归模型
    进行预测
    评估模型
    结论
    额外资源




线性回归简介 

线性回归是机器学习和统计学领域的基本算法。它通过拟合一个线性方程到观察到的数据，建立一个因变量与一个或多个自变量之间的关系。这种技术广泛用于预测分析、预测以及理解预测变量的强度。

涵盖的关键主题：

    什么是线性回归？
    线性回归的应用
    线性回归与非线性回归
    成本函数与优化




理解数据集 

在本教程中，我们将使用加拿大人均收入数据集，该数据集可在Kaggle上获取。该数据集包含加拿大每年的个人收入，以美元计。

数据集概览：

    列：
        
            year: 记录收入的年份。
            per capita income (US$): 每个人的收入（美元）。
        
    


样本数据：


    
        year
        per capita income (US$)
    
    
        1970
        3399.299037
    
    
        1971
        3768.297935
    
    
        1972
        4251.175484
    
    
        1973
        4804.463248
    
    
        1974
        5576.514583
    




设置您的Python环境 

在深入代码之前，请确保您的Python环境已安装必要的库。我们将使用：


    NumPy: 用于数值运算。
    Pandas: 用于数据操作和分析。
    Matplotlib & Seaborn: 用于数据可视化。
    Scikit-Learn: 用于构建和评估线性回归模型。


安装命令：





		
		
			
			
Java
			
			pip install numpy pandas matplotlib seaborn scikit-learn
			
				
					
				
					1
				
						pip install numpy pandas matplotlib seaborn scikit-learn
					
				
			
		





导入和探索数据 

首先，导入必要的库并将数据集加载到Pandas DataFrame中。





		
		
			
			
Java
			
			import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Set seaborn style for better aesthetics
sns.set()

# Load the dataset
data = pd.read_csv('canada_per_capita_income.csv')

# Display the first few rows
print(data.head())
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
				
						import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
 
# Set seaborn style for better aesthetics
sns.set()
 
# Load the dataset
data = pd.read_csv('canada_per_capita_income.csv')
 
# Display the first few rows
print(data.head())
					
				
			
		



输出：





		
		
			
			
Java
			
			   year  per capita income (US$)
0  1970              3399.299037
1  1971              3768.297935
2  1972              4251.175484
3  1973              4804.463248
4  1974              5576.514583
			
				
					
				
					1
2
3
4
5
6
				
						   year  per capita income (US$)
0  1970              3399.299037
1  1971              3768.297935
2  1972              4251.175484
3  1973              4804.463248
4  1974              5576.514583
					
				
			
		



数据可视化：

可视化数据对于理解底层模式和关系至关重要。





		
		
			
			
Java
			
			# Scatter plot to visualize the relationship
sns.scatterplot(data=data, x='year', y='per capita income (US$)')
plt.title('Canada Per Capita Income Over Years')
plt.xlabel('Year')
plt.ylabel('Per Capita Income (US$)')
plt.show()
			
				
					
				
					1
2
3
4
5
6
				
						# Scatter plot to visualize the relationship
sns.scatterplot(data=data, x='year', y='per capita income (US$)')
plt.title('Canada Per Capita Income Over Years')
plt.xlabel('Year')
plt.ylabel('Per Capita Income (US$)')
plt.show()
					
				
			
		



*此散点图显示了一个正线性趋势，表明人均收入总体上随着年份的增长而增加。*



数据预处理 

数据预处理确保数据集是干净且适合构建有效模型。

1. 检查缺失值





		
		
			
			
Java
			
			# Check for null values
print(data.isnull().sum())
			
				
					
				
					1
2
				
						# Check for null values
print(data.isnull().sum())
					
				
			
		



输出：





		
		
			
			
Java
			
			year                         0
per capita income (US$)      0
dtype: int64
			
				
					
				
					1
2
3
				
						year                         0
per capita income (US$)      0
dtype: int64
					
				
			
		



*未发现缺失值。*

2. 分离特征和目标变量





		
		
			
			
Java
			
			# Features
X = data.iloc[:, :-1]  # 所有列，除了最后一列

# Target variable
Y = data.iloc[:, -1]   # 最后一列
			
				
					
				
					1
2
3
4
5
				
						# Features
X = data.iloc[:, :-1]  # 所有列，除了最后一列
 
# Target variable
Y = data.iloc[:, -1]   # 最后一列
					
				
			
		



3. 训练集与测试集划分

将数据集分为训练集和测试集，可以评估模型在未见数据上的表现。





		
		
			
			
Java
			
			from sklearn.model_selection import train_test_split

# Split the data (80% training, 20% testing)
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)
			
				
					
				
					1
2
3
4
				
						from sklearn.model_selection import train_test_split
 
# Split the data (80% training, 20% testing)
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)
					
				
			
		



*使用随机状态确保结果的可重复性。*



构建线性回归模型 

数据准备好后，我们可以开始构建线性回归模型。





		
		
			
			
Java
			
			from sklearn.linear_model import LinearRegression

# Initialize the model
model = LinearRegression()

# Train the model
model.fit(X_train, y_train)
			
				
					
				
					1
2
3
4
5
6
7
				
						from sklearn.linear_model import LinearRegression
 
# Initialize the model
model = LinearRegression()
 
# Train the model
model.fit(X_train, y_train)
					
				
			
		



模型摘要：





		
		
			
			
Java
			
			print(model)
			
				
					
				
					1
				
						print(model)
					
				
			
		



输出：





		
		
			
			
Java
			
			LinearRegression()
			
				
					
				
					1
				
						LinearRegression()
					
				
			
		



*此输出表明我们的模型已准备好进行预测。*



进行预测 

使用训练好的模型，我们可以对测试数据集的人均收入进行预测。





		
		
			
			
Java
			
			# Make predictions on the test set
y_pred = model.predict(X_test)

# Display the predictions alongside actual values
comparison = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})
print(comparison)
			
				
					
				
					1
2
3
4
5
6
				
						# Make predictions on the test set
y_pred = model.predict(X_test)
 
# Display the predictions alongside actual values
comparison = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})
print(comparison)
					
				
			
		



*此比较使我们能够查看模型的预测与实际数据的匹配程度。*



评估模型 

评估模型的性能对于了解其准确性和可靠性至关重要。

1. 计算R²得分

R²得分，也称为决定系数，表示数据与回归模型的拟合程度。





		
		
			
			
Java
			
			from sklearn.metrics import r2_score

# Calculate R²
r2 = r2_score(y_test, y_pred)
print(f'R² Score: {r2:.2f}')
			
				
					
				
					1
2
3
4
5
				
						from sklearn.metrics import r2_score
 
# Calculate R²
r2 = r2_score(y_test, y_pred)
print(f'R² Score: {r2:.2f}')
					
				
			
		



解释：

    R² = 1: 完美拟合。
    R² = 0: 模型未能解释任何变异。
    0 < R² < 1: 表示模型解释的方差比例。


*在我们的案例中，较高的R²值意味着更好的拟合。*

2. 可视化预测值与实际值





		
		
			
			
Java
			
			# Plotting Actual vs Predicted values
plt.figure(figsize=(10,6))
plt.scatter(X_test, y_test, color='blue', label='Actual')
plt.scatter(X_test, y_pred, color='red', label='Predicted')
plt.title('Actual vs Predicted Per Capita Income')
plt.xlabel('Year')
plt.ylabel('Per Capita Income (US$)')
plt.legend()
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
				
						# Plotting Actual vs Predicted values
plt.figure(figsize=(10,6))
plt.scatter(X_test, y_test, color='blue', label='Actual')
plt.scatter(X_test, y_pred, color='red', label='Predicted')
plt.title('Actual vs Predicted Per Capita Income')
plt.xlabel('Year')
plt.ylabel('Per Capita Income (US$)')
plt.legend()
plt.show()
					
				
			
		



*此可视化有助于评估不同年份预测的准确性。*



结论 

在本教程中，我们深入探讨了如何使用加拿大人均收入数据集在Python中构建线性回归模型。从理解数据集到数据预处理、模型构建、预测和评估，每一步对于开发准确且可靠的预测模型都至关重要。

主要收获：

    线性回归是预测连续变量的强大工具。
    适当的数据预处理可以提升模型性能。
    可视化有助于理解数据趋势和模型准确性。
    像R²这样的评估指标对于评估模型的有效性至关重要。


下一步：

    探索具有多个特征的更复杂数据集。
    了解其他回归技术，如岭回归和套索回归。
    深入学习用于分类数据问题的分类算法。




额外资源 


    Scikit-Learn 文档
    Kaggle: 加拿大人均收入数据集
    Jake VanderPlas 的 Python 数据科学手册
    Google 的机器学习速成课程




通过掌握Python中的线性回归，增强您的数据科学之旅。敬请关注更多关于机器学习和数据分析的教程和见解！
year	per capita income (US$)
1970	3399.299037
1971	3768.297935
1972	4251.175484
1973	4804.463248
1974	5576.514583