S08L01 – 多项式回归

html
掌握多项式回归：全面指南

目录

回归介绍
理解线性回归
线性回归的局限性
什么是多项式回归？
多项式回归与线性回归
在Python中实现多项式回归
模型评估
避免过拟合
结论




回归介绍
回归分析是统计学和机器学习中的基石技术，用于建模和分析因变量与一个或多个自变量之间的关系。主要目标是根据自变量的值预测因变量的值。
回归技术有多种类型，每种类型适用于不同类型的数据和关系。两种主要形式是线性回归和多项式回归。线性回归模拟直线关系，而多项式回归则可以模拟更复杂的非线性关系。

理解线性回归
线性回归是最简单的回归分析形式。它假设因变量 \( Y \) 与单一自变量 \( X \) 之间存在线性关系。其数学表示为：




		
		
			
			
Java
			
			$$
Y = B_0 + B_1X_1
$$
			
				
					
				
					1
2
3
				
						$$
Y = B_0 + B_1X_1
$$
					
				
			
		



\( B_0 \)：截距项（常数）
\( B_1 \)：自变量 \( X_1 \) 的系数

可视化：

在 \( X \)（自变量）与 \( Y \)（因变量）的散点图中，线性回归拟合一条最佳代表两者关系的直线。

线性回归的局限性
虽然线性回归简单且计算效率高，但它也有其局限性：

线性假设：假设变量之间的关系是线性的。在现实数据中，这种情况往往并非如此。
单变量限制：标准线性回归通常处理一个自变量，使其在具有多个特征的数据集上效果不佳。
处理多维数据：随着维度的增加，模型的可视化和解释变得具有挑战性。

这些局限性需要更灵活的建模技术，如多项式回归，以捕捉复杂的数据模式。

什么是多项式回归？
多项式回归是线性回归的扩展，它将因变量 \( Y \) 与自变量 \( X \) 之间的关系建模为 \( n \) 次多项式。对于单一变量的一般形式为：




		
		
			
			
Java
			
			$$
Y = B_0 + B_1X_1 + B_2X_1^2 + \cdots + B_nX_1^n
$$
			
				
					
				
					1
2
3
				
						$$
Y = B_0 + B_1X_1 + B_2X_1^2 + \cdots + B_nX_1^n
$$
					
				
			
		



\( n \)：多项式的次数（超参数）
更高的次数允许模型拟合更复杂的曲线

示例方程：




		
		
			
			
Java
			
			$$
Y = B_0 + B_1X + B_2X^2 + B_3X^3
$$
			
				
					
				
					1
2
3
				
						$$
Y = B_0 + B_1X + B_2X^2 + B_3X^3
$$
					
				
			
		


该方程创建一个抛物线曲线（若 \( n = 2 \)），而不是直线，使模型能够捕捉数据中的非线性关系。

多项式回归与线性回归


方面
线性回归
多项式回归


建模关系
直线
曲线（抛物线或更高次）


复杂性
简单
由于更高次项而更复杂


灵活性
仅限于线性关系
可以建模非线性关系


可视化
易于在二维中可视化
在更高维度中可视化变得复杂


过拟合风险
较低
较高，特别是在高次多项式情况下


为什么选择多项式回归？
当数据表现出线性回归无法有效捕捉的非线性趋势时，多项式回归提供了一种建模曲线的方法，从而带来更好的预测性能。

在Python中实现多项式回归
让我们通过一个实际示例，使用Python的Jupyter Notebook在包含加拿大多年人均收入的数据集上实现多项式回归。

步骤1：导入库




		
		
			
			
Java
			
			import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import r2_score

sns.set()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
				
						import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import r2_score
 
sns.set()
					
				
			
		



步骤2：加载数据集




		
		
			
			
Java
			
			# 数据集来源：<a href="https://www.kaggle.com/gurdit559/canada-per-capita-income-single-variable-data-set">https://www.kaggle.com/gurdit559/canada-per-capita-income-single-variable-data-set</a>
data = pd.read_csv('canada_per_capita_income.csv')
X = data.iloc[:, :-1]  # 自变量（年份）
Y = data.iloc[:, -1]   # 因变量（人均收入）
			
				
					
				
					1
2
3
4
				
						# 数据集来源：<a href="https://www.kaggle.com/gurdit559/canada-per-capita-income-single-variable-data-set">https://www.kaggle.com/gurdit559/canada-per-capita-income-single-variable-data-set</a>
data = pd.read_csv('canada_per_capita_income.csv')
X = data.iloc[:, :-1]  # 自变量（年份）
Y = data.iloc[:, -1]   # 因变量（人均收入）
					
				
			
		



步骤3：可视化数据




		
		
			
			
Java
			
			sns.scatterplot(data=data, x='year', y='per capita income (US$)')
plt.xlabel('Year')
plt.ylabel('Per Capita Income (US$)')
plt.title('加拿大多年人均收入')
plt.show()
			
				
					
				
					1
2
3
4
5
				
						sns.scatterplot(data=data, x='year', y='per capita income (US$)')
plt.xlabel('Year')
plt.ylabel('Per Capita Income (US$)')
plt.title('加拿大多年人均收入')
plt.show()
					
				
			
		


注意：为获得更好的可视化效果，请将 sns.scatterplot 中的URL替换为实际的图表。

步骤4：拆分数据集




		
		
			
			
Java
			
			X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)
			
				
					
				
					1
				
						X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)
					
				
			
		



步骤5：构建线性回归模型




		
		
			
			
Java
			
			linear_model = LinearRegression()
linear_model.fit(X_train, y_train)
			
				
					
				
					1
2
				
						linear_model = LinearRegression()
linear_model.fit(X_train, y_train)
					
				
			
		



步骤6：使用线性模型进行预测




		
		
			
			
Java
			
			y_pred_linear = linear_model.predict(X_test)
			
				
					
				
					1
				
						y_pred_linear = linear_model.predict(X_test)
					
				
			
		



步骤7：评估线性模型




		
		
			
			
Java
			
			r2_linear = r2_score(y_test, y_pred_linear)
print(f'线性回归的R²得分：{r2_linear}')
			
				
					
				
					1
2
				
						r2_linear = r2_score(y_test, y_pred_linear)
print(f'线性回归的R²得分：{r2_linear}')
					
				
			
		


输出：




		
		
			
			
Java
			
			线性回归的R²得分：0.80
			
				
					
				
					1
				
						线性回归的R²得分：0.80
					
				
			
		



步骤8：实现多项式回归




		
		
			
			
Java
			
			# 转换数据以包含多项式项
poly = PolynomialFeatures(degree=2)
X_train_poly = poly.fit_transform(X_train)
X_test_poly = poly.transform(X_test)

# 构建多项式回归模型
poly_model = LinearRegression()
poly_model.fit(X_train_poly, y_train)

# 进行预测
y_pred_poly = poly_model.predict(X_test_poly)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
				
						# 转换数据以包含多项式项
poly = PolynomialFeatures(degree=2)
X_train_poly = poly.fit_transform(X_train)
X_test_poly = poly.transform(X_test)
 
# 构建多项式回归模型
poly_model = LinearRegression()
poly_model.fit(X_train_poly, y_train)
 
# 进行预测
y_pred_poly = poly_model.predict(X_test_poly)
					
				
			
		



步骤9：评估多项式模型




		
		
			
			
Java
			
			r2_poly = r2_score(y_test, y_pred_poly)
print(f'多项式回归的R²得分：{r2_poly}')
			
				
					
				
					1
2
				
						r2_poly = r2_score(y_test, y_pred_poly)
print(f'多项式回归的R²得分：{r2_poly}')
					
				
			
		


输出：




		
		
			
			
Java
			
			多项式回归的R²得分：0.86
			
				
					
				
					1
				
						多项式回归的R²得分：0.86
					
				
			
		



步骤10：比较实际值与预测值




		
		
			
			
Java
			
			comparison = pd.DataFrame({
    'Actual': y_test,
    'Predicted': y_pred_poly
})
print(comparison)
			
				
					
				
					1
2
3
4
5
				
						comparison = pd.DataFrame({
    'Actual': y_test,
    'Predicted': y_pred_poly
})
print(comparison)
					
				
			
		


示例输出：


#
实际值
预测值


24
15755.82
17658.03


22
16412.08
15942.22


39
32755.18
34259.97


...
...
...



步骤11：可视化多项式拟合




		
		
			
			
Java
			
			plt.scatter(X, Y, color='blue', label='实际数据')
plt.plot(X, poly_model.predict(poly.fit_transform(X)), color='red', label='多项式拟合')
plt.xlabel('Year')
plt.ylabel('Per Capita Income (US$)')
plt.title('多项式回归拟合')
plt.legend()
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
				
						plt.scatter(X, Y, color='blue', label='实际数据')
plt.plot(X, poly_model.predict(poly.fit_transform(X)), color='red', label='多项式拟合')
plt.xlabel('Year')
plt.ylabel('Per Capita Income (US$)')
plt.title('多项式回归拟合')
plt.legend()
plt.show()
					
				
			
		


注意：红色曲线代表多项式回归拟合，与线性拟合相比，更好地与数据对齐。

模型评估
R²得分是评估回归模型的关键指标。它表示因变量的方差中有多少比例可以由自变量预测。

线性回归 R²：0.80
多项式回归 R²：0.86

多项式模型更高的R²得分表明其对数据的拟合更好，比线性模型更有效地捕捉了潜在趋势。

避免过拟合
虽然增加多项式的次数增强了模型拟合训练数据的能力，但也增加了过拟合的风险。过拟合发生在模型捕捉到训练数据中的噪声，导致在看不见的数据上表现不佳。
防止过拟合的策略：

交叉验证：使用k折交叉验证等技术，确保模型在不同的数据子集上表现良好。
正则化：实施正则化方法（例如岭回归或Lasso回归）以惩罚过度复杂性。
选择适当的次数：谨慎选择多项式的次数。更高的次数增加了灵活性，但可能导致过拟合。应从较低的次数开始，逐步增加，同时监控性能指标。


结论
多项式回归提供了一种强大的方法，用于建模非线性关系，扩展了线性回归的能力。通过引入多项式项，它能够捕捉数据中的曲率，从而提高预测性能。然而，平衡模型复杂性以避免过拟合至关重要。通过谨慎的实施和评估，多项式回归可以成为您数据科学工具中的宝贵工具。
关键要点：

多项式回归通过引入多项式项来建模非线性关系。
对于非线性数据，它比线性回归提供了更好的拟合。
多项式的次数是影响模型性能的关键超参数。
通过选择适当的次数和采用验证技术，谨慎避免过拟合。

通过将多项式回归集成到您的项目中，开始您的数据建模之旅，从数据中获取更深层次的洞察力吧！

进一步阅读

理解机器学习中的过拟合
初学者线性回归指南
高级多项式回归技术


参考文献

Kaggle数据集：加拿大人均收入
Scikit-Learn文档


标签

数据科学
机器学习
回归分析
多项式回归
线性回归
Python
Jupyter Notebook


常见问题

问题1：我什么时候应该使用多项式回归而不是线性回归？
回答1：当自变量与因变量之间的关系是非线性时，使用多项式回归。它有助于捕捉数据中的曲率，从而提高预测性能。

问题2：如何选择多项式回归的合适次数？
回答2：从较低的次数开始，逐步增加，同时监控模型在验证数据上的性能。使用交叉验证等工具可以帮助选择平衡拟合和泛化能力的最佳次数。

问题3：多项式回归能处理多个特征吗？
回答3：是的，多项式回归可以通过创建特征的多项式组合来扩展到多个特征，从而允许模型捕捉它们之间的交互作用。

今天就开始使用多项式回归吧！
通过实验多项式回归来提升您的数据建模技能。利用提供的Jupyter Notebook示例，实施您自己的模型，并观察不同多项式次数对数据的影响。祝建模愉快！

关于作者
作为一名在数据科学和机器学习领域拥有丰富经验的技术作家，我努力提供清晰且全面的指南，赋能专业人士和爱好者充分利用数据驱动的洞察力。

联系方式
欲了解更多关于数据科学和机器学习的见解和教程，欢迎通过 email@example.com 联系。

免责声明
本文仅用于教育目的。虽然我们尽力确保其准确性，但在您的具体使用案例中，始终验证模型和结果。

结论
多项式回归是数据科学家工具包中的重要工具，允许对复杂关系进行细致的建模。通过理解其机制、优势和潜在陷阱，您可以利用它来提取更深层次的洞察力，并构建更准确的预测模型。

关键词
多项式回归, 线性回归, 机器学习, 数据科学, Python, Jupyter Notebook, R²得分, 过拟合, 超参数, 回归分析, 预测建模, Scikit-Learn, 数据可视化

行动呼吁
准备好提升您的回归模型了吗？通过我们的全面指南深入了解多项式回归，今天就开始建模复杂的数据关系吧！
方面	线性回归	多项式回归
建模关系	直线	曲线（抛物线或更高次）
复杂性	简单	由于更高次项而更复杂
灵活性	仅限于线性关系	可以建模非线性关系
可视化	易于在二维中可视化	在更高维度中可视化变得复杂
过拟合风险	较低	较高，特别是在高次多项式情况下
#	实际值	预测值
24	15755.82	17658.03
22	16412.08	15942.22
39	32755.18	34259.97
...	...	...