S08L02 – 多特征数据集上的多项式回归

html
掌握多特征多项式回归：全面指南
在机器学习领域，回归分析是预测连续结果的基本工具。在各种回归技术中，多项式回归因其能够建模复杂的非线性关系而脱颖而出。本综合指南深入探讨了具有多特征的多项式回归，利用视频转录、PowerPoint 演示以及 Jupyter 笔记本中的见解，提供了全面的理解和实际实现。
目录

  回归模型简介
  线性回归与多元线性回归
  什么是多项式回归？
  为什么选择多项式回归？
  
    多项式回归的预处理步骤
    
      1. 导入数据
      2. 处理缺失数据
      3. 特征选择与编码
      4. 特征缩放
    
  
  构建多项式回归模型
  选择合适的程度：平衡偏差与方差
  
    在 Python 中的实际实现
    
      使用 Jupyter 笔记本的分步指南
    
  
  评估模型
  避免多项式回归中的过拟合
  结论


回归模型简介
回归分析是一种用于估计变量之间关系的统计方法。它在预测建模中起着关键作用，使我们能够基于一个或多个自变量预测因变量。最常见的类型包括：

  线性回归
  多元线性回归
  多项式回归

理解每种类型的细微差别可以显著提升预测模型的准确性和有效性。
线性回归与多元线性回归
在深入探讨多项式回归之前，区分线性回归和多元线性回归是必要的：

  
    线性回归：通过拟合线性方程来建模单一自变量与因变量之间的关系。
    方程：
    \[ Y = B_0 + B_1X_1 \]
  
  
    多元线性回归：扩展线性回归，以建模多个自变量与因变量之间的关系。
    方程：
    \[ Y = B_0 + B_1X_1 + B_2X_2 + B_3X_3 + \ldots + B_nX_n \]
  

尽管两者都功能强大，但它们仅限于建模线性关系。
什么是多项式回归？
多项式回归是线性和多元线性回归的扩展，它将因变量与自变量之间的关系建模为 \( n \) 次多项式。
方程：
\[ Y = B_0 + B_1X + B_2X^2 + B_3X^3 + \ldots + B_nX^n \]
尽管名称中带有“多项式”，多项式回归仍然是一种线性回归，因为系数 \( B_i \) 是线性的。
为什么选择多项式回归？
现实世界的数据通常表现出非线性关系。多项式回归通过引入多项式项，提供了捕捉这些复杂性的灵活性，使模型能够拟合数据中的曲线。
优势：

  捕捉非线性关系。
  为复杂的数据趋势提供更好的拟合。
  当线性模型不足时提升模型性能。


多项式回归的预处理步骤
有效的预处理为稳健的回归模型奠定基础。以下是必要的步骤：
1. 导入数据
首先导入数据集。为了说明，我们将使用来自 Kaggle 的保险数据集。




		
		
			
			
Java
			
			import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

data = pd.read_csv('insurance.csv')
			
				
					
				
					1
2
3
4
5
6
7
				
						import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
 
data = pd.read_csv('insurance.csv')
					
				
			
		


2. 处理缺失数据
确保数据集中没有缺失值。多项式回归本身不处理缺失数据。




		
		
			
			
Java
			
			data.isnull().sum()
# Handle missing values if any
			
				
					
				
					1
2
				
						data.isnull().sum()
# Handle missing values if any
					
				
			
		


注意：在预测连续值的回归问题中，处理数据不平衡是不必要的，因为没有类别不平衡。
3. 特征选择与编码
识别相关特征并对分类变量进行编码。
标签编码：
将分类标签转换为数值形式。




		
		
			
			
Java
			
			from sklearn import preprocessing
le = preprocessing.LabelEncoder()

X['sex'] = le.fit_transform(X['sex'])
X['smoker'] = le.fit_transform(X['smoker'])
			
				
					
				
					1
2
3
4
5
				
						from sklearn import preprocessing
le = preprocessing.LabelEncoder()
 
X['sex'] = le.fit_transform(X['sex'])
X['smoker'] = le.fit_transform(X['smoker'])
					
				
			
		


独热编码：
将分类变量转换为可以提供给机器学习算法的形式，以便更好地进行预测。




		
		
			
			
Java
			
			from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), [5])], remainder='passthrough')
X = columnTransformer.fit_transform(X)
			
				
					
				
					1
2
3
4
5
				
						from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
 
columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), [5])], remainder='passthrough')
X = columnTransformer.fit_transform(X)
					
				
			
		


4. 特征缩放
多项式特征可能导致数值量级过大，造成计算问题并影响模型性能。缩放确保所有特征贡献相等。




		
		
			
			
Java
			
			from sklearn import preprocessing

sc = preprocessing.StandardScaler()
sc.fit(X_train)
X_train = sc.transform(X_train)
X_test = sc.transform(X_test)
			
				
					
				
					1
2
3
4
5
6
				
						from sklearn import preprocessing
 
sc = preprocessing.StandardScaler()
sc.fit(X_train)
X_train = sc.transform(X_train)
X_test = sc.transform(X_test)
					
				
			
		



构建多项式回归模型
预处理完成后，构建模型包括以下步骤：

  划分数据集：将数据划分为训练集和测试集。
  转换特征：生成多项式特征。
  训练模型：在转换后的特征上拟合回归模型。
  进行预测：使用训练好的模型进行预测。
  评估性能：评估模型的准确性。


选择合适的程度：平衡偏差与方差
多项式的程度决定了模型的灵活性：

  低程度（例如，2）：可能欠拟合，无法捕捉数据的复杂性。
  高程度：可能过拟合，建模噪声而不是潜在的模式。

选择适当的程度对于平衡偏差（由于模型过于简单导致的误差）和方差（由于模型过于复杂导致的误差）至关重要。

在 Python 中的实际实现
让我们通过一个 Jupyter 笔记本的分步实现来演示。
使用 Jupyter 笔记本的分步指南
1. 导入库和数据集




		
		
			
			
Java
			
			import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import r2_score
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

# Importing the dataset
data = pd.read_csv('insurance.csv')
X = data.iloc[:, :-1]
Y = data.iloc[:, -1]
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
				
						import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import r2_score
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
 
# Importing the dataset
data = pd.read_csv('insurance.csv')
X = data.iloc[:, :-1]
Y = data.iloc[:, -1]
					
				
			
		


2. 标签编码




		
		
			
			
Java
			
			from sklearn import preprocessing
le = preprocessing.LabelEncoder()

X['sex'] = le.fit_transform(X['sex'])
X['smoker'] = le.fit_transform(X['smoker'])
			
				
					
				
					1
2
3
4
5
				
						from sklearn import preprocessing
le = preprocessing.LabelEncoder()
 
X['sex'] = le.fit_transform(X['sex'])
X['smoker'] = le.fit_transform(X['smoker'])
					
				
			
		


3. 独热编码




		
		
			
			
Java
			
			from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), [5])], remainder='passthrough')
X = columnTransformer.fit_transform(X)
			
				
					
				
					1
2
3
4
5
				
						from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
 
columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), [5])], remainder='passthrough')
X = columnTransformer.fit_transform(X)
					
				
			
		


4. 划分数据集




		
		
			
			
Java
			
			X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)
			
				
					
				
					1
				
						X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)
					
				
			
		


5. 特征缩放




		
		
			
			
Java
			
			from sklearn import preprocessing

sc = preprocessing.StandardScaler()
sc.fit(X_train)
X_train = sc.transform(X_train)
X_test = sc.transform(X_test)
			
				
					
				
					1
2
3
4
5
6
				
						from sklearn import preprocessing
 
sc = preprocessing.StandardScaler()
sc.fit(X_train)
X_train = sc.transform(X_train)
X_test = sc.transform(X_test)
					
				
			
		


6. 构建多项式回归模型




		
		
			
			
Java
			
			from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures

model = LinearRegression()
poly = PolynomialFeatures(degree=2)  # You can experiment with different degrees

X_train_poly = poly.fit_transform(X_train)
model.fit(X_train_poly, y_train)
			
				
					
				
					1
2
3
4
5
6
7
8
				
						from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
 
model = LinearRegression()
poly = PolynomialFeatures(degree=2)  # You can experiment with different degrees
 
X_train_poly = poly.fit_transform(X_train)
model.fit(X_train_poly, y_train)
					
				
			
		


7. 进行预测




		
		
			
			
Java
			
			X_test_poly = poly.fit_transform(X_test)
y_pred = model.predict(X_test_poly)
			
				
					
				
					1
2
				
						X_test_poly = poly.fit_transform(X_test)
y_pred = model.predict(X_test_poly)
					
				
			
		


8. 评估模型




		
		
			
			
Java
			
			# Creating a comparison DataFrame
comparison = pd.DataFrame()
comparison['Actual'] = y_test
comparison['Predicted'] = y_pred

# Displaying R² Score
r2 = r2_score(y_test, y_pred)
print(f"R² Score: {r2:.2f}")  # Output: R² Score: 0.86
			
				
					
				
					1
2
3
4
5
6
7
8
				
						# Creating a comparison DataFrame
comparison = pd.DataFrame()
comparison['Actual'] = y_test
comparison['Predicted'] = y_pred
 
# Displaying R² Score
r2 = r2_score(y_test, y_pred)
print(f"R² Score: {r2:.2f}")  # Output: R² Score: 0.86
					
				
			
		


解释：R² 分数为 0.86 表明大约 86% 的因变量方差可以通过自变量预测。

评估模型
评估回归模型主要涉及评估其预测目标变量的能力。常见的指标包括：

  R² 分数：表示自变量解释的因变量方差的比例。
  均方误差 (MSE)：衡量误差平方的平均值。

在我们的实现中，引入多项式特征后，R² 分数从0.76提高到0.86，展示了模型性能的提升。

避免多项式回归中的过拟合
尽管增加多项式特征的程度可以提升模型的拟合度，但也增加了过拟合的风险——模型捕捉噪声而不是潜在的模式。为了减轻过拟合：

  交叉验证：使用如 k 折交叉验证等技术，确保模型的泛化能力。
  正则化：实施正则化方法（例如，岭回归、套索回归）以惩罚过大的系数。
  特征选择：限制特征数量，仅保留最相关的特征。

平衡多项式特征的程度对于保持一个既准确又具有泛化能力的模型至关重要。

结论
多特征多项式回归是线性模型的强大扩展，能够捕捉数据中的复杂非线性关系。通过细致的预处理数据、选择适当的多项式程度以及评估模型性能，可以充分发挥多项式回归的潜力。
无论你是在预测保险费用、房价还是其他任何连续结果，掌握多项式回归都为你的机器学习工具库提供了一种多功能的工具。
关键要点：

  多项式回归扩展了线性模型以捕捉非线性模式。
  适当的预处理，包括编码和缩放，是至关重要的。
  选择合适的程度可以平衡模型准确性并避免过拟合。
  像 R² 这样的评估指标提供了对模型性能的洞察。

掌握多项式回归，以提升你的预测建模努力，并从数据中获得更深刻的见解。