S14L02 – Python下的SVR

html
在 Python 中解锁支持向量回归 (SVR) 的力量：全面指南

目录

介绍
什么是支持向量回归 (SVR)？
为什么选择 SVR？
数据集概述：保险数据分析
  
    数据集特征：
  

数据预处理
  
    1. 导入库
    2. 加载数据集
    3. 分离特征和目标变量
    4. 标签编码
    5. 独热编码
    6. 拆分数据
  

构建和训练 SVR 模型
  
    1. 导入 SVR
    2. 初始化和训练模型
  

进行预测和评估模型
  
    1. 预测
    2. 比较实际值与预测值
    3. 模型评估
  

解读结果
  
    为什么 SVR 表现不佳？
  

提升 SVR 性能
  
    1. 特征缩放：
    2. 超参数调优：
    3. 替代模型：
  

结论
附加资源
常见问题


介绍
在机器学习的广阔领域中，回归模型在预测连续结果方面扮演着关键角色。在这些模型中，支持向量回归 (SVR) 作为一种强大但常被低估的工具脱颖而出。虽然支持向量机 (SVMs) 主要用于分类任务，但 SVR 提供了一种独特的方法来解决回归问题。本全面指南深入探讨了 SVR 的复杂性、其在 Python 中的实现以及其在实际场景中的表现，特别是使用保险数据集。

什么是支持向量回归 (SVR)？
支持向量回归是支持向量机 (SVM) 算法的扩展，专为回归任务量身定制。与传统回归模型旨在最小化预测值与实际值之间的误差不同，SVR 聚焦于ε-不敏感损失函数。这种方法允许 SVR 创建一个容忍边界 (ε)，在此范围内的误差会被忽略，从而使模型对异常值更具鲁棒性。

为什么选择 SVR？
虽然 SVR 是回归的强大工具，但理解其在机器学习领域中的定位至关重要：


优势：
  
    在高维空间中效果显著。
    对过拟合具有鲁棒性，尤其是在数据点有限的情况下。
    利用核函数建模非线性关系。
  

劣势：
  
    计算量大，因此不太适合大型数据集。
    超参数调优可能复杂。
    在回归任务中，常被随机森林或梯度提升等集成方法超越。
  



鉴于这些特性，SVR 最适合在其优势能够充分发挥的特定场景中使用。

数据集概述：保险数据分析
为了说明 SVR 的实现，我们将使用来自 Kaggle 的 保险数据集。该数据集提供了个人的人口统计信息和健康相关属性，旨在预测保险费用。

数据集特征：

age：主要受益人的年龄。
sex：个人的性别。
bmi：体质指数。
children：由健康保险覆盖的子女数量。
smoker：个人是否吸烟的指标。
region：美国的居住地区。
charges：健康保险的医疗费用。


数据预处理
有效的数据预处理对于任何机器学习模型的成功至关重要。以下是使用 Python 的 pandas 和 sklearn 库进行预处理步骤的逐步分解。

1. 导入库




		
		
			
			
Java
			
			import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
			
				
					
				
					1
2
3
4
5
				
						import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
					
				
			
		



2. 加载数据集




		
		
			
			
Java
			
			# Load the insurance dataset
data = pd.read_csv('S07_datasets_13720_18513_insurance.csv')
print(data.head())
			
				
					
				
					1
2
3
				
						# Load the insurance dataset
data = pd.read_csv('S07_datasets_13720_18513_insurance.csv')
print(data.head())
					
				
			
		



示例输出：


age
sex
bmi
children
smoker
region
charges


19
female
27.900
0
yes
southwest
16884.92400


18
male
33.770
1
no
southeast
1725.55230


28
male
33.000
3
no
southeast
4449.46200


33
male
22.705
0
no
northwest
21984.47061


32
male
28.880
0
no
northwest
3866.85520



3. 分离特征和目标变量




		
		
			
			
Java
			
			X = data.iloc[:,:-1]  # Features
Y = data.iloc[:,-1]   # Target variable (charges)
			
				
					
				
					1
2
				
						X = data.iloc[:,:-1]  # Features
Y = data.iloc[:,-1]   # Target variable (charges)
					
				
			
		



4. 标签编码
需要将分类变量转换为数值格式。我们对诸如 'sex' 和 'smoker' 这样的二元类别使用标签编码。




		
		
			
			
Java
			
			from sklearn import preprocessing
le = preprocessing.LabelEncoder()

# Encode 'sex' and 'smoker' columns
X['sex'] = le.fit_transform(X['sex'])
X['smoker'] = le.fit_transform(X['smoker'])
print(X.head())
			
				
					
				
					1
2
3
4
5
6
7
				
						from sklearn import preprocessing
le = preprocessing.LabelEncoder()
 
# Encode 'sex' and 'smoker' columns
X['sex'] = le.fit_transform(X['sex'])
X['smoker'] = le.fit_transform(X['smoker'])
print(X.head())
					
				
			
		



示例输出：
...

age
sex
bmi
children
smoker
region


19
0
27.9
0
1
southwest


18
1
33.77
1
0
southeast


28
1
33.0
3
0
southeast


33
1
22.705
0
0
northwest


32
1
28.88
0
0
northwest




5. 独热编码
对于具有两个以上类别的分类变量，推荐使用独热编码。在这里，'region' 列就是这样的分类变量。




		
		
			
			
Java
			
			from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

# Apply One-Hot Encoding to the 'region' column
columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), [5])], remainder='passthrough')
X = columnTransformer.fit_transform(X)
print(X)
			
				
					
				
					1
2
3
4
5
6
7
				
						from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
 
# Apply One-Hot Encoding to the 'region' column
columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), [5])], remainder='passthrough')
X = columnTransformer.fit_transform(X)
print(X)
					
				
			
		



示例输出：




		
		
			
			
Java
			
			[[0.    0.    0.   ... 27.9   0.    1.  ]
 [0.    0.    1.   ... 33.77  1.    0.  ]
 [0.    0.    1.   ... 33.    3.    0.  ]
 ...
 [0.    0.    1.   ... 36.85  0.    0.  ]
 [0.    0.    0.   ... 25.8   0.    0.  ]
 [0.    1.    0.   ... 29.07  0.    1.  ]]
			
				
					
				
					1
2
3
4
5
6
7
				
						[[0.    0.    0.   ... 27.9   0.    1.  ]
 [0.    0.    1.   ... 33.77  1.    0.  ]
 [0.    0.    1.   ... 33.    3.    0.  ]
 ...
 [0.    0.    1.   ... 36.85  0.    0.  ]
 [0.    0.    0.   ... 25.8   0.    0.  ]
 [0.    1.    0.   ... 29.07  0.    1.  ]]
					
				
			
		



6. 拆分数据
我们将数据集分为训练集和测试集，以评估模型的性能。




		
		
			
			
Java
			
			from sklearn.model_selection import train_test_split

# Split the data: 80% training and 20% testing
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)
			
				
					
				
					1
2
3
4
				
						from sklearn.model_selection import train_test_split
 
# Split the data: 80% training and 20% testing
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)
					
				
			
		



构建和训练 SVR 模型
数据预处理完成后，我们现在可以使用 sklearn 构建 SVR 模型。

1. 导入 SVR




		
		
			
			
Java
			
			from sklearn.svm import SVR
			
				
					
				
					1
				
						from sklearn.svm import SVR
					
				
			
		



2. 初始化和训练模型




		
		
			
			
Java
			
			# Initialize the SVR model with default parameters
model = SVR()

# Train the model on the training data
model.fit(X_train, y_train)
			
				
					
				
					1
2
3
4
5
				
						# Initialize the SVR model with default parameters
model = SVR()
 
# Train the model on the training data
model.fit(X_train, y_train)
					
				
			
		



模型输出：




		
		
			
			
Java
			
			SVR()
			
				
					
				
					1
				
						SVR()
					
				
			
		



进行预测和评估模型
训练后，我们使用模型对测试集进行预测，并使用 R² 分数评估其性能。

1. 预测




		
		
			
			
Java
			
			# Predict on the test data
y_pred = model.predict(X_test)
			
				
					
				
					1
2
				
						# Predict on the test data
y_pred = model.predict(X_test)
					
				
			
		



2. 比较实际值与预测值




		
		
			
			
Java
			
			# Create a DataFrame to compare actual and predicted charges
comparison = pd.DataFrame()
comparison['Actual'] = y_test
comparison['Predicted'] = y_pred
print(comparison.head())
			
				
					
				
					1
2
3
4
5
				
						# Create a DataFrame to compare actual and predicted charges
comparison = pd.DataFrame()
comparison['Actual'] = y_test
comparison['Predicted'] = y_pred
print(comparison.head())
					
				
			
		



示例输出：


Actual
Predicted


1646.43
9111.903501


11353.23
9307.009935


8798.59
9277.155786


10381.48
9265.538282


2103.08
9114.774006



3. 模型评估
R² 分数表示模型的预测与实际数据的匹配程度。R² 分数越接近 1，表示拟合越好。




		
		
			
			
Java
			
			from sklearn.metrics import r2_score

# Calculate the R² score
r2 = r2_score(y_test, y_pred)
print(f'R² Score: {r2}')
			
				
					
				
					1
2
3
4
5
				
						from sklearn.metrics import r2_score
 
# Calculate the R² score
r2 = r2_score(y_test, y_pred)
print(f'R² Score: {r2}')
					
				
			
		



输出：




		
		
			
			
Java
			
			R² Score: -0.1157396589643176
			
				
					
				
					1
				
						R² Score: -0.1157396589643176
					
				
			
		



解读结果
R² 分数为 -0.1157 表明 SVR 模型在给定数据集上的表现不佳。在回归分析中，负的 R² 值表示模型对数据的拟合程度甚至不如水平线（即，甚至不如简单地预测目标变量的均值）。

为什么 SVR 表现不佳？
在这种情况下，SVR 表现不佳可能由以下几个因素导致：


默认超参数：SVR 的性能对其超参数（例如，核类型、C、epsilon）高度敏感。使用默认设置可能无法有效捕捉数据中的潜在模式。
数据集规模：SVR 可能在处理较大的数据集时计算量大。保险数据集有 1,338 条记录，SVR 可能仍难以有效泛化。
特征缩放：SVR 需要对输入特征进行适当缩放。缺乏特征缩放可能导致性能不佳。
非线性关系：虽然 SVR 可以使用核函数处理非线性关系，但核的选择及其参数对性能影响很大。


提升 SVR 性能
为了提高 SVR 模型的性能，可以考虑以下步骤：

1. 特征缩放：




		
		
			
			
Java
			
			from sklearn.preprocessing import StandardScaler

# Initialize scalers
sc_X = StandardScaler()
sc_y = StandardScaler()

# Fit and transform the training data
X_train = sc_X.fit_transform(X_train)
y_train = sc_y.fit_transform(y_train.values.reshape(-1, 1)).ravel()

# Transform the test data
X_test = sc_X.transform(X_test)
y_test = sc_y.transform(y_test.values.reshape(-1, 1)).ravel()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
				
						from sklearn.preprocessing import StandardScaler
 
# Initialize scalers
sc_X = StandardScaler()
sc_y = StandardScaler()
 
# Fit and transform the training data
X_train = sc_X.fit_transform(X_train)
y_train = sc_y.fit_transform(y_train.values.reshape(-1, 1)).ravel()
 
# Transform the test data
X_test = sc_X.transform(X_test)
y_test = sc_y.transform(y_test.values.reshape(-1, 1)).ravel()
					
				
			
		



2. 超参数调优：
利用网格搜索与交叉验证等技术来找到最佳的超参数。




		
		
			
			
Java
			
			from sklearn.model_selection import GridSearchCV

# Define the parameter grid
param_grid = {
    'C': [0.1, 1, 10, 100],
    'epsilon': [0.01, 0.1, 0.2, 0.5],
    'kernel': ['linear', 'rbf', 'poly']
}

# Initialize Grid Search
grid_search = GridSearchCV(SVR(), param_grid, cv=5, scoring='r2', n_jobs=-1)

# Fit Grid Search
grid_search.fit(X_train, y_train)

# Best parameters
print(grid_search.best_params_)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
				
						from sklearn.model_selection import GridSearchCV
 
# Define the parameter grid
param_grid = {
    'C': [0.1, 1, 10, 100],
    'epsilon': [0.01, 0.1, 0.2, 0.5],
    'kernel': ['linear', 'rbf', 'poly']
}
 
# Initialize Grid Search
grid_search = GridSearchCV(SVR(), param_grid, cv=5, scoring='r2', n_jobs=-1)
 
# Fit Grid Search
grid_search.fit(X_train, y_train)
 
# Best parameters
print(grid_search.best_params_)
					
				
			
		



3. 替代模型：
鉴于观察到的限制，探索其他回归模型如随机森林或XGBoost可能会带来更好的结果。

结论
支持向量回归是机器学习工具库中的一个强大工具，尤其适用于需要对抗异常值和处理高维数据的场景。然而，其有效性取决于细致的预处理和超参数调优。在实际应用中，如使用保险数据集所示，SVR 可能不如随机森林或梯度提升等集成方法表现出色，这些方法通常在回归任务中提供更高的准确性。

对于希望利用 SVR 的从业者，必须：


适当缩放特征：确保所有特征对模型的贡献相等。
优化超参数：使用网格搜索等技术来微调模型设置。
评估替代模型：有时，其他算法可能天生更适合手头的任务。


通过理解 SVR 的优势和局限性，数据科学家可以做出明智的决策，确保为其特定用例部署最有效的回归模型。

附加资源

Scikit-learn SVR 文档
理解支持向量机
Kaggle 保险数据集


常见问题

1. 我应该在何时使用支持向量回归而非其他回归模型？
当处理高维数据集且特征与目标变量之间的关系是非线性时，SVR 特别有用。当数据集中包含异常值时，SVR 由于其对异常值的鲁棒性也是一个优势。

2. SVR 能够高效处理大型数据集吗？
SVR 在处理大型数据集时可能计算量大，导致训练时间较长。对于规模较大的数据集，随机森林或梯度提升等集成方法可能更高效并提供更好的性能。

3. 核函数的选择如何影响 SVR 的性能？
核函数决定了数据如何转换到高维空间，从而使模型能够捕捉非线性关系。常见的核函数包括线性、多项式 (poly) 和径向基函数 (rbf)。核函数及其参数（如 rbf 中的 gamma）对 SVR 的性能有显著影响。

4. 特征缩放对 SVR 是否必要？
是的，特征缩放对 SVR 至关重要。如果不进行缩放，具有较大幅度的特征可能会主导目标函数，导致性能不佳。缩放确保所有特征对模型的贡献相等。

5. 回归任务中有哪些 SVR 的替代方案？
流行的替代方案包括线性回归、决策树、随机森林、梯度提升机（例如 XGBoost）和神经网络。每种方法都有其优势，适用于不同类型的回归问题。
age	sex	bmi	children	smoker	region	charges
19	female	27.900	0	yes	southwest	16884.92400
18	male	33.770	1	no	southeast	1725.55230
28	male	33.000	3	no	southeast	4449.46200
33	male	22.705	0	no	northwest	21984.47061
32	male	28.880	0	no	northwest	3866.85520
age	sex	bmi	children	smoker	region
19	0	27.9	0	1	southwest
18	1	33.77	1	0	southeast
28	1	33.0	3	0	southeast
33	1	22.705	0	0	northwest
32	1	28.88	0	0	northwest
Actual	Predicted
1646.43	9111.903501
11353.23	9307.009935
8798.59	9277.155786
10381.48	9265.538282
2103.08	9114.774006