S23L04 – 使用 Python 实现 SVM

html
在Python中实现支持向量机（SVM）：全面指南

欢迎阅读我们关于使用Python的scikit-learn库实现支持向量机（SVM）的深入指南。无论您是数据科学爱好者还是经验丰富的专业人士，本文将引导您完成整个过程——从理解SVM的基础概念到在Jupyter Notebook中执行完整的实现。让我们开始吧！

目录

    支持向量机（SVM）简介
    环境设置
    数据探索与预处理
        
            处理缺失数据
            对分类变量进行编码
            特征选择
        
    
    数据集拆分
    特征缩放
    构建和评估模型
        
            K近邻（KNN）
            逻辑回归
            高斯朴素贝叶斯
            支持向量机（SVM）
        
    
    决策区域可视化
    结论
    参考文献



1. 支持向量机（SVM）简介

支持向量机（SVM）是用于分类和回归任务的强大监督学习模型。它们在高维空间中特别有效，并且由于使用了不同的核函数而具有多功能性。SVM的目标是找到最佳的超平面，以最大的边界将不同类别的数据点最佳地分开。

SVM的主要特征：

    边界优化：SVM最大化类别之间的边界，以确保更好的泛化能力。
    核技巧：通过将数据转换到更高维度，允许SVM在非线性分类中表现出色。
    鲁棒性：在具有明显分离边界的情况下以及在高维空间中都有效。



2. 环境设置

在开始之前，请确保已安装必要的库。您可以使用pip进行安装：





		
		
			
			
Java
			
			pip install pandas numpy scikit-learn seaborn matplotlib mlxtend
			
				
					
				
					1
				
						pip install pandas numpy scikit-learn seaborn matplotlib mlxtend
					
				
			
		



注意：mlxtend用于可视化决策区域。


3. 数据探索与预处理

数据预处理是任何机器学习流程中的关键步骤。它包括清洗数据、处理缺失值、对分类变量进行编码以及选择相关特征。

3.1 处理缺失数据

缺失数据会对机器学习模型的性能产生不利影响。我们将通过以下方式处理缺失值：


    数值特征：使用均值填充缺失值。
    分类特征：使用最频繁的值填充缺失值。






		
		
			
			
Java
			
			import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer

# 加载数据集
data = pd.read_csv('weatherAUS.csv')

# 分离特征和目标
X = data.iloc[:, :-1]
y = data.iloc[:, -1]

# 处理数值缺失值
numeric_cols = X.select_dtypes(include=['int64', 'float64']).columns
imputer_numeric = SimpleImputer(strategy='mean')
X[numeric_cols] = imputer_numeric.fit_transform(X[numeric_cols])

# 处理分类缺失值
categorical_cols = X.select_dtypes(include=['object']).columns
imputer_categorical = SimpleImputer(strategy='most_frequent')
X[categorical_cols] = imputer_categorical.fit_transform(X[categorical_cols])
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
				
						import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer
 
# 加载数据集
data = pd.read_csv('weatherAUS.csv')
 
# 分离特征和目标
X = data.iloc[:, :-1]
y = data.iloc[:, -1]
 
# 处理数值缺失值
numeric_cols = X.select_dtypes(include=['int64', 'float64']).columns
imputer_numeric = SimpleImputer(strategy='mean')
X[numeric_cols] = imputer_numeric.fit_transform(X[numeric_cols])
 
# 处理分类缺失值
categorical_cols = X.select_dtypes(include=['object']).columns
imputer_categorical = SimpleImputer(strategy='most_frequent')
X[categorical_cols] = imputer_categorical.fit_transform(X[categorical_cols])
					
				
			
		



3.2 对分类变量进行编码

机器学习模型需要数值输入。我们将使用以下方法转换分类变量：


    标签编码：适用于二元或高基数类别。
    独热编码：适用于具有有限唯一值的类别。






		
		
			
			
Java
			
			from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer

# 标签编码函数
def label_encode(series):
    le = LabelEncoder()
    return le.fit_transform(series)

# 对目标变量应用标签编码
y = label_encode(y)

# 识别需要编码的列
def encoding_selection(X, threshold=10):
    string_cols = X.select_dtypes(include=['object']).columns
    one_hot_cols = [col for col in string_cols if X[col].nunique() &lt;= threshold]
    label_encode_cols = [col for col in string_cols if X[col].nunique() &gt; threshold]
    
    # 标签编码
    for col in label_encode_cols:
        X[col] = label_encode(X[col])
    
    # 独热编码
    ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), one_hot_cols)], remainder='passthrough')
    X = ct.fit_transform(X)
    return X

X = encoding_selection(X)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
				
						from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer
 
# 标签编码函数
def label_encode(series):
    le = LabelEncoder()
    return le.fit_transform(series)
 
# 对目标变量应用标签编码
y = label_encode(y)
 
# 识别需要编码的列
def encoding_selection(X, threshold=10):
    string_cols = X.select_dtypes(include=['object']).columns
    one_hot_cols = [col for col in string_cols if X[col].nunique() &lt;= threshold]
    label_encode_cols = [col for col in string_cols if X[col].nunique() &gt; threshold]
    
    # 标签编码
    for col in label_encode_cols:
        X[col] = label_encode(X[col])
    
    # 独热编码
    ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), one_hot_cols)], remainder='passthrough')
    X = ct.fit_transform(X)
    return X
 
X = encoding_selection(X)
					
				
			
		



3.3 特征选择

选择相关特征可以提高模型性能并减少计算复杂性。我们将使用SelectKBest与卡方统计量。





		
		
			
			
Java
			
			from sklearn.feature_selection import SelectKBest, chi2
from sklearn.preprocessing import MinMaxScaler

# 缩放特征
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# 选择前2个特征
selector = SelectKBest(score_func=chi2, k=2)
X_selected = selector.fit_transform(X_scaled, y)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
				
						from sklearn.feature_selection import SelectKBest, chi2
from sklearn.preprocessing import MinMaxScaler
 
# 缩放特征
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)
 
# 选择前2个特征
selector = SelectKBest(score_func=chi2, k=2)
X_selected = selector.fit_transform(X_scaled, y)
					
				
			
		




4. 数据集拆分

我们将数据集拆分为训练集和测试集，以评估模型在未见数据上的性能。





		
		
			
			
Java
			
			from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_selected, y, test_size=0.20, random_state=1)
			
				
					
				
					1
2
3
				
						from sklearn.model_selection import train_test_split
 
X_train, X_test, y_train, y_test = train_test_split(X_selected, y, test_size=0.20, random_state=1)
					
				
			
		




5. 特征缩放

特征缩放确保所有特征对模型性能的贡献相等。





		
		
			
			
Java
			
			from sklearn.preprocessing import StandardScaler

scaler = StandardScaler(with_mean=False)
scaler.fit(X_train)

X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)
			
				
					
				
					1
2
3
4
5
6
7
				
						from sklearn.preprocessing import StandardScaler
 
scaler = StandardScaler(with_mean=False)
scaler.fit(X_train)
 
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)
					
				
			
		




6. 构建和评估模型

我们将构建四种不同的模型来比较它们的性能：


    K近邻（KNN）
    逻辑回归
    高斯朴素贝叶斯
    支持向量机（SVM）


6.1 K近邻（KNN）





		
		
			
			
Java
			
			from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)
y_pred_knn = knn.predict(X_test)
accuracy_knn = accuracy_score(y_pred_knn, y_test)
print(f'KNN Accuracy: {accuracy_knn:.4f}')
			
				
					
				
					1
2
3
4
5
6
7
8
				
						from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
 
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)
y_pred_knn = knn.predict(X_test)
accuracy_knn = accuracy_score(y_pred_knn, y_test)
print(f'KNN Accuracy: {accuracy_knn:.4f}')
					
				
			
		



输出：




		
		
			
			
Java
			
			KNN Accuracy: 0.8003
			
				
					
				
					1
				
						KNN Accuracy: 0.8003
					
				
			
		



6.2 逻辑回归





		
		
			
			
Java
			
			from sklearn.linear_model import LogisticRegression

log_reg = LogisticRegression(random_state=0, max_iter=200)
log_reg.fit(X_train, y_train)
y_pred_lr = log_reg.predict(X_test)
accuracy_lr = accuracy_score(y_pred_lr, y_test)
print(f'Logistic Regression Accuracy: {accuracy_lr:.4f}')
			
				
					
				
					1
2
3
4
5
6
7
				
						from sklearn.linear_model import LogisticRegression
 
log_reg = LogisticRegression(random_state=0, max_iter=200)
log_reg.fit(X_train, y_train)
y_pred_lr = log_reg.predict(X_test)
accuracy_lr = accuracy_score(y_pred_lr, y_test)
print(f'Logistic Regression Accuracy: {accuracy_lr:.4f}')
					
				
			
		



输出：




		
		
			
			
Java
			
			Logistic Regression Accuracy: 0.8297
			
				
					
				
					1
				
						Logistic Regression Accuracy: 0.8297
					
				
			
		



6.3 高斯朴素贝叶斯





		
		
			
			
Java
			
			from sklearn.naive_bayes import GaussianNB

gnb = GaussianNB()
gnb.fit(X_train, y_train)
y_pred_gnb = gnb.predict(X_test)
accuracy_gnb = accuracy_score(y_pred_gnb, y_test)
print(f'Gaussian Naive Bayes Accuracy: {accuracy_gnb:.4f}')
			
				
					
				
					1
2
3
4
5
6
7
				
						from sklearn.naive_bayes import GaussianNB
 
gnb = GaussianNB()
gnb.fit(X_train, y_train)
y_pred_gnb = gnb.predict(X_test)
accuracy_gnb = accuracy_score(y_pred_gnb, y_test)
print(f'Gaussian Naive Bayes Accuracy: {accuracy_gnb:.4f}')
					
				
			
		



输出：




		
		
			
			
Java
			
			Gaussian Naive Bayes Accuracy: 0.7960
			
				
					
				
					1
				
						Gaussian Naive Bayes Accuracy: 0.7960
					
				
			
		



6.4 支持向量机（SVM）





		
		
			
			
Java
			
			from sklearn.svm import SVC

svc = SVC()
svc.fit(X_train, y_train)
y_pred_svc = svc.predict(X_test)
accuracy_svc = accuracy_score(y_pred_svc, y_test)
print(f'SVM Accuracy: {accuracy_svc:.4f}')
			
				
					
				
					1
2
3
4
5
6
7
				
						from sklearn.svm import SVC
 
svc = SVC()
svc.fit(X_train, y_train)
y_pred_svc = svc.predict(X_test)
accuracy_svc = accuracy_score(y_pred_svc, y_test)
print(f'SVM Accuracy: {accuracy_svc:.4f}')
					
				
			
		



输出：




		
		
			
			
Java
			
			SVM Accuracy: 0.8282
			
				
					
				
					1
				
						SVM Accuracy: 0.8282
					
				
			
		



模型准确率总结：

    
        模型
        准确率
    
    
        KNN
        80.03%
    
    
        逻辑回归
        82.97%
    
    
        高斯朴素贝叶斯
        79.60%
    
    
        SVM
        82.82%
    


在评估的模型中，逻辑回归的表现略优于SVM，SVM本身紧随其后。



7. 决策区域可视化

可视化决策边界有助于理解不同模型如何分类数据。





		
		
			
			
Java
			
			from mlxtend.plotting import plot_decision_regions
import matplotlib.pyplot as plt
from sklearn import datasets

# 加载用于可视化的鸢尾花数据集
iris = datasets.load_iris()
X_vis = iris.data[:, :2]
y_vis = iris.target

# 初始化模型
knn_vis = KNeighborsClassifier(n_neighbors=3)
log_reg_vis = LogisticRegression(random_state=0, max_iter=200)
gnb_vis = GaussianNB()
svc_vis = SVC()

# 训练模型
knn_vis.fit(X_vis, y_vis)
log_reg_vis.fit(X_vis, y_vis)
gnb_vis.fit(X_vis, y_vis)
svc_vis.fit(X_vis, y_vis)

# 可视化函数
def visualize_decision_regions(X, y, model, title):
    plot_decision_regions(X, y, clf=model, legend=2)
    plt.title(title)
    plt.xlabel('特征 1')
    plt.ylabel('特征 2')
    plt.show()

# 为每个模型绘制决策区域
visualize_decision_regions(X_vis, y_vis, knn_vis, 'K近邻决策区域')
visualize_decision_regions(X_vis, y_vis, log_reg_vis, '逻辑回归决策区域')
visualize_decision_regions(X_vis, y_vis, gnb_vis, '高斯朴素贝叶斯决策区域')
visualize_decision_regions(X_vis, y_vis, svc_vis, 'SVM决策区域')
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
				
						from mlxtend.plotting import plot_decision_regions
import matplotlib.pyplot as plt
from sklearn import datasets
 
# 加载用于可视化的鸢尾花数据集
iris = datasets.load_iris()
X_vis = iris.data[:, :2]
y_vis = iris.target
 
# 初始化模型
knn_vis = KNeighborsClassifier(n_neighbors=3)
log_reg_vis = LogisticRegression(random_state=0, max_iter=200)
gnb_vis = GaussianNB()
svc_vis = SVC()
 
# 训练模型
knn_vis.fit(X_vis, y_vis)
log_reg_vis.fit(X_vis, y_vis)
gnb_vis.fit(X_vis, y_vis)
svc_vis.fit(X_vis, y_vis)
 
# 可视化函数
def visualize_decision_regions(X, y, model, title):
    plot_decision_regions(X, y, clf=model, legend=2)
    plt.title(title)
    plt.xlabel('特征 1')
    plt.ylabel('特征 2')
    plt.show()
 
# 为每个模型绘制决策区域
visualize_decision_regions(X_vis, y_vis, knn_vis, 'K近邻决策区域')
visualize_decision_regions(X_vis, y_vis, log_reg_vis, '逻辑回归决策区域')
visualize_decision_regions(X_vis, y_vis, gnb_vis, '高斯朴素贝叶斯决策区域')
visualize_decision_regions(X_vis, y_vis, svc_vis, 'SVM决策区域')
					
				
			
		



可视化：

每个模型的决策边界将在单独的图中显示，展示它们如何在特征空间中分类不同区域。


8. 结论

在本指南中，我们探讨了使用Python的scikit-learn库实现支持向量机（SVM）。从数据预处理到构建和评估包括SVM在内的各种模型，我们涵盖了典型机器学习流程中的关键步骤。此外，决策区域的可视化为不同算法执行分类任务的方式提供了更深入的见解。

主要收获：

    数据预处理：清洗和准备数据以进行建模至关重要。
    特征选择与缩放：提高模型性能和效率。
    模型比较：评估多种算法有助于选择最适合您数据集的表现者。
    可视化：理解模型行为和决策过程的强大工具。


通过遵循这一全面的方法，您可以有效地实现SVM和其他分类算法，以解决现实世界中的问题。


9. 参考文献


    Scikit-Learn 文档
    维基百科 - 支持向量机
    MLxtend：机器学习扩展




感谢阅读！如果您有任何问题或反馈，欢迎在下方留言。
模型	准确率
KNN	80.03%
逻辑回归	82.97%
高斯朴素贝叶斯	79.60%
SVM	82.82%