使用Python掌握CAP曲线进行模型比较：全面指南

在快速发展的机器学习领域中，为您的数据集选择表现最佳的模型至关重要。面对众多可用的算法，确定哪一个真正出众可能令人望而生畏。引入累积准确率曲线（CAP曲线）——一种强大的工具，可以简化比较多个模型的过程。在本全面指南中，我们将深入探讨CAP曲线，展示如何在Python中实现它们，并展示它们在二分类和多分类情境中的有效性。无论您是数据爱好者还是经验丰富的从业者，本文都将为您提供提升模型评估技术的知识。

理解CAP曲线

累积准确率曲线（CAP曲线）是用于评估分类模型性能的图形工具。它们提供了一种模型识别正例能力相对于随机模型的直观表示。通过将累积正确预测的正例数量与总观测数进行绘图，CAP曲线有助于评估和比较不同模型的有效性。

为什么使用CAP曲线？

直观的可视化：为模型之间提供清晰的视觉比较。
性能指标：突出在识别正例上的差异。
多功能性：适用于二分类和多分类问题。

设置您的环境

在深入了解CAP曲线之前，请确保您的Python环境已安装所需的库。我们将使用诸如pandas、numpy、scikit-learn、matplotlib和xgboost等库。

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import (LabelEncoder, OneHotEncoder, StandardScaler,
                                   MinMaxScaler)
from sklearn.impute import SimpleImputer
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.metrics import accuracy_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
import xgboost as xgb

import pandas as pd

import numpy as np

import seaborn as sns

import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import (LabelEncoder, OneHotEncoder, StandardScaler,

MinMaxScaler)

from sklearn.impute import SimpleImputer

from sklearn.feature_selection import SelectKBest, chi2

from sklearn.metrics import accuracy_score

from sklearn.neighbors import KNeighborsClassifier

from sklearn.linear_model import LogisticRegression

from sklearn.naive_bayes import GaussianNB

from sklearn.svm import SVC

from sklearn.tree import DecisionTreeClassifier

from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier

import xgboost as xgb

数据预处理

数据预处理是机器学习工作流程中的关键步骤。它确保数据是干净的、结构良好的，并且适合建模。

处理缺失数据

缺失数据可能会扭曲结果并降低模型准确性。以下是处理数值和分类缺失值的方法：

# For numerical columns
import numpy as np
from sklearn.impute import SimpleImputer

imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')
numerical_cols = X.select_dtypes(include=['int64', 'float64']).columns
imp_mean.fit(X[numerical_cols])
X[numerical_cols] = imp_mean.transform(X[numerical_cols])

# For categorical columns
from sklearn.impute import SimpleImputer

imp_mode = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
categorical_cols = X.select_dtypes(include=['object']).columns
imp_mode.fit(X[categorical_cols])
X[categorical_cols] = imp_mode.transform(X[categorical_cols])

# For numerical columns

import numpy as np

from sklearn.impute import SimpleImputer

imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')

numerical_cols = X.select_dtypes(include=['int64', 'float64']).columns

imp_mean.fit(X[numerical_cols])

X[numerical_cols] = imp_mean.transform(X[numerical_cols])

# For categorical columns

from sklearn.impute import SimpleImputer

imp_mode = SimpleImputer(missing_values=np.nan, strategy='most_frequent')

categorical_cols = X.select_dtypes(include=['object']).columns

imp_mode.fit(X[categorical_cols])

X[categorical_cols] = imp_mode.transform(X[categorical_cols])

编码分类变量

大多数机器学习算法需要数值输入。编码将分类变量转换为数值格式。

独热编码

适用于具有两个以上类别的变量。

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

def OneHotEncoderMethod(indices, data):
    columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), indices)], remainder='passthrough')
    return columnTransformer.fit_transform(data)

X = OneHotEncoderMethod(categorical_cols, X)

from sklearn.compose import ColumnTransformer

from sklearn.preprocessing import OneHotEncoder

def OneHotEncoderMethod(indices, data):

columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), indices)], remainder='passthrough')

return columnTransformer.fit_transform(data)

X = OneHotEncoderMethod(categorical_cols, X)

标签编码

适用于具有两个类别的分类变量或具有多个类别且独热编码可能不切实际的变量。

from sklearn import preprocessing

def LabelEncoderMethod(series):
    le = preprocessing.LabelEncoder()
    le.fit(series)
    return le.transform(series)

# Apply label encoding to target variable
y = LabelEncoderMethod(y)

from sklearn import preprocessing

def LabelEncoderMethod(series):

le = preprocessing.LabelEncoder()

le.fit(series)

return le.transform(series)

# Apply label encoding to target variable

y = LabelEncoderMethod(y)

特征选择

特征选择有助于减少过拟合、提高准确性并减少训练时间。

from sklearn.feature_selection import SelectKBest, chi2
from sklearn import preprocessing

# Scaling features
scaler = preprocessing.MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# Selecting top 5 features based on chi-squared test
kbest = SelectKBest(score_func=chi2, k=5)
kbest.fit(X_scaled, y)
best_features = kbest.get_support(indices=True)
X = X[:, best_features]

from sklearn.feature_selection import SelectKBest, chi2

from sklearn import preprocessing

# Scaling features

scaler = preprocessing.MinMaxScaler()

X_scaled = scaler.fit_transform(X)

# Selecting top 5 features based on chi-squared test

kbest = SelectKBest(score_func=chi2, k=5)

kbest.fit(X_scaled, y)

best_features = kbest.get_support(indices=True)

X = X[:, best_features]

特征缩放

缩放确保所有特征在模型训练中具有同等贡献。

from sklearn.preprocessing import StandardScaler

sc = StandardScaler(with_mean=False)
X = sc.fit_transform(X)

from sklearn.preprocessing import StandardScaler

sc = StandardScaler(with_mean=False)

X = sc.fit_transform(X)

构建和评估模型

通过预处理后的数据，现在是时候构建各种分类模型并评估它们的性能。

K-近邻算法（KNN）

from sklearn.neighbors import KNeighborsClassifier

knnClassifier = KNeighborsClassifier(n_neighbors=3)
knnClassifier.fit(X_train, y_train)
y_pred_knn = knnClassifier.predict(X_test)
accuracy_knn = accuracy_score(y_pred_knn, y_test)
print(f'KNN Accuracy: {accuracy_knn}')

from sklearn.neighbors import KNeighborsClassifier

knnClassifier = KNeighborsClassifier(n_neighbors=3)

knnClassifier.fit(X_train, y_train)

y_pred_knn = knnClassifier.predict(X_test)

accuracy_knn = accuracy_score(y_pred_knn, y_test)

print(f'KNN Accuracy: {accuracy_knn}')

逻辑回归

from sklearn.linear_model import LogisticRegression

logreg = LogisticRegression(random_state=0, max_iter=200)
logreg.fit(X_train, y_train)
y_pred_logreg = logreg.predict(X_test)
accuracy_logreg = accuracy_score(y_pred_logreg, y_test)
print(f'Logistic Regression Accuracy: {accuracy_logreg}')

from sklearn.linear_model import LogisticRegression

logreg = LogisticRegression(random_state=0, max_iter=200)

logreg.fit(X_train, y_train)

y_pred_logreg = logreg.predict(X_test)

accuracy_logreg = accuracy_score(y_pred_logreg, y_test)

print(f'Logistic Regression Accuracy: {accuracy_logreg}')

注意：您可能会遇到ConvergenceWarning。要解决此问题，请考虑增加max_iter或选择不同的求解器。

高斯朴素贝叶斯

from sklearn.naive_bayes import GaussianNB

gnb = GaussianNB()
gnb.fit(X_train, y_train)
y_pred_gnb = gnb.predict(X_test)
accuracy_gnb = accuracy_score(y_pred_gnb, y_test)
print(f'Gaussian Naive Bayes Accuracy: {accuracy_gnb}')

from sklearn.naive_bayes import GaussianNB

gnb = GaussianNB()

gnb.fit(X_train, y_train)

y_pred_gnb = gnb.predict(X_test)

accuracy_gnb = accuracy_score(y_pred_gnb, y_test)

print(f'Gaussian Naive Bayes Accuracy: {accuracy_gnb}')

支持向量机（SVM）

from sklearn.svm import SVC

svc = SVC()
svc.fit(X_train, y_train)
y_pred_svc = svc.predict(X_test)
accuracy_svc = accuracy_score(y_pred_svc, y_test)
print(f'SVM Accuracy: {accuracy_svc}')

from sklearn.svm import SVC

svc = SVC()

svc.fit(X_train, y_train)

y_pred_svc = svc.predict(X_test)

accuracy_svc = accuracy_score(y_pred_svc, y_test)

print(f'SVM Accuracy: {accuracy_svc}')

决策树

from sklearn.tree import DecisionTreeClassifier

dtc = DecisionTreeClassifier()
dtc.fit(X_train, y_train)
y_pred_dtc = dtc.predict(X_test)
accuracy_dtc = accuracy_score(y_pred_dtc, y_test)
print(f'Decision Tree Accuracy: {accuracy_dtc}')

from sklearn.tree import DecisionTreeClassifier

dtc = DecisionTreeClassifier()

dtc.fit(X_train, y_train)

y_pred_dtc = dtc.predict(X_test)

accuracy_dtc = accuracy_score(y_pred_dtc, y_test)

print(f'Decision Tree Accuracy: {accuracy_dtc}')

随机森林

from sklearn.ensemble import RandomForestClassifier

rfc = RandomForestClassifier(n_estimators=500, max_depth=5)
rfc.fit(X_train, y_train)
y_pred_rfc = rfc.predict(X_test)
accuracy_rfc = accuracy_score(y_pred_rfc, y_test)
print(f'Random Forest Accuracy: {accuracy_rfc}')

from sklearn.ensemble import RandomForestClassifier

rfc = RandomForestClassifier(n_estimators=500, max_depth=5)

rfc.fit(X_train, y_train)

y_pred_rfc = rfc.predict(X_test)

accuracy_rfc = accuracy_score(y_pred_rfc, y_test)

print(f'Random Forest Accuracy: {accuracy_rfc}')

AdaBoost

from sklearn.ensemble import AdaBoostClassifier

abc = AdaBoostClassifier()
abc.fit(X_train, y_train)
y_pred_abc = abc.predict(X_test)
accuracy_abc = accuracy_score(y_pred_abc, y_test)
print(f'AdaBoost Accuracy: {accuracy_abc}')

from sklearn.ensemble import AdaBoostClassifier

abc = AdaBoostClassifier()

abc.fit(X_train, y_train)

y_pred_abc = abc.predict(X_test)

accuracy_abc = accuracy_score(y_pred_abc, y_test)

print(f'AdaBoost Accuracy: {accuracy_abc}')

XGBoost

import xgboost as xgb

xgb_classifier = xgb.XGBClassifier(use_label_encoder=False, eval_metric='mlogloss')
xgb_classifier.fit(X_train, y_train)
y_pred_xgb = xgb_classifier.predict(X_test)
accuracy_xgb = accuracy_score(y_pred_xgb, y_test)
print(f'XGBoost Accuracy: {accuracy_xgb}')

import xgboost as xgb

xgb_classifier = xgb.XGBClassifier(use_label_encoder=False, eval_metric='mlogloss')

xgb_classifier.fit(X_train, y_train)

y_pred_xgb = xgb_classifier.predict(X_test)

accuracy_xgb = accuracy_score(y_pred_xgb, y_test)

print(f'XGBoost Accuracy: {accuracy_xgb}')

注意：XGBoost可能会发出有关标签编码和评估指标的警告。按照上面的示例调整参数以抑制警告。

生成CAP曲线

CAP曲线提供了一种直观的方法来比较不同模型的性能。以下是生成CAP曲线的方法：

定义CAP生成函数

def CAP_gen(model, X_test, y_test):
    pred = model.predict(X_test)
    _ = sorted(zip(pred, y_test), reverse=True)
    _cap = []
    for p, o in _:
        if p == o:
            _cap.append(p)
        else:
            _cap.append(o)
    y_values = np.append([0], np.cumsum(_cap))
    x_values = np.arange(0, len(y_test) + 1)
    return x_values, y_values

def CAP_gen(model, X_test, y_test):

pred = model.predict(X_test)

_ = sorted(zip(pred, y_test), reverse=True)

_cap = []

for p, o in _:

if p == o:

_cap.append(p)

else:

_cap.append(o)

y_values = np.append([0], np.cumsum(_cap))

x_values = np.arange(0, len(y_test) + 1)

return x_values, y_values

绘制CAP曲线

import matplotlib.pyplot as plt

total = len(y_test)
sum_count = np.sum(y_test)

plt.figure(figsize=(10, 6))

# Generate CAP for GaussianNB
x_gnb, y_gnb = CAP_gen(gnb, X_test, y_test)
plt.plot(x_gnb, y_gnb, linewidth=3, label='GaussianNB')

# Generate CAP for XGBoost
x_xgb, y_xgb = CAP_gen(xgb_classifier, X_test, y_test)
plt.plot(x_xgb, y_xgb, linewidth=3, label='XGBoost')

# Optional: Add more models
# x_abc, y_abc = CAP_gen(abc, X_test, y_test)
# plt.plot(x_abc, y_abc, linewidth=3, label='AdaBoost')

# x_rfc, y_rfc = CAP_gen(rfc, X_test, y_test)
# plt.plot(x_rfc, y_rfc, linewidth=3, label='Random Forest')

# Random Model line
plt.plot([0, total], [0, sum_count], linestyle='--', label='随机模型')

# Plot aesthetics
plt.xlabel('总观测数', fontsize=16)
plt.ylabel('CAP数值', fontsize=16)
plt.title('累积准确率曲线', fontsize=16)
plt.legend(loc='lower right', fontsize=16)
plt.show()

import matplotlib.pyplot as plt

total = len(y_test)

sum_count = np.sum(y_test)

plt.figure(figsize=(10, 6))

# Generate CAP for GaussianNB

x_gnb, y_gnb = CAP_gen(gnb, X_test, y_test)

plt.plot(x_gnb, y_gnb, linewidth=3, label='GaussianNB')

# Generate CAP for XGBoost

x_xgb, y_xgb = CAP_gen(xgb_classifier, X_test, y_test)

plt.plot(x_xgb, y_xgb, linewidth=3, label='XGBoost')

# Optional: Add more models

# x_abc, y_abc = CAP_gen(abc, X_test, y_test)

# plt.plot(x_abc, y_abc, linewidth=3, label='AdaBoost')

# x_rfc, y_rfc = CAP_gen(rfc, X_test, y_test)

# plt.plot(x_rfc, y_rfc, linewidth=3, label='Random Forest')

# Random Model line

plt.plot([0, total], [0, sum_count], linestyle='--', label='随机模型')

# Plot aesthetics

plt.xlabel('总观测数', fontsize=16)

plt.ylabel('CAP数值', fontsize=16)

plt.title('累积准确率曲线', fontsize=16)

plt.legend(loc='lower right', fontsize=16)

plt.show()

解释CAP曲线

对角线：代表随机模型。一个好的模型应当位于此线之上。
模型曲线：越接近左上角的曲线表示模型性能越好。
曲线下面积（AUC）：AUC越高，性能越好。

使用CAP曲线进行多分类

虽然CAP曲线传统上用于二分类，但它们可以适应多分类问题。以下是如何在使用孟加拉音乐流派数据集（bangla.csv）的多分类环境中实现CAP曲线。

数据概述

bangla.csv数据集包含31个特征，代表各种音频特性，以及一个目标变量label，指示音乐流派。流派包括rabindra、adhunik等类别。

预处理步骤

预处理步骤与二分类大致相同，重点是对多分类目标变量进行编码。

# Label Encoding for multiclass target
y = LabelEncoderMethod(y)

# Proceed with encoding selection, feature scaling, and splitting as before

# Label Encoding for multiclass target

y = LabelEncoderMethod(y)

# Proceed with encoding selection, feature scaling, and splitting as before

构建多分类模型

用于二分类的相同模型在这里也适用。关键区别在于评估它们在多个类别上的性能。

# Example with XGBoost
xgb_classifier = xgb.XGBClassifier(use_label_encoder=False, eval_metric='mlogloss')
xgb_classifier.fit(X_train, y_train)
y_pred_xgb = xgb_classifier.predict(X_test)
accuracy_xgb = accuracy_score(y_pred_xgb, y_test)
print(f'XGBoost Multiclass Accuracy: {accuracy_xgb}')

# Example with XGBoost

xgb_classifier = xgb.XGBClassifier(use_label_encoder=False, eval_metric='mlogloss')

xgb_classifier.fit(X_train, y_train)

y_pred_xgb = xgb_classifier.predict(X_test)

accuracy_xgb = accuracy_score(y_pred_xgb, y_test)

print(f'XGBoost Multiclass Accuracy: {accuracy_xgb}')

为多分类模型生成CAP曲线

CAP生成函数保持不变。然而，解释略有不同，因为它现在考虑多个类别。

# Generate CAP for GaussianNB
x_gnb, y_gnb = CAP_gen(gnb, X_test, y_test)
plt.plot(x_gnb, y_gnb, linewidth=3, label='GaussianNB')

# Generate CAP for XGBoost
x_xgb, y_xgb = CAP_gen(xgb_classifier, X_test, y_test)
plt.plot(x_xgb, y_xgb, linewidth=3, label='XGBoost')

# Random Model line
plt.plot([0, total], [0, sum_count], linestyle='--', label='随机模型')

# Plot aesthetics
plt.xlabel('总观测数', fontsize=16)
plt.ylabel('CAP数值', fontsize=16)
plt.title('多分类累积准确率曲线', fontsize=16)
plt.legend(loc='lower right', fontsize=16)
plt.show()

# Generate CAP for GaussianNB

x_gnb, y_gnb = CAP_gen(gnb, X_test, y_test)

plt.plot(x_gnb, y_gnb, linewidth=3, label='GaussianNB')

# Generate CAP for XGBoost

x_xgb, y_xgb = CAP_gen(xgb_classifier, X_test, y_test)

plt.plot(x_xgb, y_xgb, linewidth=3, label='XGBoost')

# Random Model line

plt.plot([0, total], [0, sum_count], linestyle='--', label='随机模型')

# Plot aesthetics

plt.xlabel('总观测数', fontsize=16)

plt.ylabel('CAP数值', fontsize=16)

plt.title('多分类累积准确率曲线', fontsize=16)

plt.legend(loc='lower right', fontsize=16)

plt.show()

注意：在多分类情境中，CAP曲线可能不像在二分类中那样直观。然而，它们仍然为模型在不同类别上的性能提供了有价值的见解。

最佳实践和技巧

数据质量：确保您的数据是干净且经过良好预处理，以避免误导性的CAP曲线。
模型多样性：比较具有不同基础算法的模型，以确定最佳性能者。
多分类考虑：在多分类设置中解读CAP曲线时要谨慎；考虑辅以其他评估指标，如混淆矩阵或F1分数。
避免过拟合：使用交叉验证和正则化等技术，确保您的模型能很好地泛化到未见过的数据。
保持更新：机器学习是一个不断发展的领域。保持对最新工具和最佳实践的了解，以优化您的模型评估策略。

结论

比较多个机器学习模型可能具有挑战性，但像CAP曲线这样的工具通过提供清晰的模型性能视觉洞察，简化了这一过程。无论您是在处理二分类还是多分类问题，在Python中实现CAP曲线都为您提供了一种强大的方法来评估和选择适合您数据的最佳模型。记住要优先考虑数据质量，理解不同模型的细微差别，并明智地解读CAP曲线，以充分利用它们在您的机器学习工作中的潜力。

祝建模愉快！

S29L07 – 多模型和多类别的CAP曲线

使用Python掌握CAP曲线进行模型比较：全面指南

目录

理解CAP曲线

为什么使用CAP曲线？

设置您的环境

数据预处理

处理缺失数据

编码分类变量

独热编码

标签编码

特征选择

特征缩放

构建和评估模型

K-近邻算法（KNN）

逻辑回归

高斯朴素贝叶斯

支持向量机（SVM）

决策树

随机森林

AdaBoost

XGBoost

生成CAP曲线

定义CAP生成函数

绘制CAP曲线

解释CAP曲线

使用CAP曲线进行多分类

数据概述

预处理步骤

构建多分类模型

为多分类模型生成CAP曲线

最佳实践和技巧

结论