精通 Scikit-Learn 的决策树回归：全面指南

在不断发展的机器学习领域，决策树作为一种多功能且直观的模型，在分类和回归任务中脱颖而出。无论您是数据科学爱好者还是经验丰富的专业人士，了解如何实施和优化决策树都是至关重要的。在本指南中，我们将深入探讨使用 Scikit-Learn 进行决策树回归，利用实际示例和真实世界的数据集来巩固您的理解。

决策树简介

决策树是机器学习的基本组成部分，以其简单性和可解释性而备受推崇。它们模拟人类的决策过程，将复杂的决策分解为一系列更简单的二元选择。这使得它们在分类（对数据进行分类）和回归（预测连续值）任务中特别有用。

为什么使用决策树？

可解释性：易于可视化和理解。
非参数性：对数据分布没有假设。
多功能性：适用于各种类型的数据和问题。

然而，像所有模型一样，决策树也有其自身的挑战，如过拟合和计算复杂性，我们将在本指南后面进行探讨。

理解决策树结构

决策树的核心是其结构，包括节点和分支：

根节点：表示整个数据集的最上层节点。
内部节点：基于特征值表示决策点。
叶节点：表示最终的输出或预测。

关键概念

树的深度：从根节点到叶节点的最长路径。树的深度会显著影响其性能。
最大深度：限制树的深度以防止过拟合的超参数。
欠拟合与过拟合：
- 欠拟合：当模型过于简单（例如，最大深度设置过低）时，无法捕捉到潜在的模式。
- 过拟合：当模型过于复杂（例如，最大深度设置过高）时，捕捉到了训练数据中的噪声，降低了泛化能力。

在 Python 中实现决策树回归

让我们通过一个使用 Scikit-Learn 的 DecisionTreeRegressor 的实际示例来进行演练。我们将使用“加拿大人均收入”数据集，根据年份预测收入。

步骤 1：导入库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import r2_score

sns.set()

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.model_selection import train_test_split

from sklearn.tree import DecisionTreeRegressor

from sklearn.metrics import r2_score

sns.set()

步骤 2：加载数据集

# 数据集来源：https://www.kaggle.com/gurdit559/canada-per-capita-income-single-variable-data-set
data = pd.read_csv('canada_per_capita_income.csv')
X = data.iloc[:, :-1]
Y = data.iloc[:, -1]

# 数据集来源：https://www.kaggle.com/gurdit559/canada-per-capita-income-single-variable-data-set

data = pd.read_csv('canada_per_capita_income.csv')

X = data.iloc[:, :-1]

Y = data.iloc[:, -1]

步骤 3：探索性数据分析

print(data.head())

# 数据可视化
sns.scatterplot(data=data, x='per capita income (US$)', y='year')
plt.show()

print(data.head())

# 数据可视化

sns.scatterplot(data=data, x='per capita income (US$)', y='year')

plt.show()

输出：

   year  per capita income (US$)
0  1970              3399.299037
1  1971              3768.297935
2  1972              4251.175484
3  1973              4804.463248
4  1974              5576.514583

year per capita income (US$)

0 1970 3399.299037

1 1971 3768.297935

2 1972 4251.175484

3 1973 4804.463248

4 1974 5576.514583

步骤 4：拆分数据

X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)

1	X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)

步骤 5：构建和训练模型

model = DecisionTreeRegressor()
model.fit(X_train, y_train)

1 2	model = DecisionTreeRegressor() model.fit(X_train, y_train)

步骤 6：进行预测

y_pred = model.predict(X_test)
print(y_pred)

1 2	y_pred = model.predict(X_test) print(y_pred)

输出：

[15875.58673  17266.09769  37446.48609  25719.14715   3768.297935
 5576.514583 16622.67187  18601.39724  41039.8936   16369.31725 ]

1 2	[15875.58673 17266.09769 37446.48609 25719.14715 3768.297935 5576.514583 16622.67187 18601.39724 41039.8936 16369.31725 ]

超参数调整：最大深度的作用

决策树中一个关键的超参数是 max_depth，它控制树的最大深度。

最大深度的影响

低最大深度（例如，1）：
- 优点：简单，降低过拟合的风险。
- 缺点：可能导致欠拟合，对复杂数据的表现较差。
- 示例：将 max_depth=1 可能导致模型仅考虑周末是否决定打羽毛球，忽略天气等其他因素。
高最大深度（例如，25）：
- 优点：能够捕捉复杂的模式。
- 缺点：增加过拟合的风险，训练时间更长。
- 示例：max_depth 为 25 可能导致模型过于复杂，捕捉到了噪声而非潜在的分布。

寻找最佳最大深度

最佳最大深度平衡了偏差和方差，确保模型能够很好地泛化到未见过的数据。诸如交叉验证等技术可以帮助确定最佳值。

# 示例：将 max_depth 设置为 10
model = DecisionTreeRegressor(max_depth=10)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print(r2_score(y_test, y_pred))

# 示例：将 max_depth 设置为 10

model = DecisionTreeRegressor(max_depth=10)

model.fit(X_train, y_train)

y_pred = model.predict(X_test)

print(r2_score(y_test, y_pred))

输出：

0.9283605684543206

1	0.9283605684543206

大约 0.92 的 R² 分数表明拟合程度很高，但仍需通过不同的深度和交叉验证来验证。

可视化决策树

可视化有助于理解决策树如何进行预测。

可视化模型

特征重要性：确定树最看重哪些特征。

Java

feature_importances = model.feature_importances_ print(feature_importances)

1
2

feature_importances = model.feature_importances_
print(feature_importances)
树结构：使用 Scikit-Learn 的 plot_tree 显示树的结构。

Java

from sklearn import tree plt.figure(figsize=(12,8)) tree.plot_tree(model, filled=True, feature_names=X.columns, rounded=True) plt.show()

1
2
3
4
5

from sklearn import tree

plt.figure(figsize=(12,8))
tree.plot_tree(model, filled=True, feature_names=X.columns, rounded=True)
plt.show()

实用作业

可视化模型：使用 plot_tree 可视化决策分割的方式。
直接显示决策树：解读树以理解特征决策。
进一步探索：访问 Scikit-Learn 的决策树回归示例以深入了解。

评估模型性能

评估模型的性能对于确保其可靠性至关重要。

from sklearn.metrics import r2_score

r2 = r2_score(y_test, y_pred)
print(f"R² Score: {r2:.2f}")

from sklearn.metrics import r2_score

r2 = r2_score(y_test, y_pred)

print(f"R² Score: {r2:.2f}")

输出：

R² Score: 0.93

1	R² Score: 0.93

接近 1 的 R² 分数表明模型解释了目标变量中很大一部分的方差。

挑战与局限性

虽然决策树功能强大，但它们也存在一些缺点：

过拟合：深层树可以捕捉噪声，降低泛化能力。
时间复杂度：随着数据集大小和特征维度的增加，训练时间增加。
空间复杂度：存储大型树可能占用大量内存。
分类数据的偏差：决策树在处理高基数分类变量时可能存在困难。

解决局限性的方法

剪枝：限制树的深度并消除在预测目标变量时作用不大的分支。
集成方法：如随机森林或梯度提升技术，可以减轻过拟合并提高性能。
特征工程：减少特征维度并有效编码分类变量。

结论

决策树回归是机器学习中的基础技术，具有简单性和可解释性。通过理解其结构，优化诸如 max_depth 等超参数，并解决其局限性，您可以充分利用其潜力。无论您是在预测收入水平、房价还是任何连续变量，决策树都提供了一个稳健的起点。

进一步阅读

在您的数据科学工具包中拥抱决策树的力量，并继续探索高级主题，以将您的模型提升到新的高度。

S10L02 – 决策树实现 – 1个特征

精通 Scikit-Learn 的决策树回归：全面指南

目录

决策树简介

为什么使用决策树？

理解决策树结构

关键概念

在 Python 中实现决策树回归

步骤 1：导入库

步骤 2：加载数据集

步骤 3：探索性数据分析

步骤 4：拆分数据

步骤 5：构建和训练模型

步骤 6：进行预测

超参数调整：最大深度的作用

最大深度的影响

寻找最佳最大深度

可视化决策树

可视化模型

实用作业

评估模型性能

挑战与局限性

解决局限性的方法

结论

进一步阅读