S10L03 – 决策树模型的可视化

html
Python中决策树回归的可视化：全面指南
使用Python释放决策树回归的强大威力！ 在本全面指南中，我们将通过Python强大的库引导您可视化决策树回归模型。无论您是初露头角的数据科学家还是经验丰富的专业人士，理解如何可视化和解释您的模型对于做出明智的决策至关重要。我们将深入探讨欠拟合与过拟合、模型评估以及使用实际数据集的实操实现。

目录

  决策树回归简介
  理解数据集
  设置您的环境
  数据探索与可视化
  准备数据
  构建决策树模型
  进行预测
  实际值与预测值对比
  模型评估
  模型可视化
  理解欠拟合与过拟合
  结论


1. 决策树回归简介
决策树回归是一种多功能且强大的机器学习算法，用于预测连续性结果。与线性回归模型不同，决策树能够捕捉特征之间复杂的关系和交互效果，无需大量的数据预处理。可视化这些树有助于理解模型的决策过程，使结果的解释和传达更加容易。
为何可视化如此重要：

  可解释性： 轻松理解模型如何进行预测。
  调试： 识别并纠正模型的缺陷，如过拟合或欠拟合。
  沟通： 向利益相关者展示清晰的见解。


2. 理解数据集
在我们的示范中，我们将使用来自Kaggle的 加拿大人均收入数据集。该数据集包含了从1950年到2030年美国的人均年度收入信息，单位为美元。
示例数据：

  
    年份
    人均收入（美元）
  
  
    1970
    3399.30
  
  
    1971
    3768.30
  
  
    1972
    4251.18
  
  
    1973
    4804.46
  
  
    1974
    5576.51
  


3. 设置您的环境
在开始实现之前，请确保您已安装必要的库。我们将使用诸如 numpy、pandas、matplotlib、seaborn 和 scikit-learn 这样的库。




		
		
			
			
Java
			
			import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import r2_score
from sklearn import tree
			
				
					
				
					1
2
3
4
5
6
7
8
				
						import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import r2_score
from sklearn import tree
					
				
			
		


为何选择这些库？

  NumPy & Pandas： 高效的数据操作与分析。
  Matplotlib & Seaborn： 高质量的数据可视化。
  Scikit-learn： 强大的机器学习工具和算法。


4. 数据探索与可视化
理解您的数据是第一步关键的步骤。让我们可视化多年的人均收入，以识别趋势。




		
		
			
			
Java
			
			# Load the dataset
data = pd.read_csv('canada_per_capita_income.csv')

# Display the first few rows
print(data.head())

# Scatter plot
sns.scatterplot(data=data, x='per capita income (US$)', y='year')
plt.title('Canada Per Capita Income Over Years')
plt.xlabel('Per Capita Income (US$)')
plt.ylabel('Year')
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
				
						# Load the dataset
data = pd.read_csv('canada_per_capita_income.csv')
 
# Display the first few rows
print(data.head())
 
# Scatter plot
sns.scatterplot(data=data, x='per capita income (US$)', y='year')
plt.title('Canada Per Capita Income Over Years')
plt.xlabel('Per Capita Income (US$)')
plt.ylabel('Year')
plt.show()
					
				
			
		


输出：

见解：

  从1970年到2000年代初，人均收入呈明显上升趋势。
  一些波动表明经济事件影响了收入水平。


5. 准备数据
在建模之前，我们需要将数据分为特征（X）和目标（Y），然后进行训练集和测试集的划分，以评估模型性能。




		
		
			
			
Java
			
			# Features and Target
X = data[['year']]  # Predictor
Y = data['per capita income (US$)']  # Target

# Train-Test Split
X_train, X_test, y_train, y_test = train_test_split(
    X, Y, test_size=0.20, random_state=1
)
			
				
					
				
					1
2
3
4
5
6
7
8
				
						# Features and Target
X = data[['year']]  # Predictor
Y = data['per capita income (US$)']  # Target
 
# Train-Test Split
X_train, X_test, y_train, y_test = train_test_split(
    X, Y, test_size=0.20, random_state=1
)
					
				
			
		


为何进行训练集和测试集划分？

  训练集： 用于训练模型。
  测试集： 用于评估模型在未见数据上的性能。


6. 构建决策树模型
数据准备好后，让我们构建并训练一个决策树回归器。




		
		
			
			
Java
			
			# Initialize the model with a max depth of 10
model = DecisionTreeRegressor(max_depth=10)

# Train the model
model.fit(X_train, y_train)
			
				
					
				
					1
2
3
4
5
				
						# Initialize the model with a max depth of 10
model = DecisionTreeRegressor(max_depth=10)
 
# Train the model
model.fit(X_train, y_train)
					
				
			
		


参数解释：

  max_depth： 控制树的最大深度。更深的树可以捕捉更复杂的模式，但可能会过拟合。


7. 进行预测
训练完成后，使用模型对测试数据集进行预测。




		
		
			
			
Java
			
			# Make predictions
y_pred = model.predict(X_test)

# Display predictions
print(y_pred)
			
				
					
				
					1
2
3
4
5
				
						# Make predictions
y_pred = model.predict(X_test)
 
# Display predictions
print(y_pred)
					
				
			
		


示例输出：




		
		
			
			
Java
			
			[15875.58673  17266.09769  37446.48609  25719.14715   3768.297935
 5576.514583 16622.67187  18601.39724  41039.8936   16369.31725]
			
				
					
				
					1
2
				
						[15875.58673  17266.09769  37446.48609  25719.14715   3768.297935
 5576.514583 16622.67187  18601.39724  41039.8936   16369.31725]
					
				
			
		



8. 实际值与预测值对比
将实际值与模型的预测值进行比较，以直观地评估性能是至关重要的。




		
		
			
			
Java
			
			# Create a comparison DataFrame
comparison = pd.DataFrame({
    'Actual': y_test,
    'Predicted': y_pred
})

print(comparison)
			
				
					
				
					1
2
3
4
5
6
7
				
						# Create a comparison DataFrame
comparison = pd.DataFrame({
    'Actual': y_test,
    'Predicted': y_pred
})
 
print(comparison)
					
				
			
		


示例输出：

  
    
    实际
    预测
  
  
    24
    15755.82
    15875.59
  
  
    22
    16412.08
    17266.10
  
  
    39
    32755.18
    37446.49
  
  
    35
    29198.06
    25719.15
  
  
    2
    4251.17
    3768.30
  
  
    3
    4804.46
    5576.51
  
  
    29
    17581.02
    16622.67
  
  
    32
    19232.18
    18601.40
  
  
    45
    35175.19
    41039.89
  
  
    26
    16699.83
    16369.32
  

可视化：




		
		
			
			
Java
			
			plt.scatter(X_test, y_test, color='blue', label='Actual')
plt.scatter(X_test, y_pred, color='red', label='Predicted')
plt.title('Actual vs Predicted Per Capita Income')
plt.xlabel('Year')
plt.ylabel('Per Capita Income (US$)')
plt.legend()
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
				
						plt.scatter(X_test, y_test, color='blue', label='Actual')
plt.scatter(X_test, y_pred, color='red', label='Predicted')
plt.title('Actual vs Predicted Per Capita Income')
plt.xlabel('Year')
plt.ylabel('Per Capita Income (US$)')
plt.legend()
plt.show()
					
				
			
		




9. 模型评估
为了定量评估模型的性能，我们将使用R²分数，该分数表示模型解释目标数据变异性的程度。




		
		
			
			
Java
			
			# Calculate R2 Score
r2 = r2_score(y_test, y_pred)
print(f"R² Score: {r2:.2f}")
			
				
					
				
					1
2
3
				
						# Calculate R2 Score
r2 = r2_score(y_test, y_pred)
print(f"R² Score: {r2:.2f}")
					
				
			
		


输出：




		
		
			
			
Java
			
			R² Score: 0.93
			
				
					
				
					1
				
						R² Score: 0.93
					
				
			
		


解释：

  R²分数为0.93意味着93%的人人均收入变异性由模型解释。
  这表明模型具有强大的预测性能。


10. 模型可视化
可视化有助于理解模型的决策过程。我们将绘制回归树和模型的预测结果。
在一系列年份上的预测绘图




		
		
			
			
Java
			
			# Define a range of years for prediction
vals = np.arange(1950, 2050, 2).reshape(-1, 1)

# Predict using the model
predictions = model.predict(vals)

# Plot
plt.scatter(X, Y, color='blue', label='Data')
plt.plot(vals, predictions, color='red', label='Decision Tree Prediction')
plt.title('Decision Tree Regression Model')
plt.xlabel('Year')
plt.ylabel('Per Capita Income (US$)')
plt.legend()
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
				
						# Define a range of years for prediction
vals = np.arange(1950, 2050, 2).reshape(-1, 1)
 
# Predict using the model
predictions = model.predict(vals)
 
# Plot
plt.scatter(X, Y, color='blue', label='Data')
plt.plot(vals, predictions, color='red', label='Decision Tree Prediction')
plt.title('Decision Tree Regression Model')
plt.xlabel('Year')
plt.ylabel('Per Capita Income (US$)')
plt.legend()
plt.show()
					
				
			
		



决策树结构的可视化
了解树结构对于解释决策过程至关重要。




		
		
			
			
Java
			
			# Plot the decision tree
plt.figure(figsize=(25,15))
tree.plot_tree(model, fontsize=10, feature_names=['Year'], filled=True)
plt.title('Decision Tree Structure')
plt.show()
			
				
					
				
					1
2
3
4
5
				
						# Plot the decision tree
plt.figure(figsize=(25,15))
tree.plot_tree(model, fontsize=10, feature_names=['Year'], filled=True)
plt.title('Decision Tree Structure')
plt.show()
					
				
			
		




11. 理解欠拟合与过拟合
平衡模型复杂性至关重要。让我们探讨调整 max_depth 参数如何影响模型性能。
欠拟合：

  定义： 模型过于简单，既未能捕捉趋势也未能捕捉噪声。
  指标： 低R²分数，训练和测试数据上的性能均差。





		
		
			
			
Java
			
			# Initialize model with low max_depth
underfit_model = DecisionTreeRegressor(max_depth=2)
underfit_model.fit(X_train, y_train)
under_pred = underfit_model.predict(X_test)
under_r2 = r2_score(y_test, under_pred)
print(f"Underfitted Model R² Score: {under_r2:.2f}")
			
				
					
				
					1
2
3
4
5
6
				
						# Initialize model with low max_depth
underfit_model = DecisionTreeRegressor(max_depth=2)
underfit_model.fit(X_train, y_train)
under_pred = underfit_model.predict(X_test)
under_r2 = r2_score(y_test, under_pred)
print(f"Underfitted Model R² Score: {under_r2:.2f}")
					
				
			
		


输出：




		
		
			
			
Java
			
			Underfitted Model R² Score: 0.65
			
				
					
				
					1
				
						Underfitted Model R² Score: 0.65
					
				
			
		


可视化：

解释：

  模型未能捕捉基本趋势，导致预测不准确。

过拟合：

  定义： 模型过于复杂，捕捉到了趋势和噪声。
  指标： 在训练数据上具有高R²，但在测试数据上泛化能力差。





		
		
			
			
Java
			
			# Initialize model with high max_depth
overfit_model = DecisionTreeRegressor(max_depth=10)
overfit_model.fit(X_train, y_train)
over_pred = overfit_model.predict(X_test)
over_r2 = r2_score(y_test, over_pred)
print(f"Overfitted Model R² Score: {over_r2:.2f}")
			
				
					
				
					1
2
3
4
5
6
				
						# Initialize model with high max_depth
overfit_model = DecisionTreeRegressor(max_depth=10)
overfit_model.fit(X_train, y_train)
over_pred = overfit_model.predict(X_test)
over_r2 = r2_score(y_test, over_pred)
print(f"Overfitted Model R² Score: {over_r2:.2f}")
					
				
			
		


输出：




		
		
			
			
Java
			
			Overfitted Model R² Score: 0.92
			
				
					
				
					1
				
						Overfitted Model R² Score: 0.92
					
				
			
		


可视化：

解释：

  模型在训练数据上拟合得非常好，但由于其复杂性，可能在未见数据上表现不佳。

最佳深度：
找到一个平衡点，确保模型能够很好地泛化，而不会过于简单或过于复杂。

12. 结论
可视化决策树回归模型为其决策过程、性能以及潜在的陷阱（如欠拟合和过拟合）提供了宝贵的见解。通过调整 max_depth 等参数，您可以根据数据的复杂性调整模型的复杂性，确保预测的稳健性和可靠性。
关键要点：

  模型可视化： 对于可解释性和调试至关重要。
  欠拟合与过拟合： 平衡复杂性对于最佳性能至关重要。
  评估指标： 使用R²分数来量化模型性能。

运用这些可视化技术来增强您的数据科学项目，使您的模型不仅准确，而且透明和可信。

通过掌握决策树回归及其可视化，提升您的数据科学之旅。 敬请关注更多教程和见解，以提升您的分析技能！
	实际	预测
24	15755.82	15875.59
22	16412.08	17266.10
39	32755.18	37446.49
35	29198.06	25719.15
2	4251.17	3768.30
3	4804.46	5576.51
29	17581.02	16622.67
32	19232.18	18601.40
45	35175.19	41039.89
26	16699.83	16369.32