S03L01 – 鸢尾花数据集上的散点图

html
Seaborn、探索性数据分析 (EDA) 和 Iris 数据集简介

目录

    Seaborn：增强 Python 数据可视化
    探索性数据分析 (EDA)：揭示数据洞见
    Iris 数据集：数据科学中的经典案例
    实际操作：加载和可视化 Iris 数据集
    展望未来：使用成对图进行高级可视化
    结论


1. Seaborn：增强 Python 数据可视化

Seaborn 是一个建立在 Python 最古老且最广泛使用的绘图库之一Matplotlib之上的强大可视化库。虽然 Matplotlib 为创建静态、动画和交互式可视化提供了坚实的基础，但 Seaborn 通过提供更高级且美观的可视化，同时减少样板代码，扩展了其功能。

为什么使用 Seaborn？

    易用性：通过直观的函数简化复杂的可视化。
    增强美观性：内置主题和色彩调色板使图表更具视觉吸引力。
    与 Pandas 集成：与 Pandas DataFrame 无缝配合，使数据操作和可视化变得简单。


在接下来的模块中，我们将深入探讨 Seaborn 的功能，在 Matplotlib 的基础知识上构建更复杂的可视化。

2. 探索性数据分析 (EDA)：揭示数据洞见

探索性数据分析 (EDA) 是分析数据集以总结其主要特征的过程，通常使用可视化方法。EDA 是数据科学工作流程中的关键步骤，因为它有助于理解数据的基本结构、检测异常值、识别模式和检验假设。

EDA 的主要目标：

    理解数据分布：掌握数据点在不同变量上的分布情况。
    识别关系：发现变量之间的相关性和相互作用。
    检测异常值：发现可能表明数据质量问题的异常或不寻常的观测值。
    指导模型构建：提供指导选择适当建模技术的洞见。


通过执行 EDA，数据科学家可以就数据预处理、特征选择和模型选择做出明智的决策，确保后续分析基于对数据的深入理解。

3. Iris 数据集：数据科学中的经典案例

Iris 数据集 是数据科学和机器学习领域中最著名的数据集之一。由 Ronald Fisher 于 1936 年发布，它作为一个入门数据集，为学生和专业人士练习分类技术提供了基础。

数据集概览：

    
        总记录数
        类别
        特征
    
    
        150
        3（Iris-setosa, Iris-versicolor, Iris-virginica）
        
            
                花萼长度
                花萼宽度
                花瓣长度
                花瓣宽度
            
        
    


数据集中的每个类别都有 50 条记录，完美平衡，使其成为分类任务的理想选择，无需处理类别不平衡的问题。

为什么选择 Iris 数据集？

    简单性：其简洁的结构使其非常适合初学者。
    类别平衡：确保分类算法不会偏向于特定类别。
    信息丰富的特征：四个特征提供了足够的信息来区分三种 Iris 种类。


4. 实际操作：加载和可视化 Iris 数据集

让我们通过使用 Python 的 Jupyter Notebook 环境加载 Iris 数据集并进行可视化的过程。

步骤 1：导入必要的库




		
		
			
			
Java
			
			import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Enhance Matplotlib aesthetics with Seaborn
sns.set()
			
				
					
				
					1
2
3
4
5
6
7
				
						import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
 
# Enhance Matplotlib aesthetics with Seaborn
sns.set()
					
				
			
		



步骤 2：加载数据集




		
		
			
			
Java
			
			# Read the Iris data file
iris = pd.read_csv('Iris.data', header=None)

# Define column names based on the dataset description
column_names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']
iris.columns = column_names
			
				
					
				
					1
2
3
4
5
6
				
						# Read the Iris data file
iris = pd.read_csv('Iris.data', header=None)
 
# Define column names based on the dataset description
column_names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']
iris.columns = column_names
					
				
			
		



步骤 3：探索数据集




		
		
			
			
Java
			
			# Display the first few rows
print(iris.head())

# Check for the number of records in each class
print(iris['class'].value_counts())
			
				
					
				
					1
2
3
4
5
				
						# Display the first few rows
print(iris.head())
 
# Check for the number of records in each class
print(iris['class'].value_counts())
					
				
			
		


输出：




		
		
			
			
Java
			
			Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: class, dtype: int64
			
				
					
				
					1
2
3
4
				
						Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: class, dtype: int64
					
				
			
		



步骤 4：散点图可视化

可视化花萼长度与花萼宽度之间的关系：




		
		
			
			
Java
			
			sns.scatterplot(x='sepal_length', y='sepal_width', hue='class', data=iris)
plt.show()
			
				
					
				
					1
2
				
						sns.scatterplot(x='sepal_length', y='sepal_width', hue='class', data=iris)
plt.show()
					
				
			
		


这个散点图有助于识别不同 Iris 种类之间的模式和重叠。例如，Iris-setosa 点明显分离，而 Iris-versicolor 和 Iris-virginica 则存在一定的重叠。

使用 Plotly 的 3D 散点图

虽然 Seaborn 不直接支持 3D 绘图，但可以使用 Plotly 进行交互式 3D 可视化：




		
		
			
			
Java
			
			import plotly.express as px

fig = px.scatter_3d(iris, x='sepal_length', y='sepal_width', z='petal_length',
                    color='class', title='3D Scatter Plot of Iris Dataset')
fig.show()
			
				
					
				
					1
2
3
4
5
				
						import plotly.express as px
 
fig = px.scatter_3d(iris, x='sepal_length', y='sepal_width', z='petal_length',
                    color='class', title='3D Scatter Plot of Iris Dataset')
fig.show()
					
				
			
		


这个交互式图提供了更深入的洞察，展示了三个特征如何相互作用以区分不同的 Iris 种类。

5. 展望未来：使用成对图进行高级可视化

在后续模块中，我们将探讨 Seaborn 的 pairplot 功能，它通过为每对特征创建散点图矩阵，允许进行全面的视觉分析。这将使我们能够更详细地检查所有四个特征之间的关系，有助于更好地理解数据和构建模型。

为何选择成对图？

    全面分析：同时可视化多个特征对之间的关系。
    类别分离：轻松区分不同类别在各种特征组合中的聚类情况。
    检测多重共线性：识别可能影响模型性能的高度相关特征。


6. 结论

理解和可视化数据是数据科学的基础技能。像 Seaborn 这样的工具和 EDA 技术使数据专业人士能够从原始数据中提取有意义的洞见。Iris 数据集作为一个平衡且结构良好的数据集，为实践这些概念提供了一个极好的起点。随着我们继续前进，我们将基于这些基础知识开发更复杂的模型和分析。

感谢您的阅读！请继续关注我们即将发布的更多有见地的讨论文章。