S02L07 – 百分位数、矩和分位数

html

理解关键统计概念:百分比、百分位、四分位数和矩

目录

  1. 简介
  2. 百分比:基础知识
  3. 百分位:在数据中的定位
  4. 四分位数:划分数据集
  5. 矩:均值、方差、偏度和峰度
  6. 数据分布:正态与指数
  7. Python的实际实现
  8. 结论

简介

统计学是数据分析的基础,提供了解释和理解数据的工具和方法。百分比、百分位、四分位数和矩等关键统计量为数据分布、变异性和趋势提供了洞见。本文详细探讨了这些概念,展示了它们在现实场景中的重要性和应用,特别是在机器学习和数据可视化中。

百分比:基础知识

百分比 是一个简单的概念,表示100分之一的部分。它是一种无处不在的度量,用于在各种情境中表达比例、比较和变化。

计算百分比

计算百分比,使用公式:

\[ \text{Percentage} = \left( \frac{\text{Part}}{\text{Whole}} \right) \times 100 \]

例子:

  • 如果你得了 95分(满分100分),你的百分比是:

\[ \left( \frac{95}{100} \right) \times 100 = 95\% \]

  • 对于一个 150分(满分200分) 的成绩,百分比是:

\[ \left( \frac{150}{200} \right) \times 100 = 75\% \]

百分比在各种分析中都是基础性的,从学术评分到市场份额评估。

百分位:在数据中的定位

百分位数 表示一个值在数据集中的相对位置。它们将数据集划分为100个相等的部分,每部分代表1%。

理解百分位数

  • 第25百分位数 (Q1): 25%的数据点低于这个值。
  • 第50百分位数 (中位数或Q2): 50%的数据点低于这个值。
  • 第75百分位数 (Q3): 75%的数据点低于这个值。

实际例子:

考虑一个人口中的财富分布

  • 如果一个家庭的年收入处于第25百分位数,这意味着25%的家庭收入更少,75%的家庭收入更多。
  • 第50百分位数(中位数)时,半数人口收入较低,另一半收入较高。

可视化表示:

想象一个图表,其中x轴代表百分位数(1到99),y轴显示累积财富。这种图表有助于直观展示财富不平等,显示不同百分位数间财富是如何不成比例地累积的。

四分位数:划分数据集

四分位数 将一个数据集划分为四个相等的部分,每部分代表25%的数据。

四个关键四分位数

  1. 第一四分位数 (Q1): 25%的数据低于这个值。
  2. 第二四分位数 (Q2): 也称为中位数,50%的数据低于此。
  3. 第三四分位数 (Q3): 75%的数据低于这个值。
  4. 第四四分位数 (Q4): 最高的25%的数据点。

四分位数的重要性

四分位数在理解数据的离散程度和集中趋势方面起着关键作用。它们是构建箱线图的基础,箱线图可用于可视化分布、识别异常值并比较不同的数据集。

箱线图组成部分:

  • 箱体: 代表Q1和Q3之间的四分位距(IQR)。
  • 中位线: 位于箱体内,表示中位数(Q2)。
  • 须: 从Q1和Q3分别延伸到最小值和最大值,范围为1.5倍的IQR。
  • 异常值: 超出须的数据显示点。

矩:均值、方差、偏度和峰度

是与数据分布形状相关的量化指标。前四个矩提供了关于数据特性的有价值见解:

  1. 第一矩(均值): 平均值。
  2. 第二矩(方差): 衡量数据围绕均值的离散程度。
  3. 第三矩(偏度): 表示分布的不对称性。
  4. 第四矩(峰度): 描述分布的“尾部厚度”。

详细解释

1. 均值

均值 是所有数据点之和除以数据点的数量。它代表数据的中心值。

\[ \text{Mean} (\mu) = \frac{\sum_{i=1}^{N} x_i}{N} \]

2. 方差

方差 衡量数据点与均值的差异程度。

\[ \text{Variance} (\sigma^2) = \frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N} \]

较高的方差表示更大的离散程度。

3. 偏度

偏度 量化数据分布的不对称性。

  • 正偏: 尾部向右延伸;均值 > 中位数。
  • 负偏: 尾部向左延伸;均值 < 中位数。

\[ \text{Skewness} = \frac{\frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^3}{\sigma^3} \]

4. 峰度

峰度 衡量分布的“尾部厚度”。

  • 高峰度: 尾部有更多的数据;峰更尖锐。
  • 低峰度: 尾部有更少的数据;峰更平坦。

\[ \text{Kurtosis} = \frac{\frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^4}{\sigma^4} - 3 \]

*(减去3将标准正态分布的峰度归一化为零。)*

数据分布:正态与指数

理解数据分布在统计学和机器学习中至关重要,影响模型如何解释数据。

正态分布

通常被称为钟形曲线,正态分布关于均值对称,反映出靠近均值的数据更为频繁。

特征:

  • 均值 = 中位数 = 众数
  • 参数定义:均值 (μ) 和标准差 (σ)
  • 大约68%的数据位于均值±1σ范围内,95%位于均值±2σ范围内,99.7%位于均值±3σ范围内。

指数分布

指数分布 主要用于建模泊松过程中的事件间隔时间。它以单一参数 λ(速率)为特征。

特征:

  • 不对称: 右偏,具有长尾。
  • 无记忆性: 未来的概率与过去的事件无关。

比较:

虽然正态分布是对称的,但指数分布是偏斜的,使它们适用于不同类型的数据分析。

Python的实际实现

为了巩固对这些概念的理解,让我们使用Python的 numpymatplotlibscipy 库来探讨一个实际的例子。

生成和可视化数据

输出:

Histogram

计算矩

第一矩:均值

输出:

第二矩:方差

输出:

第三矩:偏度

输出:

* 表示略微的负偏度。*

第四矩:峰度

输出:

* 接近零,表明分布类似于正态分布。*

解释

  • 均值 (~0): 数据围绕零中心。
  • 方差 (~2.24): 表示数据点的分布范围。
  • 偏度 (~-0.00366): 几乎对称;略显负偏。
  • 峰度 (~0.01309): 相较于正态分布,扁平度可忽略不计。

结论

深入理解百分比、百分位、四分位数和矩等统计概念对于有效的数据分析和机器学习是不可或缺的。这些度量不仅提供了对数据分布和变异性的洞见,还支撑了先进的分析技术和模型构建过程。通过利用Python的 numpyscipy 等工具,实践者可以高效地计算和解释这些统计量,驱动明智的决策并促进数据驱动的成功。

无论您是在分析金融数据、评估人口统计,还是微调机器学习模型,这些基础统计都是稳健且富有洞察力的分析的基石。

进一步阅读

*通过掌握这些基本统计概念并将其应用于现实场景,增强您的数据之旅。*

分享你的喜爱