理解机器学习中的数据平衡

介绍

欢迎回来！在今天的讨论中，我们深入探讨机器学习的一个关键方面：数据平衡。虽然我们将涵盖基础概念，但请放心，更高级的主题如降维和SMOTE（合成少数类过采样技术）将在未来的讨论中出现。

在为机器学习模型进行数据预处理时，确保数据集是平衡的至关重要。平衡数据意味着数据集中的每个类别或分类都有同等的代表，这避免了任何单一类别在训练过程中占主导地位。

例如，考虑一个数据集，其中男性条目的出现频率是女性条目的九倍。这种不平衡可能会扭曲模型的预测，使其偏向多数类——在这种情况下是男性。这种偏见可能导致误导性的准确性指标。例如，如果您的数据中75%是男性，一个总是预测“男性”的模型将达到75%的准确率，而不管其实际的预测能力如何。

即使是轻微的不平衡也可能带来挑战：

三个类别的示例：假设您有三个类别——0、1和2，分布分别为29%、33%和38%。虽然这似乎相对平衡，但差异——例如九名男性对四名女性——仍可能显著影响模型性能。

不平衡的数据集可能导致：

在将数据划分为训练集和测试集之前，解决任何不平衡问题至关重要。如果不这样做，可能导致偏向性的划分，例如所有测试样本都属于多数类。这种情况不仅阻碍模型评估，还影响其在现实世界中的适用性。

主要有两种方法来应对不平衡数据：

欠采样：
- 定义：这种方法涉及减少多数类中的实例数量，以匹配少数类。
- 工作原理：随机选择并保留多数类的一个子集，同时丢弃其余部分。
- 优点：简化数据集并可以减少训练时间。
- 缺点：可能丢失有价值的信息，从而可能降低模型性能。
使用 imblearn 的示例：

Java

from imblearn.under_sampling import RandomUnderSampler rus = RandomUnderSampler(random_state=42) X_resampled, Y_resampled = rus.fit_resample(X, Y)

1
2
3
4

from imblearn.under_sampling import RandomUnderSampler

rus = RandomUnderSampler(random_state=42)
X_resampled, Y_resampled = rus.fit_resample(X, Y)
过采样：
- 定义：这种技术涉及增加少数类中的实例数量，以匹配多数类。
- 工作原理：生成合成样本或复制现有样本以增强少数类。
- 优点：保留多数类的所有信息。
- 缺点：可能导致过拟合，因为它复制了现有的少数类实例。
使用 imblearn 的示例：

Java

from imblearn.over_sampling import RandomOverSampler ros = RandomOverSampler(random_state=42) X_resampled, Y_resampled = ros.fit_resample(X, Y)

1
2
3
4

from imblearn.over_sampling import RandomOverSampler

ros = RandomOverSampler(random_state=42)
X_resampled, Y_resampled = ros.fit_resample(X, Y)

Python 中的 imblearn 库为欠采样和过采样提供了简单的工具。以下是安装和使用它的快速指南：

虽然随机欠采样和过采样简单且有效，但更复杂的方法如SMOTE可以通过生成合成样本而不仅仅是复制或丢弃现有样本来取得更好的效果。SMOTE 有助于为少数类创建更通用的决策边界，增强模型准确预测少数实例的能力。

平衡您的数据集是构建健壮且无偏的机器学习模型的基本步骤。通过采用欠采样和过采样等技术，您可以减轻不平衡数据的不利影响，从而提高性能和预测的可靠性。随着您的进展，探索像 SMOTE 这样的高级方法将进一步完善处理不平衡数据集的方法。

感谢您参加今天的讨论！请继续关注我们即将到来的会议中的更多见解和高级主题。祝您有愉快的一天，保重！