理解神经网络中的激活函数：目的、类型与应用

什么是激活函数？

激活函数是一种数学方程，用于确定神经网络中的神经元是否应该被激活。实质上，它定义了神经元在给定输入或一组输入情况下的输出。通过在模型中引入非线性，激活函数使神经网络能够学习和执行复杂的任务，如图像和语音识别、自然语言处理等。

激活函数在神经网络中的作用

神经网络的核心是处理输入以产生输出的神经元概念。每个神经元接收输入，对其应用权重，添加偏置，然后将结果通过激活函数。这一过程可以总结为：

加权求和：神经元计算其输入的加权和。
添加偏置：在加权和中添加一个偏置项以调整输出。
激活：将结果值通过激活函数以产生最终输出。

这一序列确保神经网络能够建模数据中的复杂非线性关系，这对于需要理解复杂模式的任务至关重要。

激活函数的目的

激活函数的主要目的是在网络中引入非线性。如果没有激活函数，无论神经网络有多深，其行为都将类似于一个简单的线性回归模型，从而极大地限制了其处理复杂任务的能力。

激活函数的主要目标：

非线性：使网络能够学习和建模非线性关系。
归一化：将输出缩放到特定范围，通常在0到1之间，促进训练过程中更快的收敛。
可微性：确保函数可以被微分，这是诸如反向传播等优化算法所必需的。

激活函数是如何工作的

为了理解激活函数的工作原理，让我们逐步分解这一过程：

输入计算：神经元接收来自前一层的输入，每个输入都乘以相应的权重。
求和：将这些加权输入求和，并在这个和中添加一个偏置。
激活：将得到的值通过激活函数，确定神经元的输出。

然后，该输出作为后续层的输入，信号进一步传递到网络的更深层。

示例说明

考虑神经网络中的一层，其中：

最小值：-4.79
最大值：2.34

当我们应用激活函数时，它会将这些值压缩到一个标准化的范围内，通常在0到1之间。这种归一化确保数据保持在可管理的范围内，防止训练过程中出现梯度爆炸或消失的问题。

常见的激活函数类型

有多种激活函数，每种都有其独特的特性和使用场景。以下是最常用的激活函数概述：

1. Sigmoid（逻辑）激活函数

公式:
\[ \sigma(x) = \frac{1}{1 + e^{-x}} \]

范围： (0, 1)

使用场景：二分类问题。

优点：

平滑的梯度。
输出在0和1之间。

缺点：

容易出现梯度消失。
不是零中心的。

2. 双曲正切（Tanh）激活函数

公式:
\[ \tanh(x) = \frac{2}{1 + e^{-2x}} – 1 \]

范围： (-1, 1)

使用场景：神经网络的隐藏层。

优点：

输出以零为中心。
梯度比 Sigmoid 更陡。

缺点：

仍然容易出现梯度消失。

3. 修正线性单元（ReLU）激活函数

公式:
\[ \text{ReLU}(x) = \max(0, x) \]

范围： [0, ∞)

使用场景：大多数隐藏层。

优点：

计算效率高。
减轻梯度消失问题。

缺点：

可能导致dying ReLU问题，即神经元变得不活跃。

4. 泄漏 ReLU 激活函数

公式:
\[ \text{Leaky ReLU}(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha x & \text{否则} \end{cases} \]
其中 \(\alpha\) 是一个小常数（例如 0.01）。

范围： (-∞, ∞)

使用场景：解决 dying ReLU 问题。

优点：

当单元不活跃时，允许存在小的、非零的梯度。

缺点：

引入了一个额外的超参数 (\(\alpha\))。

5. Softmax 激活函数

公式:
\[ \text{Softmax}(x_i) = \frac{e^{x_i}}{\sum_{j} e^{x_j}} \]

范围： (0, 1)，在所有类别中总和为 1。

使用场景：多分类问题。

优点：

将 logits 转换为概率。

缺点：

对异常值敏感。

选择合适的激活函数

选择适当的激活函数对于神经网络的性能和收敛性至关重要。以下是一些指导方针，帮助您做出明智的选择：

隐藏层：通常选择 ReLU 及其变种（Leaky ReLU、Parametric ReLU），因为它们效率高并且能够减轻梯度消失问题。
输出层：
- 二分类：Sigmoid 激活函数适合，因为它输出 0 和 1 之间的概率。
- 多分类：Softmax 激活函数理想，因为它通过提供类别的概率分布来处理多类问题。
- 回归任务：线性激活（无激活函数）通常用于允许网络预测广泛的数值范围。

实际示例：使用 Python 实现激活函数

利用TensorFlow和PyTorch等库，实施激活函数非常简单。以下是一个使用 TensorFlow 的简单示例：

import tensorflow as tf
from tensorflow.keras import layers, models

# Define a simple neural network model
model = models.Sequential([
    layers.Dense(128, input_shape=(784,), activation='relu'),  # Hidden layer with ReLU
    layers.Dense(64, activation='tanh'),                      # Hidden layer with Tanh
    layers.Dense(10, activation='softmax')                    # Output layer with Softmax
])

# Compile the model
model.compile(optimizer='adam',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

# Summary of the model
model.summary()

import tensorflow as tf

from tensorflow.keras import layers, models

# Define a simple neural network model

model = models.Sequential([

layers.Dense(128, input_shape=(784,), activation='relu'), # Hidden layer with ReLU

layers.Dense(64, activation='tanh'), # Hidden layer with Tanh

layers.Dense(10, activation='softmax') # Output layer with Softmax

])

# Compile the model

model.compile(optimizer='adam',

loss='categorical_crossentropy',

metrics=['accuracy'])

# Summary of the model

model.summary()

在此示例中：

隐藏层：使用 ReLU 和 Tanh 激活函数以引入非线性。
输出层：采用 Softmax 激活函数进行多分类。

常见挑战及解决方案

1. 梯度消失

问题：在深层网络中，如 Sigmoid 和 Tanh 等激活函数的梯度可能变得非常小，阻碍有效学习。

解决方案：使用如 ReLU 这样的激活函数，可以保持较大的梯度，促进更深层网络的更好训练。

2. Dying ReLU 问题

问题：在训练过程中，神经元有时会“死亡”，由于 ReLU 激活的负输入而持续输出零。

解决方案：实施 Leaky ReLU 或 Parametric ReLU，允许在输入为负时存在小的梯度，保持神经元的活跃。

结论

激活函数是神经网络的基石，使其能够建模和学习数据中的复杂模式。通过引入非线性，这些函数使模型能够应对从图像识别到自然语言处理的各种任务。根据任务的具体需求选择合适的激活函数，可以显著提升神经网络模型的性能和效率。

常见问题

1. 为什么不能在神经网络的所有层中使用线性激活函数？

在整个网络中使用线性激活函数会使整个模型等同于一个单层的线性模型，无论其深度如何。这大大限制了模型捕捉和表示数据中非线性模式的能力。

2. ReLU 和 Leaky ReLU 有什么区别？

ReLU 在负输入时输出零，而 Leaky ReLU 允许在负输入时存在小的、非零的梯度 (\(\alpha x\))，通过确保神经元在训练过程中保持活跃，从而缓解 dying ReLU 问题。

3. 什么时候应该使用 Softmax 激活函数？

Softmax 适用于需要在多个类别之间输出概率分布的多分类问题。它确保所有类别的概率总和为一。

4. 激活函数会影响训练速度吗？

是的，如 ReLU 这样的激活函数由于其非饱和性和计算效率，通常会导致训练过程中更快的收敛，相较于 Sigmoid 或 Tanh 等可能因梯度消失而导致训练速度较慢的函数。

5. 是否有新的或新兴的激活函数？

研究人员不断探索和开发新的激活函数，旨在改善训练动态和模型性能。例如，Swish 和 Mish 在特定场景下表现出有希望的结果。

通过掌握激活函数，您将更有能力设计不仅健壮且专为机器学习任务特定细微差别量身定制的神经网络。随着领域的进步，保持对激活函数发展的了解将继续增强您在构建最先进模型方面的能力。

S40L09 – 激活函数