S40L06 – 神经网络 – 激活值与过拟合概念

html
揭秘神经网络：理解参数、层级和激活函数

目录

    神经网络简介
    什么是神经网络？
    分解组件
        
            神经网络中的参数
                
                    参数数量
                
            
            激活值和函数
                
                    什么是激活？
                    激活函数
                
            
            神经网络中的层级
                
                    隐藏层与网络复杂性
                
            
            神经网络中的偏置
            泛化与过拟合
                
                    泛化
                    过拟合
                
            
        
    
    实际应用：从图像到神经网络
        
            步骤1：导入库
            步骤2：读取和预处理图像
            步骤3：理解数据框架
            步骤4：准备输入和输出层
        
    
    扩展复杂性：添加隐藏层
    结论
    附加资源


神经网络简介

神经网络是许多现代人工智能（AI）应用的基础，从图像识别到自然语言处理。这些网络受到人脑的启发，由相互连接的节点或“神经元”组成，共同解决复杂问题。理解神经网络的基本组件——如参数、层级和激活函数，对于设计有效的AI模型至关重要。

什么是神经网络？

归根结底，神经网络是一种通过相互连接的神经元层处理数据的计算模型。每个神经元执行简单的计算，将结果传递到后续层，直到生成最终输出。这种分层结构使神经网络能够学习和建模数据中的复杂关系。

分解组件

神经网络中的参数

参数是神经网络中可调节的组件，决定其性能。它们主要包括权重和偏置：


    权重：定义神经元之间连接强度的系数。调整权重使网络能够学习数据中的模式。
    偏置：即使输入值为零，偏置值也允许神经元激活，从而在模型的决策过程中提供灵活性。


参数数量

神经网络中的参数数量是影响其能力和复杂性的关键因素。例如，考虑一个具有输入层和输出层的简单网络：


    输入层：由与输入特征数量相对应的神经元组成（例如，图像中的像素）。
    输出层：由代表目标值或预测的神经元组成。


例如，大小为128x128像素的图像会产生16,384个输入神经元。如果输出层有10个神经元（例如，用于数字分类），仅权重的数量就会是163,840（16,384个输入 * 10个输出）。添加偏置会进一步增加参数数量。虽然对于简单的网络这个数字可能看起来可管理，但引入额外的隐藏层会指数级增加参数数量，在更深层次的架构中可能达到数百万。

激活值和函数

激活值决定了一个神经元是否应该被激活，本质上充当开/关开关。这个决定是基于激活函数做出的，激活函数为网络引入非线性，使其能够建模复杂的关系。

什么是激活？

在神经网络中，激活指的是在应用激活函数后神经元的输出。激活值是一个关键变量，影响神经元是否在网络中传递信息。

激活函数

激活函数决定了输入的加权和如何转化为激活值。常见的激活函数包括：


    Sigmoid：将输入值压缩到0和1之间。
    ReLU（线性整流单元）：如果输入为正，则直接输出输入值；否则，输出零。
    Tanh（双曲正切）：将输入值映射到-1和1之间。


激活函数的选择影响网络从数据中学习和泛化的能力。它们使神经网络能够捕捉非线性模式，这对于图像和语音识别等任务至关重要。

神经网络中的层级

神经网络被组织成多个层级，每个层级都有其独特的作用：


    输入层：接收初始数据。例如，128x128像素的图像有一个包含16,384个神经元的输入层。
    隐藏层：处理来自前一层的输入的中间层。添加隐藏层增加了网络的深度及其建模复杂模式的能力。
    输出层：产生最终的预测或分类。


隐藏层与网络复杂性

引入隐藏层会指数级增加参数数量。例如，添加两个隐藏层，分别有100和144个神经元，可以将参数数量提高到超过160万。虽然更深的网络可以捕捉更复杂的模式，但它们也需要更多的计算资源，并且如果管理不当，可能容易发生过拟合。

神经网络中的偏置

偏置是额外的参数，允许神经元移动激活函数，提供更多的灵活性。每个神经元通常都有自己的偏置，在训练过程中进行调整以最小化预测误差。

泛化与过拟合

泛化

泛化指的是模型在未见过的数据上表现良好的能力。它确保神经网络不仅仅是记住训练数据，而是能够将学到的模式应用于新的输入。

过拟合

过拟合发生在模型过于精确地学习了训练数据，包括其噪声和异常值，导致在新数据上的表现不佳。添加隐藏层等技术可以帮助提高泛化能力，但如果模型变得过于复杂，也会增加过拟合的风险。

实际应用：从图像到神经网络

让我们通过一个简单的例子，演示如何使用Python预处理图像并将其准备为神经网络的输入。

步骤1：导入库





		
		
			
			
Java
			
			import cv2
import pandas as pd
			
				
					
				
					1
2
				
						import cv2
import pandas as pd
					
				
			
		



步骤2：读取和预处理图像





		
		
			
			
Java
			
			# 加载图像
im = cv2.imread("Picture1.png")

# 转换为灰度图
gray = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY)

# 归一化像素值
df = pd.DataFrame(gray / 255)

# 四舍五入以提高可读性
df = df.round(2)
print(df)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
				
						# 加载图像
im = cv2.imread("Picture1.png")
 
# 转换为灰度图
gray = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY)
 
# 归一化像素值
df = pd.DataFrame(gray / 255)
 
# 四舍五入以提高可读性
df = df.round(2)
print(df)
					
				
			
		



步骤3：理解数据框架

生成的数据框架代表灰度图像的归一化像素值。每个值介于0和1之间，表示相应像素的强度。


    
        0
        1
        2
        3
        ...
        124
        125
        126
        127
    
    
        1.00
        1.00
        1.00
        1.00
        ...
        1.00
        1.00
        1.00
        1.00
    
    
        1.00
        1.00
        1.00
        1.00
        ...
        1.00
        1.00
        1.00
        1.00
    
    
    
        0.62
        0.37
        0.37
        0.15
        ...
        1.00
        1.00
        1.00
        1.00
    
    
        [128行 x 128列]
    


步骤4：准备输入和输出层





		
		
			
			
Java
			
			# 定义输入和输出层
input_layer = 16384  # 128x128像素
output_layer = 10     # 例如：10个目标类别
			
				
					
				
					1
2
3
				
						# 定义输入和输出层
input_layer = 16384  # 128x128像素
output_layer = 10     # 例如：10个目标类别
					
				
			
		



此设置表示一个具有16,384个输入神经元和10个输出神经元的神经网络，适用于多类分类等任务。

扩展复杂性：添加隐藏层

如前所示，引入隐藏层显著增加了参数数量。例如：





		
		
			
			
Java
			
			hidden_layer_1 = 100
hidden_layer_2 = 144

# 计算参数
parameters = (input_layer * hidden_layer_1) + (hidden_layer_1 * hidden_layer_2) + (hidden_layer_2 * output_layer)
biases = hidden_layer_1 + hidden_layer_2 + output_layer

total_parameters = parameters + biases
print(f"Total Parameters: {total_parameters}")
			
				
					
				
					1
2
3
4
5
6
7
8
9
				
						hidden_layer_1 = 100
hidden_layer_2 = 144
 
# 计算参数
parameters = (input_layer * hidden_layer_1) + (hidden_layer_1 * hidden_layer_2) + (hidden_layer_2 * output_layer)
biases = hidden_layer_1 + hidden_layer_2 + output_layer
 
total_parameters = parameters + biases
print(f"Total Parameters: {total_parameters}")
					
				
			
		



输出：





		
		
			
			
Java
			
			Total Parameters: 1600000+
			
				
					
				
					1
				
						Total Parameters: 1600000+
					
				
			
		



这种大幅增加强调了在设计网络架构时仔细平衡复杂性和性能的重要性。

结论

神经网络是人工智能领域中强大的工具，能够在各个领域解决复杂问题。理解其底层组件——如参数、层级和激活函数——对于创建有效且高效的模型至关重要。通过精心设计神经网络架构并采用防止过拟合的最佳实践，数据科学家可以充分利用这些模型的潜力，推动创新并取得显著成果。

敬请期待我们的下一期内容，我们将探讨滤波器大小、泛化技术以及增强神经网络鲁棒性的策略等高级概念。

附加资源


    深度学习基础
    神经网络与深度学习
    理解激活函数




感谢阅读！如果您觉得这篇文章有帮助，欢迎与您的同行分享，并关注我们关于神经网络和深度学习的最新内容。
0	1	2	3	...	124	125	126	127
1.00	1.00	1.00	1.00	...	1.00	1.00	1.00	1.00
1.00	1.00	1.00	1.00	...	1.00	1.00	1.00	1.00
0.62	0.37	0.37	0.15	...	1.00	1.00	1.00	1.00
[128行 x 128列]