May
30th,
2017
Google在ICML文中描述的非常清晰,即在每次SGD时,通过mini-batch来对相应的activation做规范化操作,使得结果(输出信号各个维度)的均值为0,方差为1。而最后的“scale and shift”操作则是为了让因训练所需而“刻意”加入的BN能够有可能还原最初的输入,从而保证整个network的capacity。
Batch Normalization作用:
-
允许网络使用较高的learning rate
-
移除或使用较低的dropout
-
降低L2权重衰减系数
-
取消Local Response Normalization层
-
减少图像扭曲的使用