Google在ICML文中描述的非常清晰,即在每次SGD时,通过mini-batch来对相应的activation做规范化操作,使得结果(输出信号各个维度)的均值为0,方差为1。而最后的“scale and shift”操作则是为了让因训练所需而“刻意”加入的BN能够有可能还原最初的输入,从而保证整个network的capacity。

Batch Normalization作用:

  1. 允许网络使用较高的learning rate

  2. 移除或使用较低的dropout

  3. 降低L2权重衰减系数

  4. 取消Local Response Normalization层

  5. 减少图像扭曲的使用


ShengYg

Step after step the ladder is ascended.


Tags •