数值稳定性

数值稳定性是深度学习中比较重要的点，特别是当神经网络变得很深的时候，数值通常很容易变得不稳定。

神经网络的梯度

假设梯度都是一些比 1 大的数，比如 1.5，做 100 次乘积之后得到 $4 \times 10^{17}$ ，这个数字很容易带来一些浮点数上限的问题（需了解更多请参考计算机系统 - 计算机中浮点数的存储方式）。

值超出值域（infinity）
- 对于 16 位浮点数尤为严重（数值区间 [6e-5 , 6e4]），GPU 用 16 位浮点数更快
对学习率敏感
- 如果学习率太大 → 大参数值 → 更大的梯度，如此循环几次，容易导致梯度爆炸
- 如果学习率太小 → 训练无进展
- 我们可能需要在训练过程中不断调整学习率

假设梯度都是一些比 1 小的数，比如 0.8，做 100 次乘积之后得到 $2 \times 10^{- 10}$ ，也可能会带来浮点数下溢的问题。

梯度值变为 0
- 对 16 位浮点数尤为严重
训练没有进展
- 不管如何选择学习率，由于梯度已经为 0 了，学习率 x 梯度=0
对于底部层尤为严重
- 仅仅顶部层训练得较好。第 t 层导数包含 d-t 个矩阵乘积，越往底层走，t 越小，乘得越多，梯度消失越严重，所以底部层效果更差。
- 无法让神经网络更深。只能把顶部层训练得比较好，底部层跑不动，这和给一个浅的神经网络没有什么区别。

我们的一个核心目标是如何让训练更稳定，梯度值不要太大也不要太小

下面我们重点探讨最后一种方法：合理的权重初始和激活函数

让每层的均值/方差是一个常数

根据我们的假设，可以列出如下方程式：