深度学习进阶 | Life is elsewhere.

type

status

date

slug

summary

深度学习基础

临界点及其种类

临界点：梯度为0的点局部最小值及鞍点

批量和动量

批量梯度下降与随机梯度下降

小批量梯度下降

动量法

动量

自适应学习率

ADaGrad

梯度比较大的时候，学习率就减小，梯度比较小的时候，学习率就放大。

RMSProp

同一个参数的同个方向，学习率也是需要动态调整的

Adam

Adam 可以看作 RMSprop 加上动量，其使用动量作为参数更新方向，并且能够自适应调整学习率。

学习率调度

学习率调度中最常见的策略是学习率衰减（learning rate decay），也称为学习率退火（learning rateannealing）。

除了学习率下降以外，还有另外一个经典的学习率调度的方式———预热。预热的方法是让学习率先变大后变小.

分类

softmax

最小化交叉熵=最大化似然

实战：图像分类

模型

配置

加载数据

开始训练

测试

数据增强

t-SNE可视化

批量归一化

如果我们可以给不同的维度，同样的数值范围的话，那我们可能就可以制造比较好的误差表面，让训练变得比较容易一点其实有很多不同的方法，这些不同的方法往往就合起来统称为特征归一化（feature normalization）。

Z值归一化

编辑深度学习的归一化

编辑批量归一化

编辑测试时的批量归一化

取训练时的移动平均

编辑内部协变量偏移：训练集和预测集样本分布不一致

批量归一化不一定能减少协变量偏移，但是可以平滑化误差表面

卷积神经网络

感受野的参数称为滤波器

卷积层=感受野+共享参数

图像经过各个滤波器得到的各组数字的集合称为特征映射，有几组数据就意味着有几个通道

下采样不影响模式检测

汇聚-减少运算量