type
status
date
slug
summary
tags
category
icon
password
深度学习基础
临界点及其种类
临界点:梯度为0的点
局部最小值及鞍点

批量和动量
批量梯度下降与随机梯度下降

小批量梯度下降

动量法

动量

自适应学习率
ADaGrad
梯度比较大的时候,学习率就减小,梯度比较小的时候,学习率就放大。

RMSProp
同一个参数的同个方向,学习率也是需要动态调整的

Adam
Adam 可以看作 RMSprop 加上动量,其使用动量作为参数更新方向,并且能够自适应调整学习率。
学习率调度
学习率调度中最常见的策略是学习率衰减(learning rate decay),也称为学习率退火(learning rateannealing)。
除了学习率下降以外,还有另外一个经典的学习率调度的方式———预热。预热的方法是让学习率先变大后变小.
分类
softmax
最小化交叉熵=最大化似然

实战:图像分类
模型
配置
加载数据
开始训练
测试
数据增强
t-SNE可视化

批量归一化
如果我们可以给不同的维度,同样的数值范围的话,那我们可能就可以制造比较好的误差表面,让训练变得比较容易一点其实有很多不同的方法,这些不同的方法往往就合起来统称为特征归一化(feature normalization)。

Z值归一化

编辑深度学习的归一化

编辑批量归一化

编辑测试时的批量归一化
- 取训练时的移动平均

编辑内部协变量偏移:训练集和预测集样本分布不一致
批量归一化不一定能减少协变量偏移,但是可以平滑化误差表面
卷积神经网络

感受野的参数称为滤波器
卷积层=感受野+共享参数
图像经过各个滤波器得到的各组数字的集合称为特征映射,有几组数据就意味着有几个通道
下采样不影响模式检测
汇聚-减少运算量
- Author:Francis
- URL:https://deqiang.wang/article/llm-dl
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!