Post on: Aug 8, 2024Last edited: Dec 5, 2024Words 2735Read Time 7 min

type
status
date
slug
summary
tags
category
icon
password

深度学习基础

临界点及其种类

临界点:梯度为0的点 局部最小值及鞍点
notion image

批量和动量

批量梯度下降与随机梯度下降
notion image
小批量梯度下降
notion image
动量法
notion image
动量
notion image

自适应学习率

ADaGrad
梯度比较大的时候,学习率就减小,梯度比较小的时候,学习率就放大。
notion image
RMSProp
同一个参数的同个方向,学习率也是需要动态调整的
notion image
Adam
Adam 可以看作 RMSprop 加上动量,其使用动量作为参数更新方向,并且能够自适应调整学习率。

学习率调度

学习率调度中最常见的策略是学习率衰减(learning rate decay),也称为学习率退火(learning rateannealing)。
除了学习率下降以外,还有另外一个经典的学习率调度的方式———预热。预热的方法是让学习率先变大后变小.

分类

softmax
最小化交叉熵=最大化似然
notion image

实战:图像分类

模型
配置
加载数据
开始训练
测试
数据增强
t-SNE可视化
notion image

批量归一化

如果我们可以给不同的维度,同样的数值范围的话,那我们可能就可以制造比较好的误差表面,让训练变得比较容易一点其实有很多不同的方法,这些不同的方法往往就合起来统称为特征归一化(feature normalization)。
notion image
Z值归一化
notion image
notion image
​编辑深度学习的归一化
notion image
notion image
​编辑批量归一化
notion image
notion image
​编辑测试时的批量归一化
  • 取训练时的移动平均
notion image
notion image
​编辑内部协变量偏移:训练集和预测集样本分布不一致
批量归一化不一定能减少协变量偏移,但是可以平滑化误差表面

卷积神经网络

notion image
感受野的参数称为滤波器
卷积层=感受野+共享参数
图像经过各个滤波器得到的各组数字的集合称为特征映射,有几组数据就意味着有几个通道
下采样不影响模式检测
汇聚-减少运算量
 

Loading...
大模型逻辑推理

🗒️大模型逻辑推理


教师招聘考试

🗒️教师招聘考试