type
status
date
slug
summary
tags
category
icon
password
机器学习原理
Boosting & Bagging
用抽样的方式从原始样本中进行有放回的多次抽样(或者是抽特征),这种方法叫做Bootstraping,抽取k次每次抽取n个样本,这样就生成了k个样本容量为n的数据集。原始数据集中的样本可能是多次被抽到也可能是没有被抽到。
boosting与bagging不同的是,bagging是多个模型“并行”,voting决定结果;而boosting是多个模型串行,通过多个模型的结果相加得到最终的结果。
AdaBoosting方式每次使用的是全部的样本,每轮训练改变样本的权重。下一轮训练的目标是找到一个函数f 来拟合上一轮的残差。当残差足够小或者达到设置的最大迭代次数则停止。Boosting会减小在上一轮训练正确的样本的权重,增大错误样本的权重。(对的残差小,错的残差大)
梯度提升的Boosting方式是使用代价函数对上一轮训练出的模型函数f的偏导来拟合残差。
深度学习基础
临界点及其种类
临界点:梯度为0的点
局部最小值及鞍点

批量和动量
批量梯度下降与随机梯度下降

小批量梯度下降

动量法

动量

自适应学习率
ADaGrad
梯度比较大的时候,学习率就减小,梯度比较小的时候,学习率就放大。

RMSProp
同一个参数的同个方向,学习率也是需要动态调整的

Adam
Adam 可以看作 RMSprop 加上动量,其使用动量作为参数更新方向,并且能够自适应调整学习率。
学习率调度
学习率调度中最常见的策略是学习率衰减(learning rate decay),也称为学习率退火(learning rateannealing)。
除了学习率下降以外,还有另外一个经典的学习率调度的方式———预热。预热的方法是让学习率先变大后变小.
分类
softmax
最小化交叉熵=最大化似然

实战:图像分类
模型
配置
加载数据
开始训练
测试
数据增强
t-SNE可视化

批量归一化
如果我们可以给不同的维度,同样的数值范围的话,那我们可能就可以制造比较好的误差表面,让训练变得比较容易一点其实有很多不同的方法,这些不同的方法往往就合起来统称为特征归一化(feature normalization)。

Z值归一化

编辑深度学习的归一化

编辑批量归一化

编辑测试时的批量归一化
- 取训练时的移动平均

编辑内部协变量偏移:训练集和预测集样本分布不一致
批量归一化不一定能减少协变量偏移,但是可以平滑化误差表面
卷积神经网络

感受野的参数称为滤波器
卷积层=感受野+共享参数
图像经过各个滤波器得到的各组数字的集合称为特征映射,有几组数据就意味着有几个通道
下采样不影响模式检测
汇聚-减少运算量
- Author:Francis
- URL:https://deqiang.wang/article/ai
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!