深度学习-Goodfellow
PhoenixGS
Jan 21, 2024
Last edited: 2024-1-23
type
Post
status
Published
date
Jan 21, 2024
slug
deep-learning-goodfellow
summary
tags
CS
人工智能
深度学习
机器学习
category
icon
password
Property
Jan 23, 2024 03:53 PM
线性代数
- 主成分分析
分布
- Multiboulli分布
信息论
- 定义一个事件 的自信息为
- 香农熵
即期望信息量
- KL散度(Kullback-Leibler divergence)
对于同一个随机变量 有两个单独的概率分布 和 ,可以使用KL散度来衡量这两个分布的差异
- 交叉熵
有
结构化概率模型
数值计算
上溢和下溢
- softmax函数
使用 来解决上溢和下溢,其中
病态条件
- 条件数
函数 ,当 具有特征值分解时,条件数为
当该数很大时,矩阵求逆对输入的误差特别敏感
基于梯度的优化方法
- 目标函数,损失函数,梯度下降法,学习率
- Jacobian矩阵
对于一个函数 , 的Jacobian矩阵 定义为
- Hessian矩阵
对于函数 ,Hessian矩阵定义为
Hessian矩阵是对称矩阵
Hessian矩阵等价于梯度的Jacobian矩阵
在方向 上的二阶导数可以写成 (当 是 的特征向量,则二阶导数即为对应的特征值)
- 近似二阶泰勒级数
- 最优步长
其中 为梯度, 是Hessian矩阵
若 (学习率为 ),则有
- 通过Hessian矩阵的特征值分解来确定局部情况
正定,则为局部最小值点; 负定,则为局部最大值点;etc
- 牛顿法
梯度下降只用了梯度信息,在如峡谷的情形表现较差(条件数大)
牛顿法利用包含了Hessian矩阵的信息
- Lipschitz连续
- 凸优化
约束优化
- Karush-Kuhn-Tucker方法
- 广义Lagrangian
机器学习基础
学习算法
- 任务
- 性能度量
测试集
- 经验
- 无监督学习算法
- 监督学习算法
- 两者可以互相转化
- 半监督学习
- 多实例学习
- 强化学习
- 设计矩阵
数据集
显式或隐式地学习出概率分布
标签
从 预测 ,通常是估计
数据集是样本的集合,样本是特征的集合
每一行表示一个样本,每一列对应不同的特征
示例
- 参数,即为权重
- 均方误差
容量、过拟合和欠拟合
- 泛化能力
- 独立同分布假设
- 数据生成分布
- 决定效果因素
- 降低训练误差(欠拟合)
- 缩小训练误差和侧睡误差的差距(过拟合)
- 模型的容量指其拟合各种函数的能力
- 假设空间
学习算法可以选择为解决方案的函数集
- 表示容量和有效容量
- Vapnik-Chervonenkis维度(VC维)
- 参数模型和非参数模型
- 最近邻回归
- 贝叶斯误差
- 正则化
- 权重衰减
- 例如在线性回归中,取
- 正则化一个学习函数 的模型,可以给代价函数添加被称为正则化项的惩罚
带权重衰减的最小化目标函数
则 表示我们对于小范数的权重偏好
超参数和验证集
- 如可用于控制容量的超参数。如果将之设为学习所得,则总是倾向于最大可能的模型容量
- 验证集
测试集的任何样本不能以任何形式参与到模型的选择中
从训练集数据中构建验证集,将训练数据分成两个不相交的子集,其中一个用于学习参数,另一个作为验证集(一般80用于训练,20%用于验证)
- 交叉验证
- k-折交叉验证
估计、偏差和方差
- 我的建议是直接看统计推断
最大似然估计
- 最大似然估计
等价于最小化交叉熵,等价于最小化KL散度
- 条件对数似然
条件最大似然估计是
如果样本是独立同分布的,则可化为
- 最大似然的性质
- 真实分布 必须在模型族 中。否则,没有估计可以还原
- 真实分布 必须刚好对应一个 值。否则,最大似然估计恢复出真实分布 后,也不能决定数据生成过程使用哪个
- Cramer-Rao下界
贝叶斯统计
- 训练数据有限时,贝叶斯方法通常泛化地更好,但是当训练样本数目很大时,通常会有很大的计算代价
- 最大后验估计
对应于权重衰减等正规化估计方法
监督学习算法
- 概率监督学习
- logistic回归(logistic regression)
使用logistic sigmoid函数
- 支持向量机
- k-最近邻
- 决策树
无监督学习方法
- 最佳表示
- 低维表示
- 稀疏表示
- 独立表示
- 主成分分析
- k-均值聚类
随机梯度下降
- 核心思想
负条件对数似然:
则梯度下降需要计算的值为
由于梯度是期望,所以可以使用小规模的样本来近似计算
每次取出一小批量样本 ,梯度的估计值为 ,然后更新参数
构建机器学习算法
促使深度学习发展的挑战
- 维数灾难
- 局部不变性和平滑正则化
- 先验信念
- 平滑先验
- 局部不变性先验
- 流形学习
- Catalog
- About
0%