深度学习-Goodfellow

PhoenixGS
Jan 21, 2024
Last edited: 2024-1-23
type
Post
status
Published
date
Jan 21, 2024
slug
deep-learning-goodfellow
summary
tags
CS
人工智能
深度学习
机器学习
category
icon
password
Property
Jan 23, 2024 03:53 PM

线性代数

  • 主成分分析

分布

  • Multiboulli分布

信息论

  • 定义一个事件 自信息
  • 香农熵
    • 即期望信息量
  • KL散度(Kullback-Leibler divergence)
    • 对于同一个随机变量 有两个单独的概率分布 ,可以使用KL散度来衡量这两个分布的差异
  • 交叉熵

结构化概率模型

数值计算

上溢和下溢

  • softmax函数
    • 使用 来解决上溢和下溢,其中

病态条件

  • 条件数
    • 函数 ,当 具有特征值分解时,条件数为
      当该数很大时,矩阵求逆对输入的误差特别敏感

基于梯度的优化方法

  • 目标函数,损失函数,梯度下降法,学习率
  • Jacobian矩阵
    • 对于一个函数 的Jacobian矩阵 定义为
  • Hessian矩阵
    • 对于函数 ,Hessian矩阵定义为
      Hessian矩阵是对称矩阵
      Hessian矩阵等价于梯度的Jacobian矩阵
      在方向 上的二阶导数可以写成 (当 的特征向量,则二阶导数即为对应的特征值)
  • 近似二阶泰勒级数
    • 其中 为梯度, 是Hessian矩阵
      (学习率为 ),则有
    • 最优步长
  • 通过Hessian矩阵的特征值分解来确定局部情况
    • 正定,则为局部最小值点; 负定,则为局部最大值点;etc
  • 牛顿法
    • 梯度下降只用了梯度信息,在如峡谷的情形表现较差(条件数大)
      牛顿法利用包含了Hessian矩阵的信息
  • Lipschitz连续
  • 凸优化

约束优化

  • Karush-Kuhn-Tucker方法
    • 广义Lagrangian

机器学习基础

学习算法

  • 任务
  • 性能度量
    • 测试集
  • 经验
    • 数据集
    • 无监督学习算法
      • 显式或隐式地学习出概率分布
    • 监督学习算法
      • 标签
        预测 ,通常是估计
    • 两者可以互相转化
    • 半监督学习
    • 多实例学习
    • 强化学习
    • 数据集是样本的集合,样本是特征的集合
    • 设计矩阵
      • 每一行表示一个样本,每一列对应不同的特征

示例

  • 参数,即为权重
  • 均方误差

容量、过拟合和欠拟合

  • 泛化能力
  • 独立同分布假设
  • 数据生成分布
  • 决定效果因素
    • 降低训练误差(欠拟合)
    • 缩小训练误差和侧睡误差的差距(过拟合)
  • 模型的容量指其拟合各种函数的能力
  • 假设空间
    • 学习算法可以选择为解决方案的函数集
  • 表示容量和有效容量
  • Vapnik-Chervonenkis维度(VC维)
  • 参数模型和非参数模型
    • 最近邻回归
  • 贝叶斯误差
  • 正则化
    • 权重衰减
      • 带权重衰减的最小化目标函数
      • 例如在线性回归中,取
        • 表示我们对于小范数的权重偏好
    • 正则化一个学习函数 的模型,可以给代价函数添加被称为正则化项的惩罚

超参数和验证集

  • 如可用于控制容量的超参数。如果将之设为学习所得,则总是倾向于最大可能的模型容量
  • 验证集
    • 测试集的任何样本不能以任何形式参与到模型的选择中
      从训练集数据中构建验证集,将训练数据分成两个不相交的子集,其中一个用于学习参数,另一个作为验证集(一般80用于训练,20%用于验证)
  • 交叉验证
    • k-折交叉验证

估计、偏差和方差

  • 我的建议是直接看统计推断

最大似然估计

  • 最大似然估计
    • 等价于最小化交叉熵,等价于最小化KL散度
  • 条件对数似然
    • 条件最大似然估计是
      如果样本是独立同分布的,则可化为
  • 最大似然的性质
    • 真实分布 必须在模型族 中。否则,没有估计可以还原
    • 真实分布 必须刚好对应一个 值。否则,最大似然估计恢复出真实分布 后,也不能决定数据生成过程使用哪个
    • Cramer-Rao下界

贝叶斯统计

  • 训练数据有限时,贝叶斯方法通常泛化地更好,但是当训练样本数目很大时,通常会有很大的计算代价
  • 最大后验估计
    • 对应于权重衰减等正规化估计方法

监督学习算法

  • 概率监督学习
    • logistic回归(logistic regression)
      • 使用logistic sigmoid函数
  • 支持向量机
  • k-最近邻
  • 决策树

无监督学习方法

  • 最佳表示
    • 低维表示
    • 稀疏表示
    • 独立表示
  • 主成分分析
  • k-均值聚类

随机梯度下降

  • 核心思想
    • 负条件对数似然:
      则梯度下降需要计算的值为
      由于梯度是期望,所以可以使用小规模的样本来近似计算
      每次取出一小批量样本 ,梯度的估计值为 ,然后更新参数

构建机器学习算法

促使深度学习发展的挑战

  • 维数灾难
  • 局部不变性和平滑正则化
    • 先验信念
      • 平滑先验
      • 局部不变性先验
  • 流形学习
On Writing Well计算机网络原理