统计推断

PhoenixGS
Oct 25, 2023
Last edited: 2024-1-20
11
type
Post
status
Published
date
Oct 25, 2023
slug
statistical-inference
summary
tags
Math
category
icon
password
Property
Jan 20, 2024 02:23 PM

随机样本的性质
随机样本的基本概念
- 随机样本
随机样本中随机变量的和
- 定义
设 是从总体中抽取的大小为 的随机样本, 是定义在 的样本空间上的实值或向量值函数,则随机变量或随机向量 称为一个统计量, 的概率分布称为 的抽样分布
- 定义
样本均值是随机样本值的算数平均,常记做
- 定义
样本方差是如下定义的统计量:
样本标准差定义为
- 定理
设 是任意 个数, ,则
- 引理
设 是从总体中抽取的随机样本,函数 使得 和 都存在,则
且
- 定理
设随机样本 取自期望为 ,方差为 的总体,则
- 定理
设随机样本 取自矩母函数为 的总体,则样本均值的矩母函数为
- 例(均值的分布)
- 定理
如果 和 是一对独立的连续随机变量,概率密度函数分别为 和 ,则 的概率密度函数为
- Cauchy随机变量的和
- 定理
设随机样本 取自概率密度函数为 的总体,其中
属于某指数分布族。定义统计量 为
如果集合 包含 的开子集,则 的分布是如下形式的指数族分布:
- 例(Bernoulli随机变量的和)
正态分布的抽样
样本均值与样本方差的性质
- 定理
- 和 是独立变量
- 服从 分布
- 服从自由度为 的 分布
设随机样本 取自服从 分布的总体, 且 ,则
- 引理(关于 随机变量的若干事实)
- 如果 是 随机变量,则 ,即标准正态随机变量的平方是 随机变量
- 如果 独立且 ,则 ,即独立的 随机变量之和仍为 随机变量,且其自由度为原随机变量自由度之和
以 记自由度为 的 随机变量
- 引理
- 随机变量 与 独立当且仅当 ,此外,还有
- 随机向量 与 独立当且仅当对任意 , 与 都独立
设 是随机独立变量,对任意常数 以及 ,其中 ,定义
表明对于由独立的正态随机变量的线性函数构成的随机变量,协方差等于 等价于独立
可推导正态分布 与 独立
导出分布: 分布与 分布
- 定义
设随机样本 取自服从 分布的总体,则称量 服从自由度为 的学生 分布。换言之,如果随机变量 的概率密度函数为
则称 服从自由度为 的学生 分布,记作
- 例(方差比值的分布)
- 定义( 分布)
次序统计量
- 定义
随机样本 的次序统计量是按升序排列的样本值,记作
样本极差
样本中位数
样本百分位数
- 定理
设随机样本 取自概率质量函数为 的离散型总体,其中 是 的所有可能的取值. 定义 ,以 记样本 的次序统计量,则
且
- 定理
设随机样本 取自累计分布函数为 ,概率密度函数为 的连续型总体, 为其次序统计量,则 的概率密度函数为
- 例(均匀次序统计量的概率密度函数)
- 定理
设随机样本 取自累积分布函数为 ,概率密度函数为 的连续型总体, 为其次序统计量,则 和 , 的联合概率密度函数为
- 全体次序统计量的联合概率密度函数
- \begin{equation}
f_{X_{(1)},\cdots,X_{(n)}}(x_1,\cdots,x_n)= \left\{ \begin{aligned}
n! f_X(x_1) \times \cdots \times f_X(x_n),\\
0, \\
\end{aligned}
\begin{aligned}
-\infty<x_1<\cdots<x_n<+\infty\\
other
\end{aligned}
\right.
\end{equation}
- 例(中程数与极差的分布)
收敛的概念
依概率收敛
- 定义
称随机变量序列 依概率收敛于随机变量 ,如果对任意 ,都有 或等价地,
- 定理(弱大数定律)
殆必收敛
依分布收敛
// TODO
下面这些是啥?忘记了
- 例
设 ,
- 例
,
- 例
,
- 例
,
- 例
设
定义
数据简化原理
充分性原理
- 充分性原理
如果 是 的一个充分统计量,则 的任意依赖于样本 的推断都可以经由值 完成
的充分统计量提取了样本中关于 的全部信息
充分统计量
- 定义
- 二项充分统计量
- 正态充分统计量
- 均匀充分统计量
- 充分次序统计量
如果样本 在已知统计量 取值时的条件分布与 无关,则称统计量 是 的充分统计量
不同的 可能会有不同的分布,从而能获得关于 的信息。如果已知了一些条件后的分布不会随着 变化了,那么也就是关于 的信息已经全部包含了
例
是 的充分统计量
是 的充分统计量
是 的充分统计量
- 定理
设 为样本 的联合概率密度函数, 为 的概率密度函数。如果对样本空间中的任意 ,比值 都是 的常函数,则 是 的充分统计量
由定义可得
- 因子分解定理
设 为样本 的联合概率密度函数,统计量 是 的充分统计量当且仅当存在函数 和 ,使得对任意样本点 以及参数 ,都有
可以考虑 取正值的集合,若与 有关,可帮助求充分统计量
对于向量同样成立
- 定理
设随机样本 取自概率密度函数为 的总体,其中 属指数族概率密度函数,其定义为:
其中 ,则
是 的充分统计量
极小充分统计量
- 定义
称充分统计量 是极小充分统计量 ,如果对其余任一充分统计量 , 都是 的函数. 即若 ,则必有
即极小充分统计量对应的划分是充分统计量中最粗的划分
- 定理
设 是样本 的概率密度函数. 如果存在函数 使得对任意两个样本点 和 ,比值 是 的常函数当且仅当 ,则 是 的极小充分量
判别极小充分量
同样可考虑 取正值的集合
辅助统计量
- 定义
- 均匀辅助统计量
- 位置族辅助统计量
- 尺度族辅助统计量
如果统计量 的分布与 无关,则称 为辅助统计量
单个辅助统计量不包含任何关于 的信息,但可以和其他统计量联合
例
是辅助统计量
是辅助统计量
是辅助统计量
充分统计量、辅助统计量与完全统计量
- 定义
设 是统计量 的概率密度函数,如果满足:对任意 都有 ,那么对任意 都有 ,则称该概率分布族是完全的,或称 是完全统计量
完全性是整个概率分布族而非某个特定分布的性质
- 定理(Basu定理)
设 是完全的极小充分统计量,则 与任意辅助统计量都独立
- 定理(指数族的完全统计量)
设随机变量 曲子概率密度函数为
的指数族总体,其中 .如果参数空间 包含 的开集,则统计量
是完全统计量
- 定理
如果极小充分统计量存在,则任意完全统计量都是极小充分统计量
Basu定理中的极小性可以去掉
似然原理
似然函数
- 定义
设 为样本 的联合概率密度(或质量)函数,如果观测到 ,则称 的函数 为似然函数。如果 是离散随机向量,则
- 似然原理
设样本点 和 满足 与 成比例,即存在某常数 使得对任意 有 ,则由 和 出发所作的关于 的推断完全相同
- 信仰推断
点估计
- 定义
样本的任何一个函数 称为一个点估计量,即任何一个统计量就是一个点估计量
求估计量的方法
矩法
- 阶样本矩与 阶总体矩相等
- Satterthwaite近似
极大似然估计量
- 似然函数
- 定义
对每一个固定的样本点 ,令 是参数 的一个取值,它使得 作为 的函数在该处达到最大值. 那么,基于样本 的极大似然估计量(MLE)就是
- 极大似然估计的不变性 若 是 的MLE,则对于 的任何函数 , 是 的MLE
Bayes估计量
- 先验分布后验分布
把先验分布记为 ,而把样本分布记为 ,那么后验分布时给定样本 的条件下 的条件分布,就是 ,这里 是 的边缘分布,由下式给出
可以用后验分布的均值来作为 的点估计
- 定义
- 贝塔分布族是二项分布族的共轭族
- 正态分布族是自身的共轭族
- 伽马分布是Poisson分布族的共轭族
设 是概率密度函数或概率质量函数 的类(以 为指标). 称一个先验分布类 为 的一个共轭族,如果对所有的 ,所有的 中的先验分布和所有的 ,其后验分布仍在 中
- 例
贝塔分布族是二项分布族的共轭族
估计量的评价方法
均方误差
- 定义
参数 的估计量 的均方误差(MSE)是由 定义的关于 的函数
- 定义
参数 的点估计量 的偏倚bias是指 的期望值与 之差, 。一个估计量如果它的偏倚恒等于0,则称为无偏差的,满足 对所有 成立
最佳无偏估计量
- 定义
估计量 称为 的最佳无偏估计量,如果它满足 对所有 成立,并且对任何一个其他的满足 的估计量 ,都有 对所有 成立. 也称为 的一致最小方差无偏估计量(UMVUE)
- (Cramer-Rao不等式)
设 是具有概率密度函数 的样本,令 是任意的一个估计量,满足 和 ,则有
- (Cramer-Rao不等式,iid情况)
如果上一个定理的假设满足,且 是 iid 的,具有概率密度函数 ,则
对于满足限制且 的估计量 的方差有一个下界,这个界仅依赖于 和 并且是方差的一致下界
- 引理
若 满足
(对一个指数族为真),则
- 达到下界 设 是 iid 的,具有概率密度函数 ,其 满足 Cramer-Rao 定理的条件。令 表示似然函数。如果 是 的任意一个无偏估计量,则 达到 Cramer-Rao 下界当且仅当
对某一函数 成立
考虑Cauchy不等式取等号条件
充分性和无偏性
- 定理 Rao-Blackwell
设 是 的任意一个无偏估计量,而 是关于 的一个充分统计量. 定义 . 则 而且 对所有 成立;即是说 是 的一个一致较优的无偏估计量
求最佳无偏估计量时只需考虑是充分统计量的函数的统计量
- 定理
如果 是 的一个最佳无偏估计量,则 是唯一的
- 定理
如果 , 是 的最佳无偏估计量当且仅当 与 的所有无偏估计量不相关
如果相关,则不能作为最佳无偏。如果不相关,由于 的无偏估计量(即噪声)方差非负,故是最佳无偏估计量
- 定理
设 是一个参数 的完全充分统计量而 是任意的一个仅基于 的估计量. 则 是其期望值的唯一最佳无偏估计量
若 是参数 的一个完全充分统计量, 是 的任意一个无偏估计量,则 是 的最佳无偏估计量
假设检验
- 定义
假设是关于总体参数的一个陈述
- 定义
一个假设检验问题中两个互补的假设成为原假设(零假设)和备择假设. 把它们分别记作 和
- 定义
- 对于哪些样本值应该决定接受 为真
- 对于哪些样本值应该拒绝 而接受 为真
假设检验过程是一个法则,它明确描述:
由拒绝 的样本构成的样本空间的子集叫做拒绝区域或者或者临界区域,拒绝区域的补集叫做接受区域
检验的求法
似然比检验(LRT)
- 定义
关于检验 对 的似然比检验统计量是
任何一个拒绝区域的形式为 的检验都叫做似然比检验(LRT),这里 是任意一个满足 的数
- 定理
设 是关于 的一个充分统计量,而 和 分别是依赖于 和 的LRT统计量,则对于样本空间内每一个 ,有
对 化简后结果应该仅通过充分统计量 依赖于
- 冗余参数
Bayes检验
- 如果 就接受 为真否则就拒绝 。拒绝区域是
并-交检验与交-并检验
- 并-交检验
在原假设被方便地表示成一个交集时有用
设 , 其中
假定有了关于每一个检验问题 对 的检验
设关于检验 的拒绝区域是 ,则关于并-交检验的拒绝区域就是
特别地,若每一个个别检验都具有 形式的拒绝区域,其中 不依赖于 ,则并-交检验的拒绝区域能够表示成 ,则关于 的检验统计量为
- 交-并检验
对称
检验的评价方法
错误概率与功效函数
接受 | 拒绝 | |
正确判决 | 第一类错误 | |
第二类错误 | 错误判决 |
- 定义
是一个拒绝区域为 的假设检验的功效函数
理想的功效函数:
- 定义
设 ,称一个功效函数为 的检验是真实水平为 的检验如果
- 定义
设 ,称一个功效函数为 的检验是水平为 的检验如果
- 定义
一个功效函数为 的检验是无偏的,如果对于每一个 和 有
即检验在 时比在 时更倾向于拒绝
最大功效检验
- 定义
设 是一个关于 对 的检验类. 中一个功效函数为 的检验是一个一致最大功效 类检验,如果对每个 与每个 中检验的功效函数 ,都有
即为UWP水平为 的检验
类 是全体水平为 的检验的类
- Neyman-Pearson引理
- 若 ,则
- 若 ,则
考虑检验 对 ,其中相应于 的概率密度函数或概率质量函数是 利用一个拒绝区域为 的检验, 满足对某个 :
则有
(充分性)任意满足条件123的检验,是一个UMP水平为 的检验
(必要性)如果存在一个满足条件123的检验,其中 ,则每一个UMP水平为 的检验是真实水平为 的检验而且每一个UMP水平为 的检验必满足条件12除去在一个使 的集合 上可能不满足
- 推论
- 若 ,则
- 若 ,则
若 是一个关于 的充分统计量, 是 的相应于 的概率密度函数或概率质量函数, ,则任何一个基于 的拒绝区域是 ( 的样本空间的一个子集)的检验,如果满足对某个
则它就是一个UMP水平为 的检验
- 定义
称一元随机变量 的概率密度函数或概率质量函数的族 关于实值参数 具有单调似然比(MLR),如果对于每一个 , 在 上都是 的单调函数。注意如果 定义
- Karlin-Rubin
考虑检验 对 。设 是一个关于 的充分统计量并且 的概率密度函数或概率质量函数的族 关于 具有MLR。则对于任何 ,“当且仅当 时拒绝 “的检验是一个UMP水平为 的检验,其中
- UIT(不知道有没有讲)
-值
- 定义 -值 是一个满足对每一个样本点 ,都有 的检验统计量,如果 的值小则可作为 为真的证据。一个 -值称为是有效的,如果对于每一个 和每一个 都有
- 定理 设 是这样一个检验统计量,如 的值大则可作为 为真的依据。对于每个样本点 定义 ,则 是一个有效的p-值
区间估计
- 定义
一个实值参数 的区间估计是样本的任意一对函数 和 ,对于所有的 满足 。如果观测到样本 ,就做出推断 。随机区间 叫做区间估计量 ( 区间可开可闭, 可在无穷远点)
- 定义
对于一个对参数 的区间估计量 , 的覆盖概率是指随机区间 覆盖真实参数 的概率。在符号上它记作 或
- 定义
对于一个参数 的区间估计量 , 的置信系数是指覆盖概率的下确界
- 区间估计量+度量(通常为置信系数)=置信区间
- 广义:置信区间→置信集合
区间估计量的求法
反转一个检验统计量
假设检验与区间估计有对应关系
假设检验是固定参数并询问什么样本值(接受区域)与该固定值相符合。置信集合固定样本值并询问什么参数值(置信区间)使得这个样本值好像最有道理
- 定理
对每一个 ,设 是 的一个水平为 的检验的接受区域。对每一个 ,在参数空间里定义一个集合 ,则随机集合 是一个 置信集合。
反之,设 是一个 置信集合。对任意的 ,定义 ,则 是 的一个水平为 的检验的接受区域
一族检验对应一个置信集合
枢轴量
- 定义
一个随机变量 是一个枢轴量或枢轴,如果 的分布独立于所有的参数。就是说,如果 ,则 对于所有的 值具有同样的分布
- 位置-尺度枢轴
- 设一个统计量 的概率密度函数 能够表示成如下形式
其中 是某个函数而 是某个单调(关于 )函数。则 是一个枢轴
区间估计量的评价方法
尺寸和覆盖概率
- 定理
- ,其中 是 的一个众数
设 是一个单峰的概率密度函数。如果区间 满足
则 是所有满足1.的区间中最短的
- Catalog
- About
0%