统计推断

PhoenixGS
Oct 25, 2023
Last edited: 2024-1-20
type
Post
status
Published
date
Oct 25, 2023
slug
statistical-inference
summary
tags
Math
category
icon
password
Property
Jan 20, 2024 02:23 PM
notion image

随机样本的性质

随机样本的基本概念

  • 随机样本

随机样本中随机变量的和

  • 定义
    • X1,,XnX_1,\cdots ,X_n 是从总体中抽取的大小为 nn 的随机样本, T(x1,,xn)T(x_1,\cdots,x_n) 是定义在 (X1,,Xn)(X_1,\cdots, X_n) 的样本空间上的实值或向量值函数,则随机变量或随机向量 Y=T(X1,,Xn)Y=T(X_1,\cdots,X_n) 称为一个统计量YY 的概率分布称为 YY抽样分布
  • 定义
    • 样本均值是随机样本值的算数平均,常记做
      X=X1+Xnn=1ni=1nXi\overline{X}=\frac{X_1+\cdots X_n}{n}=\frac{1}{n}\sum_{i=1}^n X_i
  • 定义
    • 样本方差是如下定义的统计量:
      S2=1n1i=1n(XiX)2S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2
      样本标准差定义为 S=S2S=\sqrt{S^2}
  • 定理
    • x1,,xnx_1,\cdots,x_n 是任意 nn 个数, xˉ=x1++xnn\bar{x}=\frac{x_1+\cdots +x_n}{n} ,则
      1. minai=1n(xia)2=i=1n(xixˉ)2\min_a\sum_{i=1}^n(x_i-a)^2=\sum_{i=1}^n(x_i-\bar{x})^2
      1. (n1)s2=i=1n(xixˉ)2=i=1nxi2nxˉ2(n-1)s^2=\sum_{i=1}^n(x_i-\bar{x})^2=\sum_{i=1}^n x_i^2-n\bar{x}^2
  • 引理
    • X1,,XnX_1,\cdots,X_n 是从总体中抽取的随机样本,函数 g(x)g(x) 使得 Eg(X1)\text{E}g(X_1)Varg(X1)\text{Var}g(X_1) 都存在,则
      E(i=1ng(Xi))=n(Eg(X1))\text{E}(\sum_{i=1}^ng(X_i))=n(\text{E}g(X_1))
      Var(i=1ng(Xi))=n(Varg(X1))\text{Var}(\sum_{i=1}^ng(X_i))=n(\text{Var}g(X_1))
  • 定理
    • 设随机样本 X1,,XnX_1,\cdots,X_n 取自期望为 μ\mu ,方差为 σ2<+\sigma^2<+\infty 的总体,则
      1. EX=μ\text{E}\overline{X}=\mu
      1. VarX=σ2n\text{Var}\overline{X}=\frac{\sigma^2}{n}
      1. ES2=σ2\text{E}S^2=\sigma^2
  • 定理
    • 设随机样本 X1,,XnX_1,\cdots,X_n 取自矩母函数为 MX(t)M_X(t) 的总体,则样本均值的矩母函数为 MX(t)=[MX(tn)]nM_{\overline{X}}(t)=[M_X(\frac{t}{n})]^n
  • 例(均值的分布)
  • 定理
    • 如果 XXYY 是一对独立的连续随机变量,概率密度函数分别为 fX(x)f_X(x)fY(y)f_Y(y) ,则 Z=X+YZ=X+Y 的概率密度函数为
      fZ(z)=+fX(w)fY(zw)dwf_Z(z)=\int_{-\infty}^{+\infty}f_X(w)f_Y(z-w)dw
  • Cauchy随机变量的和
  • 定理
    • 设随机样本 X1,,XnX_1,\cdots,X_n 取自概率密度函数为 f(xθ)f(x|\theta) 的总体,其中
      f(xθ)=h(x)c(θ)exp(i=1kwi(θ)ti(x))f(x|\theta)=h(x)c(\theta)\exp(\sum_{i=1}^kw_i(\theta)t_i(x))
      属于某指数分布族。定义统计量 T1,,TkT_1,\cdots,T_k
      Ti(X1,,Xn)=j=1nti(Xj),i=1,,kT_i(X_1,\cdots,X_n)=\sum_{j=1}^nt_i(X_j),i=1,\cdots,k
      如果集合 {(w1(θ),w2(θ),,wk(θ)),θΘ}\{(w_1(\theta),w_2(\theta),\cdots,w_k(\theta)),\theta\in\Theta\} 包含 Rk\mathbb{R}^k 的开子集,则 (T1,,Tk)(T_1,\cdots,T_k) 的分布是如下形式的指数族分布:
      fT(u1,,ukθ)=H(u1,,uk)[c(θ)]nexp(i=1kwi(θ)ui)f_T(u_1,\cdots,u_k|\theta)=H(u_1,\cdots,u_k)[c(\theta)]^n\exp(\sum_{i=1}^kw_i(\theta)u_i)
  • 例(Bernoulli随机变量的和)

正态分布的抽样

样本均值与样本方差的性质

  • 定理
    • 设随机样本 X1,,XnX_1,\cdots,X_n 取自服从 N(μ,σ2)N(\mu,\sigma^2) 分布的总体, X=i=1nXin\overline{X}=\frac{\sum_{i=1}^n X_i}{n}S2=i=1n(XiX)2n1S^2=\frac{\sum_{i=1}^n(X_i-\overline{X})^2}{n-1} ,则
      1. X\overline{X}S2S^2 是独立变量
      1. X\overline{X} 服从 N(μ,σ2n)N(\mu,\frac{\sigma^2}{n}) 分布
      1. (n1)S2σ2\frac{(n-1)S^2}{\sigma^2} 服从自由度为 n1n-1χ2\chi^2 分布
  • 引理(关于 χ2\chi^2 随机变量的若干事实)
    • χp2\chi_p^2 记自由度为 ppχ2\chi^2 随机变量
      1. 如果 ZZN(0,1)N(0,1) 随机变量,则 Z2χ12Z^2\sim \chi_1^2 ,即标准正态随机变量的平方是 χ2\chi^2 随机变量
      1. 如果 X1,,XnX_1,\cdots,X_n 独立且 Xiχpi2X_i\sim \chi_{p_i}^2 ,则 X1++Xnχp1++pn2X_1+\cdots+X_n\sim\chi_{p_1+\cdots+p_n}^2 ,即独立的 χ2\chi^2 随机变量之和仍为 χ2\chi^2 随机变量,且其自由度为原随机变量自由度之和
  • 引理
    • XjN(μj,σj2),j=1,,nX_j\sim N(\mu_j,\sigma_j^2),j=1,\cdots,n 是随机独立变量,对任意常数 aija_{ij} 以及 brjb_{rj} (j=1,,n;i=1,,k;r=1,,m)(j=1,\cdots,n;i=1,\cdots,k;r=1,\cdots,m) ,其中 k+mnk+m\leq n ,定义
      Ui=j=1naijXj,i=1,,kU_i=\sum_{j=1}^na_{ij}X_j,i=1,\cdots,kVr=j=1nbrjXj,r=1,,mV_r=\sum_{j=1}^nb_{rj}X_j,r=1,\cdots,m
      1. 随机变量 UiU_iVrV_r 独立当且仅当 Cov(Ui,Vr)=0Cov (U_i,V_r)=0 ,此外,还有 Cov(Ui,Vr)=j=1naijbrjσj2Cov(U_i,V_r)=\sum_{j=1}^n a_{ij}b_{rj}\sigma^2_j
      1. 随机向量 (U1,,Un)(U_1,\cdots,U_n)(V1,,Vm)(V_1,\cdots,V_m) 独立当且仅当对任意 i,r(i=1,,k;r=1,,m)i,r(i=1,\cdots,k;r=1,\cdots,m)UiU_iVrV_r 都独立
      💡
      表明对于由独立的正态随机变量的线性函数构成的随机变量,协方差等于 00 等价于独立
      可推导正态分布 X\overline{X}S2S^2 独立

导出分布: tt 分布与 FF 分布

  • 定义
    • 设随机样本 X1,,XnX_1,\cdots,X_n 取自服从 N(μ,σ2)N(\mu,\sigma^2) 分布的总体,则称量 XμSn\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}} 服从自由度为 n1n-1 的学生 tt 分布。换言之,如果随机变量 TT 的概率密度函数为
      fT(t)=Γ(p+12)Γ(p2)1pπ1(1+t2/p)(p+1)/2,<t<+f_T(t)=\frac{\Gamma(\frac{p+1}{2})}{\Gamma(\frac{p}{2})}\frac{1}{\sqrt{p\pi}}\frac{1}{(1+t^2/p)^{(p+1)/2}},-\infty<t<+\infty
      则称 TT 服从自由度为 pp 的学生 tt 分布,记作 TtpT\sim t_p
  • 例(方差比值的分布)
  • 定义( FF 分布)

次序统计量

  • 定义
    • 随机样本 X1,,XnX_1,\cdots,X_n次序统计量是按升序排列的样本值,记作 X(1),,X(n)X_{(1)},\cdots,X_{(n)}
      样本极差 R=X(n)X(1)R=X_{(n)}-X_{(1)}
      样本中位数 M=Xn+12,n is odd,Xn2+Xn2+12,n is evenM=X_\frac{n+1}{2},n\ is\ odd,\frac{X_\frac{n}{2}+X_{\frac{n}{2}+1}}{2},n\ is\ even
      样本百分位数
  • 定理
    • 设随机样本 X1,,XnX_1,\cdots,X_n 取自概率质量函数为 fX(xi)=pif_X(x_i)=p_i 的离散型总体,其中 x1<x2<x_1<x_2<\dotsXX 的所有可能的取值. 定义 Pi=k=1ipkP_i=\sum_{k=1}^i p_k ,以 X(1),,X(n)X_{(1)},\cdots,X_{(n)} 记样本 X1,,XnX_1,\cdots,X_n 的次序统计量,则
      P(X(j)xi)=k=jn(nk)Pik(1Pi)nkP(X_{(j)}\leq x_i)=\sum_{k=j}^n\binom{n}{k}P_i^k(1-P_i)^{n-k}
      P(X(j)=xi)=k=jn(nk)[Pik(1Pi)nkPi1k(1Pi1)nk]P(X_{(j)}=x_i)=\sum_{k=j}^n\binom{n}{k} [P_i^k(1-P_i)^{n-k}-P_{i-1}^k(1-P_{i-1})^{n-k}]
  • 定理
    • 设随机样本 X1,,XnX_1,\cdots,X_n 取自累计分布函数为 FX(x)F_X(x) ,概率密度函数为 fX(x)f_X(x) 的连续型总体, X(1),,X(n)X_{(1)},\cdots,X_{(n)} 为其次序统计量,则 X(j)X_{(j)} 的概率密度函数为
      fX(j)(x)=n!(j1)!(nj)!fX(x)[FX(x)]j1[1FX(x)]njf_{X(j)}(x)=\frac{n!}{(j-1)!(n-j)!}f_X(x)[F_X(x)]^{j-1}[1-F_X(x)]^{n-j}
  • 例(均匀次序统计量的概率密度函数)
  • 定理
    • 设随机样本 X1,,XnX_1,\cdots,X_n 取自累积分布函数为 FX(x)F_X(x) ,概率密度函数为 fX(x)f_X(x) 的连续型总体, X(1),,X(n)X_{(1)},\cdots,X_{(n)} 为其次序统计量,则 X(i)X_{(i)}X(j)X_{(j)}1i<jn1\leq i<j\leq n 的联合概率密度函数为
      fX(i),X(j)=n!(i1)!(j1i)!(nj)!fX(u)fX(v)[FX(u)]i1[FX(v)FX(u)]j1i[1FX(v)]nj,<u<v<+f_{X_{(i)},X_{(j)}}=\frac{n!}{(i-1)!(j-1-i)!(n-j)!}f_X(u)f_X(v)[F_X(u)]^{i-1}[F_X(v)-F_X(u)]^{j-1-i}[1-F_X(v)]^{n-j},-\infty<u<v<+\infty
  • 全体次序统计量的联合概率密度函数
    • \begin{equation} f_{X_{(1)},\cdots,X_{(n)}}(x_1,\cdots,x_n)= \left\{ \begin{aligned} n! f_X(x_1) \times \cdots \times f_X(x_n),\\ 0, \\ \end{aligned} \begin{aligned} -\infty<x_1<\cdots<x_n<+\infty\\ other \end{aligned} \right. \end{equation}
  • 例(中程数与极差的分布)

收敛的概念

依概率收敛

  • 定义
    • 称随机变量序列 X1,X2,X_1, X_2, \cdots 依概率收敛于随机变量 XX ,如果对任意 ϵ>0\epsilon>0 ,都有 limnP(XnXϵ)=0\lim_{n\to\infty}P(|X_n-X|\geq \epsilon)=0 或等价地, limnP(XnX<ϵ)=1\lim_{n\to\infty}P(|X_n-X|<\epsilon)=1
  • 定理(弱大数定律)

殆必收敛

依分布收敛

// TODO
下面这些是啥?忘记了
    • XnB(n,1n),n=1,2,X_n\sim B(n,\frac{1}{n}),n=1,2,\cdotsXddPoisson(1)X_d\stackrel{d}{\to} Poisson(1)
    • XnB(n,p)X_n\sim B(n,p)xnnpnp(1p)dN(0,1)\frac{x_n-n p}{\sqrt{n p(1-p)}}\stackrel{d}{\to} N(0,1)
    • Xniid.U(1,1),n=1,X_n\sim iid. U(-1,1),n=1,\cdotsnXσdN(0,1)\frac{\sqrt{n}\overline{X}}{\sigma}\stackrel{d}{\to} N(0,1)
    • XnBeta(1n,1n)X_n\sim Beta(\frac{1}{n},\frac{1}{n})XndB(1,12)X_n\stackrel{d}{\to} B(1,\frac{1}{2})
    • X1,,Xn,iid.N(0,1),n1X_1,\cdots,X_n,iid.N(0,1),n\geq 1
      定义 Rn=x1x2++x2n1x2nR_n=\frac{x_1}{x_2}+\cdots+\frac{x_{2n-1}}{x_{2n}}
      Dn=x12++xn2D_n=x_1^2+\cdots+x_n^2
      Tn=RnDnT_n=\frac{R_n}{D_n}
      Tn=Rn/nDnT_n=\frac{R_n/n}{D_n}
      Dnn1\frac{D_n}{n}\to 1
      TnSlutskyCauchy(0,1)LT_n\stackrel{Slutsky}{\to} \frac{Cauchy(0,1)}{L}
       

数据简化原理

充分性原理

  • 充分性原理
    • 如果 T(X)T(\mathbf{X})θ\theta 的一个充分统计量,则 θ\theta 的任意依赖于样本 X\mathbf{X} 的推断都可以经由值 T(X)T(\mathbf{X}) 完成
      💡
      θ\theta 的充分统计量提取了样本中关于 θ\theta 的全部信息

充分统计量

  • 定义
    • 如果样本 X\mathbf{X} 在已知统计量 T(X)T(\mathbf{X}) 取值时的条件分布与 θ\theta 无关,则称统计量 T(X)T(\mathbf{X})θ\theta充分统计量
      💡
      不同的 θ\theta 可能会有不同的分布,从而能获得关于 θ\theta 的信息。如果已知了一些条件后的分布不会随着 θ\theta 变化了,那么也就是关于 θ\theta 的信息已经全部包含了
      • 二项充分统计量
        • T(X)=X1++XnT(\bm{X})=X_1+\cdots+X_nθ\theta 的充分统计量
      • 正态充分统计量
        • T(X)=X=X1++XnnT(\bm{X})=\overline{X}=\frac{X_1+\cdots+X_n}{n}μ\mu 的充分统计量
      • 均匀充分统计量
        • T(X)=maxiXiT(\bm{X})=\max_i X_iθ\theta 的充分统计量
      • 充分次序统计量
  • 定理
    • p(xθ)p(\bm{x}|\theta) 为样本 X\bm{X} 的联合概率密度函数, q(tθ)q(t|\theta)T(X)T(\bm{X}) 的概率密度函数。如果对样本空间中的任意 x\bm{x} ,比值 p(xθ)q(T(x)θ)\frac{p(\bm{x}|\theta)}{q(T(\bm{x})|\theta)} 都是 θ\theta 的常函数,则 T(X)T(\bm{X})θ\theta 的充分统计量
      💡
      由定义可得
  • 因子分解定理
    • f(xθ)f(\bm{x}|\theta) 为样本 X\bm{X} 的联合概率密度函数,统计量 T(X)T(\bm{X})θ\theta 的充分统计量当且仅当存在函数 g(tθ)g(t|\theta)h(x)h(\bm{x}) ,使得对任意样本点 x\bm{x} 以及参数 θ\theta ,都有 f(xθ)=g(T(x)θ)h(x)f(\bm{x}|\theta)=g(T(\bm{x})|\theta)h(\bm{x})
      💡
      可以考虑 ff 取正值的集合,若与 θ\theta 有关,可帮助求充分统计量 对于向量同样成立
  • 定理
    • 设随机样本 X1,,XnX_1,\cdots,X_n 取自概率密度函数为 f(xθ)f(x|\theta) 的总体,其中 f(xθ)f(x|\theta) 属指数族概率密度函数,其定义为:
      f(xθ)=h(x)c(θ)exp(i=1kwi(θ)ti(x))f(x|\bm{\theta})=h(x)c(\bm{\theta})\exp(\sum_{i=1}^kw_i(\bm{\theta})t_i(x))
      其中 θ=(θ1,θ2,,θd),dk\theta=(\theta_1,\theta_2,\cdots,\theta_d),d\leq k ,则
      T(X)=(j=1nt1(Xj),j=1ntk(Xj))T(\bm{X})=(\sum_{j=1}^nt_1(X_j),\cdots\sum_{j=1}^n t_k(X_j))
      θ\bm{\theta} 的充分统计量

极小充分统计量

  • 定义
    • 称充分统计量 T(X)T(\bm{X})极小充分统计量 ,如果对其余任一充分统计量 T(X)T'(\bm{X})T(X)T(\bm{X}) 都是 T(X)T'(X) 的函数. 即若 T(x)=T(y)T'(x)=T'(y) ,则必有 T(x)=T(y)T(x)=T(y)
      即极小充分统计量对应的划分是充分统计量中最粗的划分
  • 定理
    • f(xθ)f(\bm{x}|\theta) 是样本 X\bm{X} 的概率密度函数. 如果存在函数 T(x)T(\bm{x}) 使得对任意两个样本点 x\bm{x}y\bm{y} ,比值 f(xθ)f(yθ)\frac{f(\bm{x}|\theta)}{f(\bm{y}|\theta)}θ\theta 的常函数当且仅当 T(x)=T(y)T(\bm{x})=T(\bm{y}) ,则 T(X)T(\bm{X})θ\theta 的极小充分量
      💡
      判别极小充分量 同样可考虑 ff 取正值的集合

辅助统计量

  • 定义
    • 如果统计量 S(X)S(\bm{X}) 的分布与 θ\theta 无关,则称 S(X)S(\bm{X})辅助统计量
      💡
      单个辅助统计量不包含任何关于 θ\theta 的信息,但可以和其他统计量联合
      • 均匀辅助统计量
        • R=X(n)X(1)R=X_{(n)}-X_{(1)} 是辅助统计量
      • 位置族辅助统计量
        • R=X(n)X(1)R=X_{(n)}-X_{(1)} 是辅助统计量
      • 尺度族辅助统计量
        • S(X)=(X1Xn,,Xn1Xn)S(\bm{X})=(\frac{X_1}{X_n},\cdots,\frac{X_{n-1}}{X_n}) 是辅助统计量

充分统计量、辅助统计量与完全统计量

  • 定义
    • f(tθ)f(t|\theta) 是统计量 T(X)T(\bm{X}) 的概率密度函数,如果满足:对任意 θ\theta 都有 Eθg(T)=0\text{E}_\theta g(T)=0 ,那么对任意 θ\theta 都有 Pθ(g(T)=0)=1\text{P}_\theta (g(T)=0)=1 ,则称该概率分布族是完全的,或称 T(X)\bm{T}(\bm{X})完全统计量
      完全性是整个概率分布族而非某个特定分布的性质
  • 定理(Basu定理)
    • T(X)T(\bm{X}) 是完全的极小充分统计量,则 T(X)T(\bm{X}) 与任意辅助统计量都独立
  • 定理(指数族的完全统计量)
    • 设随机变量 X1,,XnX_1,\cdots,X_n 曲子概率密度函数为
      f(xθ)=h(x)c(θ)exp(j=1kw(θj)tj(x))f(x|\bm{\theta})=h(x)c(\bm{\theta})\exp(\sum_{j=1}^k w(\theta_j)t_j(x))
      的指数族总体,其中 θ=(θ1,θ2,,θk)\bm{\theta}=(\theta_1,\theta_2,\cdots,\theta_k) .如果参数空间 Θ\Theta 包含 Rk\mathbb{R}^k 的开集,则统计量
      T(X)=(i=1nt1(Xi),i=1nt2(Xi),,i=1ntk(Xi))T(\bm{X})=(\sum_{i=1}^n t_1(X_i),\sum_{i=1}^n t_2(X_i),\cdots,\sum_{i=1}^n t_k(X_i))
      是完全统计量
  • 定理
    • 如果极小充分统计量存在,则任意完全统计量都是极小充分统计量
      💡
      Basu定理中的极小性可以去掉

似然原理

似然函数

  • 定义
    • f(xθ)f(\bm{x}|\theta) 为样本 X=(X1,,Xn)\bm{X}=(X_1,\cdots,X_n) 的联合概率密度(或质量)函数,如果观测到 X=x\bm{X}=\bm{x} ,则称 θ\theta 的函数 L(θx)=f(xθ)L(\theta|\bm{x})=f(\bm{x}|\theta)似然函数。如果 X\bm{X} 是离散随机向量,则 L(θx)=Pθ(X=x)L(\theta|\bm{x})=P_\theta(\bm{X}=\bm{x})
  • 似然原理
    • 设样本点 x\bm{x}y\bm{y} 满足 L(θx)L(\theta|\bm{x})L(θy)L(\theta|\bm{y}) 成比例,即存在某常数 C(x,y)C(\bm{x},\bm{y}) 使得对任意 θ\thetaL(θx)=C(x,y)L(θy)L(\theta|\bm{x})=C(\bm{x},\bm{y})L(\theta|\bm{y}) ,则由 x\bm{x}y\bm{y} 出发所作的关于 θ\theta 的推断完全相同
  • 信仰推断

点估计

  • 定义
    • 样本的任何一个函数 W(X1,,Xn)W(X_1,\cdots,X_n) 称为一个点估计量,即任何一个统计量就是一个点估计量

求估计量的方法

矩法

  • kk 阶样本矩与 kk 阶总体矩相等
  • Satterthwaite近似

极大似然估计量

  • 似然函数
    • L(θx)=L(θ1,,θkx1,,xn)=i=1nf(xiθ1,,θk)L(\theta | \bm{x})=L(\theta_1,\cdots,\theta_k|x_1,\cdots,x_n)=\prod_{i=1}^n f(x_i|\theta_1,\cdots,\theta_k)
  • 定义
    • 对每一个固定的样本点 x\bm{x} ,令 θ^(x)\hat{\theta}(\bm{x}) 是参数 θ\theta 的一个取值,它使得 L(θx)L(\theta|\bm{x}) 作为 θ\theta 的函数在该处达到最大值. 那么,基于样本 X\bm{X} 的极大似然估计量(MLE)就是 θ^(X)\hat{\theta}(\bm{X})
  • 极大似然估计的不变性 若 θ^\hat{\theta}θ\theta 的MLE,则对于 θ\theta 的任何函数 τ(θ)\tau(\theta)τ(θ^)\tau(\hat{\theta})τ(θ)\tau(\theta) 的MLE

Bayes估计量

  • 先验分布后验分布
    • 把先验分布记为 π(θ)\pi(\theta) ,而把样本分布记为 f(xθ)f(\bm{x}|\theta) ,那么后验分布时给定样本 x\bm{x} 的条件下 θ\theta 的条件分布,就是 π(θx)=f(xθ)π(θ)/m(x)\pi(\theta|\bm{x})=f(\bm{x}|\theta)\pi(\theta)/m(\bm{x}) ,这里 m(x)m(\bm{x})X\bm{X} 的边缘分布,由下式给出 m(x)=f(xθ)π(θ)dθm(\bm{x})=\int f(\bm{x}|\theta)\pi(\theta)d\theta
      可以用后验分布的均值来作为 θ\theta 的点估计
  • 定义
    • F\mathcal{F} 是概率密度函数或概率质量函数 f(xθ)f(x|\theta) 的类(以 θ\theta 为指标). 称一个先验分布类 Π\PiF\mathcal{F} 的一个共轭族,如果对所有的 fFf\in\mathcal{F} ,所有的 Π\Pi 中的先验分布和所有的 xXx\in X ,其后验分布仍在 Π\Pi
    • 贝塔分布族是二项分布族的共轭族
    • 正态分布族是自身的共轭族
    • 伽马分布是Poisson分布族的共轭族
    • 贝塔分布族是二项分布族的共轭族

估计量的评价方法

均方误差

  • 定义
    • 参数 θ\theta 的估计量 WW 的均方误差(MSE)是由 Eθ(Wθ)2E_\theta(W-\theta)^2 定义的关于 θ\theta 的函数
  • Eθ(Wθ)2=VarθW+(EθWθ)2=VarθW+(BiasθW)2E_\theta(W-\theta)^2=Var_\theta W+(E_\theta W-\theta)^2=Var_\theta W+(Bias_\theta W)^2
  • 定义
    • 参数 θ\theta 的点估计量 WW 的偏倚bias是指 WW 的期望值与 θ\theta 之差, BiasθW=EθWθBias_\theta W=E_\theta W-\theta 。一个估计量如果它的偏倚恒等于0,则称为无偏差的,满足 EθW=θE_\theta W=\theta 对所有 θ\theta 成立

最佳无偏估计量

  • 定义
    • 估计量 WW^* 称为 τ(θ)\tau(\theta) 的最佳无偏估计量,如果它满足 EθW=τ(θ)E_\theta W=\tau(\theta) 对所有 θ\theta 成立,并且对任何一个其他的满足 Eθ(W)=τ(θ)E_\theta(W)=\tau(\theta) 的估计量 WW ,都有 VarθWVarθW\text{Var} _\theta W^*\leq \text{Var} _\theta W 对所有 θ\theta 成立. WW^* 也称为 τ(θ)\tau(\theta) 的一致最小方差无偏估计量(UMVUE)
  • (Cramer-Rao不等式)
    • X1,,XnX_1,\cdots,X_n 是具有概率密度函数 f(xθ)f(\bm{x}|\theta) 的样本,令 W(X)=W(X1,,Xn)W(\bm{X})=W(X_1,\cdots,X_n) 是任意的一个估计量,满足 ddθEθW(X)=Xθ[W(x)f(xθ)]dx\frac{d}{d\theta}E_\theta W(\bm{X})=\int_X \frac{\partial}{\partial \theta} [W(\bm{x})f(\bm{x}|\theta)]dxVarθW(X)<\text{Var}_\theta W(\bm{X})<\infty ,则有
      Varθ(W(x))(ddθEθW(X))2Eθ((θlogf(Xθ))2)\text{Var}_\theta (W(\bm{x}))\geq \frac{(\frac{d}{d\theta} E_\theta W(\bm{X}))^2}{E_\theta ((\frac{\partial}{\partial \theta}\log f(\bm{X}|\theta))^2)}
  • (Cramer-Rao不等式,iid情况)
    • 如果上一个定理的假设满足,且 X1,,XnX_1,\cdots,X_n 是 iid 的,具有概率密度函数 f(xθ)f(x|\theta) ,则
      Varθ(W(X))(ddθEθW(X))2nEθ((θlogf(Xθ))2)\text{Var}_\theta(W(\bm{X}))\geq \frac{(\frac{d}{d\theta}E_\theta W(\bm{X}))^2}{nE_\theta ((\frac{\partial}{\partial \theta}\log f(X|\theta))^2)}
      💡
      对于满足限制且 EθW=τ(θ)E_\theta W=\tau(\theta) 的估计量 WW 的方差有一个下界,这个界仅依赖于 τ(θ)\tau(\theta)f(xθ)f(x|\theta) 并且是方差的一致下界
  • 引理
    • f(xθ)f(x|\theta) 满足
      ddθEθ(θlogf(Xθ))=θ[(θlogf(xθ))f(xθ)]dx\frac{d}{d\theta} E_\theta (\frac{\partial}{\partial\theta}\log f(X|\theta))=\int \frac{\partial}{\partial\theta} [(\frac{\partial}{\partial\theta}\log f(x|\theta))f(x|\theta)]dx
      (对一个指数族为真),则
      Eθ((θlogf(Xθ))2)=Eθ(2θ2logf(Xθ))E_\theta((\frac{\partial}{\partial\theta}\log f(X|\theta))^2)=-E_\theta (\frac{\partial^2}{\partial\theta^2}\log f(X|\theta))
  • 达到下界 设 X1,,XnX_1,\cdots, X_n 是 iid 的,具有概率密度函数 f(xθ)f(x|\theta) ,其 f(xθ)f(x|\theta) 满足 Cramer-Rao 定理的条件。令 L(θx)=i=1nf(xiθ)L(\theta|\bm{x})=\prod_{i=1}^n f(x_i|\theta) 表示似然函数。如果 W(X)=W(X1,,Xn)W(\bm{X})=W(X_1,\cdots, X_n)τ(θ)\tau(\theta) 的任意一个无偏估计量,则 W(X)W(\bm{X}) 达到 Cramer-Rao 下界当且仅当
    • a(θ)[W(x)τ(θ)]=θlogL(θx)a(\theta)[W(\bm{x})-\tau(\theta)]=\frac{\partial}{\partial \theta} \log L(\theta|\bm{x})
      对某一函数 A(θ)A(\theta) 成立
      💡
      考虑Cauchy不等式取等号条件

充分性和无偏性

💡
EX=E[E(XY)],VarX=Var[E(XY)]+E[Var(XY)]EX=E[E(X|Y)],VarX=Var[E(X|Y)]+E[Var(X|Y)]
  • 定理 Rao-Blackwell
    • WWτ(θ)\tau(\theta) 的任意一个无偏估计量,而 TT 是关于 θ\theta 的一个充分统计量. 定义 ϕ(T)=E(WT)\phi(T)=E(W|T) . 则 Eθϕ(T)=τ(θ)E_\theta \phi(T)=\tau(\theta) 而且 Varθϕ(T)VarθWVar_\theta \phi(T)\leq Var_\theta W 对所有 θ\theta 成立;即是说 ϕ(T)\phi(T)τ(θ)\tau(\theta) 的一个一致较优的无偏估计量
      💡
      求最佳无偏估计量时只需考虑是充分统计量的函数的统计量
  • 定理
    • 如果 WWτ(θ)\tau(\theta) 的一个最佳无偏估计量,则 WW 是唯一的
  • 定理
    • 如果 EθW=τ(θ)E_\theta W=\tau(\theta)WWτ(θ)\tau(\theta) 的最佳无偏估计量当且仅当 WW00 的所有无偏估计量不相关
      💡
      如果相关,则不能作为最佳无偏。如果不相关,由于 00 的无偏估计量(即噪声)方差非负,故是最佳无偏估计量
  • 定理
    • TT 是一个参数 θ\theta完全充分统计量而 ϕ(T)\phi(T) 是任意的一个仅基于 TT 的估计量. 则 ϕ(T)\phi(T) 是其期望值的唯一最佳无偏估计量
      💡
      TT 是参数 θ\theta 的一个完全充分统计量, h(X1,,Xn)h(X_1,\cdots,X_n)τ(θ)\tau(\theta) 的任意一个无偏估计量,则 ϕ(T)=E(h(X1,,Xn)T)\phi(T)=E(h(X_1,\cdots,X_n)|T)τ(θ)\tau(\theta) 的最佳无偏估计量

假设检验

  • 定义
    • 假设是关于总体参数的一个陈述
  • 定义
    • 一个假设检验问题中两个互补的假设成为原假设(零假设)和备择假设. 把它们分别记作 H0H_0H1H_1
  • 定义
    • 假设检验过程是一个法则,它明确描述:
      1. 对于哪些样本值应该决定接受 H0H_0 为真
      1. 对于哪些样本值应该拒绝 H0H_0 而接受 H1H_1 为真
      由拒绝 H0H_0 的样本构成的样本空间的子集叫做拒绝区域或者或者临界区域,拒绝区域的补集叫做接受区域

检验的求法

似然比检验(LRT)

  • 定义
    • 关于检验 H0:θΘ0H_0:\theta \in \Theta_0H1:θΘ0CH_1:\theta\in \Theta^C_0 的似然比检验统计量是
      λ(x)=supΘ0L(θx)supΘL(θx)\lambda(\bm{x})=\frac{\sup_{\Theta_0}L(\theta|\bm{x})}{\sup_{\Theta} L(\theta|\bm{x})}
      任何一个拒绝区域的形式为 {x:λ(x)c}\lbrace \bm{x}:\lambda(\bm{x})\leq c\rbrace 的检验都叫做似然比检验(LRT),这里 cc 是任意一个满足 0c10\leq c\leq 1 的数
  • 定理
    • T(X)T(\bm{X}) 是关于 θ\theta 的一个充分统计量,而 λ(t)\lambda^*(t)λ(x)\lambda(\bm{x}) 分别是依赖于 TTX\bm{X} 的LRT统计量,则对于样本空间内每一个 x\bm{x} ,有 λ(T(x))=λ(x)\lambda^*(T(x))=\lambda(\bm{x})
      💡
      λ(x)\lambda(\bm{x}) 化简后结果应该仅通过充分统计量 T(x)T(\bm{x}) 依赖于 x\bm{x}
  • 冗余参数

Bayes检验

  • 如果 P(θΘ0X)P(θΘ0CX)P(\theta\in \Theta_0|\bm{X})\geq P(\theta\in \Theta_0^C|\bm{X}) 就接受 H0H_0 为真否则就拒绝 H0H_0 。拒绝区域是 {x:P(θΘ0Cx)>12}\{x:P(\theta\in \Theta_0^C|\bm{x})>\frac{1}{2}\}

并-交检验与交-并检验

  • 并-交检验
    • 在原假设被方便地表示成一个交集时有用
      H0:θγΓΘγH_0:\theta\in \bigcap_{\gamma\in \Gamma} \Theta_\gamma , 其中 Γ\Gamma
      假定有了关于每一个检验问题 H0γ:θΘγH_{0\gamma}:\theta \in \Theta_\gammaH1γ:θΘγCH_{1\gamma}:\theta\in \Theta_\gamma^C 的检验
      设关于检验 H0γH_{0\gamma} 的拒绝区域是 {x:Tγ(x)Rγ}\lbrace \bm{x}:T_\gamma(\bm{x})\in R_\gamma\rbrace ,则关于并-交检验的拒绝区域就是 γΓ{x:Tγ(x)Rγ}\bigcup_{\gamma\in\Gamma}\lbrace \bm{x}:T_\gamma(\bm{x})\in R_\gamma\rbrace
      特别地,若每一个个别检验都具有 {x:Tγ(x)>c}\lbrace \bm{x}:T_\gamma(\bm{x})>c\rbrace 形式的拒绝区域,其中 cc 不依赖于 γ\gamma ,则并-交检验的拒绝区域能够表示成 γΓ{x:Tγ(x)>c}={x:supγΓTγ(x)>c}\bigcup_{\gamma\in \Gamma}\lbrace \bm{x}:T_\gamma(\bm{x})>c\rbrace=\lbrace \bm{x}:\sup_{\gamma\in \Gamma} T_\gamma(\bm{x})>c\rbrace ,则关于 H0H_0 的检验统计量为 T(x)=supγΓTγ(x)T(\bm{x})=\sup_{\gamma\in \Gamma}T_\gamma(\bm{x})
  • 交-并检验
    • 对称

检验的评价方法

错误概率与功效函数

接受 H0H_0
拒绝 H0H_0
H0H_0
正确判决
第一类错误
H1H_1
第二类错误
错误判决
Pθ(XR)={犯第一类错的概率θΘ01犯第二类错的概率θΘ0CP_\theta(\bm{X}\in R)=\begin{cases}\text{犯第一类错的概率} & \theta\in \Theta_0\\1-\text{犯第二类错的概率} & \theta \in \Theta_0^C\end{cases}
  • 定义
    • β(θ)=Pθ(XR)\beta(\theta)=P_\theta (\bm{X}\in R) 是一个拒绝区域为 RR 的假设检验的功效函数
      理想的功效函数: β(θ)={0θΘ01θΘ0C\beta(\theta)=\begin{cases} 0 & \theta \in \Theta_0\\ 1& \theta \in \Theta_0^C\end{cases}
  • 定义
    • 0α10\leq \alpha\leq 1 ,称一个功效函数为 β(θ)\beta(\theta) 的检验是真实水平为 α\alpha 的检验如果 supθΘ0β(θ)=α\sup_{\theta\in \Theta_0} \beta(\theta)=\alpha
  • 定义
    • 0α10\leq \alpha \leq 1 ,称一个功效函数为 β(θ)\beta(\theta) 的检验是水平为 α\alpha 的检验如果 supθΘ0α\sup_{\theta\in \Theta_0}\leq \alpha
  • 定义
    • 一个功效函数为 β(θ)\beta(\theta) 的检验是无偏的,如果对于每一个 θΘ0C\theta'\in \Theta_0^CθΘ0\theta''\in \Theta_0β(θ)β(θ)\beta(\theta')\geq \beta(\theta'')
      💡
      即检验在 θΘ0C\theta\in \Theta_0^C 时比在 θΘ0\theta\in \Theta_0 时更倾向于拒绝 H0H_0

最大功效检验

  • 定义
    • C\mathcal{C} 是一个关于 H0:θΘ0H_0:\theta\in \Theta_0H1:θΘ0CH_1:\theta\in \Theta_0^C 的检验类. C\mathcal{C} 中一个功效函数为 β(θ)\beta(\theta) 的检验是一个一致最大功效 C\mathcal{C} 类检验,如果对每个 θΘ0C\theta\in \Theta_0^C 与每个 C\mathcal{C} 中检验的功效函数 β(θ)\beta'(\theta) ,都有 β(θ)β(θ)\beta(\theta)\geq\beta'(\theta)
      即为UWP水平为 α\alpha 的检验
      C\mathcal{C} 是全体水平为 α\alpha 的检验的类
  • Neyman-Pearson引理
    • 考虑检验 H0:θ=θ0H_0:\theta=\theta_0H1:θ=θ1H_1:\theta=\theta_1 ,其中相应于 θi\theta_i 的概率密度函数或概率质量函数是 f(xθi)i=0,1f(x|\theta_i)i=0,1 利用一个拒绝区域为 RR 的检验, RR 满足对某个 k0k\geq 0 :
      1. f(xθ1)>kf(xθ0)f(\bm{x}|\theta_1)>kf(\bm{x}|\theta_0) ,则 xRx\in R
      1. f(xθ1)<kf(xθ0)f(\bm{x}|\theta_1)<kf(\bm{x}|\theta_0) ,则 xRCx\in R^C
      1. α=Pθ0(XR)\alpha=P_{\theta_0}(\bm{X}\in R)
      则有
      (充分性)任意满足条件123的检验,是一个UMP水平为 α\alpha 的检验
      (必要性)如果存在一个满足条件123的检验,其中 k>0k>0 ,则每一个UMP水平为 α\alpha 的检验是真实水平为 α\alpha 的检验而且每一个UMP水平为 α\alpha 的检验必满足条件12除去在一个使 Pθ0(XA)=Pθ1(XA)=0P_{\theta_0}(\bm{X}\in A)=P_{\theta_1}(\bm{X}\in A)=0 的集合 AA 上可能不满足
  • 推论
    • T(X)T(\bm{X}) 是一个关于 θ\theta充分统计量, g(tθi)g(t|\theta_i)TT 的相应于 θi\theta_i 的概率密度函数或概率质量函数, i=0,1i=0,1 ,则任何一个基于 TT 的拒绝区域是 SSTT 的样本空间的一个子集)的检验,如果满足对某个 k0k\geq 0
      1. g(tθ1)>kg(tθ0)g(t|\theta_1)>kg(t|\theta_0) ,则 tSt\in S
      1. g(tθ1)<kg(tθ0)g(t|\theta_1)<kg(t|\theta_0) ,则 tSCt\in S^C
      1. α=Pθ0(TS)\alpha=P_{\theta_0}(T\in S)
      则它就是一个UMP水平为 α\alpha 的检验
  • 定义
    • 称一元随机变量 TT 的概率密度函数或概率质量函数的族 {g(tθ):θΘ}\{g(t|\theta):\theta\in \Theta\} 关于实值参数 θ\theta 具有单调似然比(MLR),如果对于每一个 θ2>θ1\theta_2>\theta_1g(tθ2)/g(tθ1)g(t|\theta_2)/g(t|\theta_1){t:g(tθ1)>0 或 g(tθ2)>0}\{t:g(t|\theta_1)>0\text{ 或 } g(t|\theta_2)>0\} 上都是 tt 的单调函数。注意如果 0<c0<c 定义 c/0=c/0=\infty
  • Karlin-Rubin
    • 考虑检验 H0:θθ0H_0:\theta \leq \theta_0H1:θ>θ0H_1:\theta>\theta_0 。设 TT 是一个关于 θ\theta 的充分统计量并且 TT 的概率密度函数或概率质量函数的族 {g(tθ):θΘ}\{g(t|\theta):\theta\in \Theta\} 关于 θ\theta 具有MLR。则对于任何 t0t_0 ,“当且仅当 T>t0T>t_0 时拒绝 H0H_0 “的检验是一个UMP水平为 α\alpha 的检验,其中 α=Pθ0(T>t0)\alpha=P_{\theta_0}(T>t_0)
  • UIT(不知道有没有讲)

pp-值

  • 定义 pp-值 p(X)p(\bm{X}) 是一个满足对每一个样本点 x\bm{x} ,都有 0p(x)10\leq p(\bm{x})\leq 1 的检验统计量,如果 p(X)p(\bm{X}) 的值小则可作为 H1H_1 为真的证据。一个 pp-值称为是有效的,如果对于每一个 θΘ0\theta\in \Theta_0 和每一个 0α10\leq \alpha \leq 1 都有 Pθ(p(X)α)αP_\theta(p(\bm{X})\leq \alpha)\leq \alpha
  • 定理 设 W(X)W(\bm{X}) 是这样一个检验统计量,如 WW 的值大则可作为 H1H_1 为真的依据。对于每个样本点 x\bm{x} 定义 p(x)=supθΘ0Pθ(W(X)W(x))p(\bm{x})=\sup_{\theta\in \Theta_0}P_\theta(W(\bm{X})\geq W(\bm{x})) ,则 p(X)p(\bm{X}) 是一个有效的p-值

区间估计

  • 定义
    • 一个实值参数 θ\theta 的区间估计是样本的任意一对函数 L(x1,,xn)L(x_1,\cdots,x_n)U(x1,,xn)U(x_1,\cdots,x_n) ,对于所有的 xX\bm{x}\in \mathcal{X} 满足 L(x)U(x)L(\bm{x})\leq U(\bm{x}) 。如果观测到样本 X=x\bm{X}=\bm{x} ,就做出推断 L(x)θU(x)L(\bm{x})\leq \theta \leq U(\bm{x}) 。随机区间 [L(X),U(X)][L(\bm{X}),U(\bm{X})] 叫做区间估计量 ( 区间可开可闭,L,UL,U 可在无穷远点)
  • 定义
    • 对于一个对参数 θ\theta 的区间估计量 [L(X),U(X)][L(\bm{X}),U(\bm{X})][L(X),U(X)][L(\bm{X}),U(\bm{X})]覆盖概率是指随机区间 [L(X),U(X)][L(\bm{X}),U(\bm{X})] 覆盖真实参数 θ\theta 的概率。在符号上它记作 Pθ(θ[L(X),U(X)])P_\theta(\theta\in [L(\bm{X}),U(\bm{X})])P(θ[L(X),U(X)]θ)P(\theta\in [L(\bm{X}),U(\bm{X})]|\theta)
  • 定义
    • 对于一个参数 θ\theta 的区间估计量 [L(X),U(X)][L(\bm{X}),U(\bm{X})][L(X),U(X)][L(\bm{X}),U(\bm{X})]置信系数是指覆盖概率的下确界 infθPθ(θ[L(X),U(X)])\inf_\theta P_\theta(\theta\in [L(\bm{X}),U(\bm{X})])
  • 区间估计量+度量(通常为置信系数)=置信区间
    • 广义:置信区间→置信集合

区间估计量的求法

反转一个检验统计量

假设检验与区间估计有对应关系
假设检验是固定参数并询问什么样本值(接受区域)与该固定值相符合。置信集合固定样本值并询问什么参数值(置信区间)使得这个样本值好像最有道理
  • 定理
    • 对每一个 θ0Θ\theta_0\in \Theta ,设 A(θ0)A(\theta_0)H0:θ=θ0H_0:\theta=\theta_0 的一个水平为 α\alpha 的检验的接受区域。对每一个 xX\bm{x}\in \mathcal{X} ,在参数空间里定义一个集合 C(x)={θ0:xA(θ0)}C(\bm{x})=\{\theta_0:\bm{x}\in A(\theta_0)\} ,则随机集合 C(x)C(\bm{x}) 是一个 1α1-\alpha 置信集合。
      反之,设 C(x)C(\bm{x}) 是一个 1α1-\alpha 置信集合。对任意的 θ0Θ\theta_0\in \Theta ,定义 A(θ0)={x:θ0C(x)}A(\theta_0)=\{\bm{x}:\theta_0\in C(\bm{x})\} ,则 A(θ0)A(\theta_0)H0:θ=θ0H_0:\theta=\theta_0 的一个水平为 α\alpha 的检验的接受区域
      💡
      一族检验对应一个置信集合

枢轴量

  • 定义
    • 一个随机变量 Q(X,θ)=Q(X1,,Xn,θ)Q(\bm{X},\theta)=Q(X_1,\cdots,X_n,\theta) 是一个枢轴量或枢轴,如果 Q(X,θ)Q(\bm{X},\theta) 的分布独立于所有的参数。就是说,如果 XF(xθ)\bm{X}\sim F(\bm{x}|\theta) ,则 Q(X,θ)Q(\bm{X},\theta) 对于所有的 θ\theta 值具有同样的分布
  • 位置-尺度枢轴
    • f(xμ)f(x-\mu)
      Xμ\overline{X}-\mu
      1σf(xσ)\frac{1}{\sigma}f(\frac{x}{\sigma})
      Xσ\frac{\overline{X}}{\sigma}
      1σf(xμσ)\frac{1}{\sigma}f(\frac{x-\mu}{\sigma})
      XμS\frac{\overline{X}-\mu}{S}
  • 设一个统计量 TT 的概率密度函数 f(tθ)f(t|\theta) 能够表示成如下形式
    • f(tθ)=g(Q(t,θ))tQ(t,θ)f(t|\theta)=g(Q(t,\theta))\vert\frac{\partial}{\partial t}Q(t,\theta)\vert
      其中 gg 是某个函数而 QQ 是某个单调(关于 θ\theta )函数。则 Q(t,θ)Q(t,\theta) 是一个枢轴

区间估计量的评价方法

尺寸和覆盖概率

  • 定理
    • f(x)f(x) 是一个单峰的概率密度函数。如果区间 [a,b][a,b] 满足
      1. abf(x)dx=1α\int_a^b f(x)dx=1-\alpha
      1. f(a)=f(b)>0f(a)=f(b)>0
      1. axba\leq x^*\leq b ,其中 xx^*f(x)f(x) 的一个众数
      [a,b][a,b] 是所有满足1.的区间中最短的
常微分方程R语言