【AP Statistics】样本方差无偏性的数学推导


AP Statistics-样本方差无偏性的数学推导(证明$E(s^2)=\sigma^2$)

推导前提与符号说明

1. 基本假设

设样本$X_1,X_2,\dots,X_n$ 独立同分布(i.i.d.) 来自某总体,满足:

  • 总体均值:$E(X_i)=\mu$(Population Mean)
  • 总体方差:$\text{Var}(X_i)=E[(X_i-\mu)^2]=\sigma^2$(Population Variance)
  • 样本均值:$\bar{X}=\frac{1}{n}\sum_{i=1}^n X_i$(Sample Mean)
  • 样本方差:$s^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2$(Sample Variance)

2. 关键性质(推导必备)

  • 期望的线性性质:$E[aX+bY]=aE(X)+bE(Y)$(与独立性无关)
  • 独立随机变量的方差性质:$\text{Var}(\sum{i=1}^n X_i)=\sum{i=1}^n \text{Var}(X_i)$
  • 样本均值的期望与方差:

核心推导步骤

步骤1:拆分偏差项(关键技巧)

直接计算$\sum_{i=1}^n (X_i-\bar{X})^2$较复杂,我们引入总体均值$\mu$作为中间量,将偏差拆分为:

这一步的核心是:将“样本内偏差($X_i-\bar{X}$)”转化为“样本与总体的偏差($X_i-\mu$)”和“样本均值与总体的偏差($\bar{X}-\mu$)”的差,利用已知的总体参数简化计算。

步骤2:展开平方和

将拆分后的式子代入平方和,展开得:

步骤3:简化中间项

观察第二项中的求和项$\sum_{i=1}^n (X_i-\mu)$,利用样本均值的定义化简:

将其代入展开式,中间项变为:

因此,平方和可进一步简化为:

这是推导的核心简化结果,将含$\bar{X}$的复杂项转化为两个易求期望的项。

步骤4:对平方和求期望

我们需要计算$E\left[\sum_{i=1}^n (X_i-\bar{X})^2\right]$,利用期望的线性性质,对简化后的式子求期望:

计算第一项:$E\left[\sum_{i=1}^n (X_i-\mu)^2\right]$

由于样本独立同分布,且$E[(X_i-\mu)^2]=\sigma^2$,因此:

计算第二项:$nE\left[(\bar{X}-\mu)^2\right]$

根据方差的定义,$\text{Var}(\bar{X})=E[(\bar{X}-E(\bar{X}))^2]=E[(\bar{X}-\mu)^2]$,且我们已知$\text{Var}(\bar{X})=\frac{\sigma^2}{n}$,因此:

合并两项结果

将两项代入,得到:

步骤5:计算样本方差的期望

样本方差的定义为:

对其求期望,利用期望的线性性质(常数因子可提出):

将步骤4的结果代入,得:

推导结论

通过以上步骤,我们严格证明了:

这说明样本方差$s^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2$是总体方差$\sigma^2$的无偏估计(Unbiased Estimator)

关键推导要点与教学注意事项

1. 推导核心技巧

  • 偏差拆分:引入总体均值$\mu$作为中间量,将$X_i-\bar{X}$拆分为$(X_i-\mu)-(\bar{X}-\mu)$,是解决含$\bar{X}$平方和的关键。
  • 期望的线性性质:无需独立性即可使用,是简化期望计算的核心工具。
  • 样本均值的方差:$\text{Var}(\bar{X})=\frac{\sigma^2}{n}$,是连接样本与总体的重要桥梁。

2. 学生易错点

  • 忘记展开平方和时的中间项,直接计算$\sum_{i=1}^n (X_i-\bar{X})^2$,导致无法简化。
  • 混淆样本均值的方差($\frac{\sigma^2}{n}$)与单个样本的方差($\sigma^2$)。
  • 忽略“独立同分布”的假设,实际上该假设保证了$\text{Var}(\bar{X})=\frac{\sigma^2}{n}$和$E[(X_i-\mu)^2]=\sigma^2$的成立。

3. 术语中英文对照

中文术语英文术语符号
独立同分布Independent and Identically Distributed (i.i.d.)-
样本方差Sample Variance$s^2$
总体方差Population Variance$\sigma^2$
无偏估计Unbiased Estimator-
期望Expectation$E(\cdot)$
方差Variance$\text{Var}(\cdot)$

简化教学版本(课堂讲解用)

对于AP统计学生,可将推导简化为以下3步,重点理解逻辑而非完整计算:

  1. 拆分偏差:$X_i-\bar{X}=(X_i-\mu)-(\bar{X}-\mu)$,将样本内偏差转化为与总体均值的偏差。
  2. 简化平方和:展开后得到$\sum (X_i-\bar{X})^2=\sum (X_i-\mu)^2 - n(\bar{X}-\mu)^2$。
  3. 求期望修正
    • 第一项期望为$n\sigma^2$,第二项期望为$\sigma^2$,因此平方和的期望为$(n-1)\sigma^2$。
    • 样本方差除以$n-1$,期望即为$\sigma^2$,修正了用$\bar{X}$代替$\mu$导致的低估偏差。

样本方差无偏性 $ E(s^2)=\sigma^2 $ 可视化推导+学生易错全解析

(AP Statistics教学专用,适配PPT/板书,附逐步讲解+纠错表)

本文完全贴合你之前要的严格数学推导,做可视化逐步拆解,搭配学生高频错误对照表、课堂讲解脚本、板书设计,可直接嵌入1小时章节讲义使用。

一、前置基础:符号、假设与必备公式(可视化框定,课前先回顾)

1. 符号与定义(中英文对照)

中文术语英文术语符号数学定义
简单随机样本Simple Random Sample$ X_1,X_2,\dots,X_n $独立同分布(i.i.d.),取自同一总体
总体均值Population Mean$ \mu $$ E(X_i)=\mu $
总体方差Population Variance$ \sigma^2 $$ \text{Var}(X_i)=E[(X_i-\mu)^2]=\sigma^2 $
样本均值Sample Mean$ \bar{X} $$ \bar{X}=\frac{1}{n}\sum_{i=1}^n X_i $
样本方差Sample Variance$ s^2 $$ \displaystyle s^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2 $
无偏估计Unbiased Estimator-满足 $ E(\hat{\theta})=\theta $ 的统计量

2. 必备统计性质(推导基石,必须先确认学生掌握)

  1. 期望线性性:$ E(aX+bY)=aE(X)+bE(Y) $(无独立性要求)
  2. 样本均值的期望:$ \displaystyle E(\bar{X})=\mu $
  3. 样本均值的方差:$ \displaystyle \text{Var}(\bar{X})=\frac{\sigma^2}{n} \implies E\left[(\bar{X}-\mu)^2\right]=\frac{\sigma^2}{n} $
  4. 方差定义:$ \text{Var}(X)=E(X^2)-[E(X)]^2 $

二、完整推导·可视化逐步版(PPT/板书逐行展示,配操作+解释)

核心目标

证明:$\displaystyle E\left( \frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2 \right) = \sigma^2$

步骤总逻辑链(流程图,先给学生看整体)

拆分偏差项 $\to$ 展开平方和 $\to$ 化简中间项 $\to$ 对整体求期望 $\to$ 代入样本均值方差 $\to$ 得到平方和期望 $\to$ 除以 $n-1$ 得无偏性


逐步可视化推导(每一行对应板书一行,标注【操作】【公式】【直观解释】)

步骤1:关键恒等变形——偏差拆分(最核心技巧)

【操作】把 $X_i-\bar{X}$ 用总体均值$\mu$拆成两段,消除$\bar{X}$的耦合

【直观解释】把「样本点到样本均值的距离」拆成「样本点到总体均值」减去「样本均值到总体均值」,引入已知参数$\mu$简化计算。

步骤2:两边平方,对所有样本求和

【操作】平方展开完全平方公式 ((a-b)^2=a^2-2ab+b^2$,再求和

展开:

步骤3:化简求和式中的常数项($\bar{X}-\mu$与下标$i$无关)

【操作】把不含$i$的项提出求和符号外

  • 第二项:$\bar{X}-\mu$与$i$无关,可外提
  • 第三项:$\bar{X}-\mu$与$i$无关,求和$n$次即$n(\bar{X}-\mu)^2$

化简后:

步骤4:化简中间求和项$\boldsymbol{\sum_{i=1}^n (X_i-\mu)}$

【操作】用样本均值定义展开求和

代回上式:

步骤5:合并同类项,得到核心恒等式

【操作】计算$-2n(\cdots)+n(\cdots)$

【关键结论】这是整个推导的灵魂公式,所有后续计算都基于此式。

步骤6:对等式两边同时求期望$E(\cdot)$

【操作】期望线性性,可逐项求期望

步骤7:计算第一项期望$\boldsymbol{E\left[\sum (X_i-\mu)^2\right]}$

【操作】期望可加性,样本i.i.d.,每一项期望都是$\sigma^2$

步骤8:计算第二项期望$\boldsymbol{n\cdot E\left[(\bar{X}-\mu)^2\right]}$

【操作】用样本均值方差性质$E[(\bar{X}-\mu)^2]=\text{Var}(\bar{X})=\frac{\sigma^2}{n}$

步骤9:合并两项,得到偏差平方和的期望

步骤10:代入样本方差定义,求$E(s^2)$

【操作】样本方差定义$s^2=\frac{1}{n-1}\sum(X_i-\bar{X})^2$,常数$\frac{1}{n-1}$提出期望

代入步骤9结果:


三、核心逻辑可视化总结(一图看懂为什么除以$n-1$)

graph TD
A["用样本均值X̄替代未知总体均值μ"] --> B["Σ(Xi-X̄)² < Σ(Xi-μ)²,偏差平方和被低估"]
B --> C["计算期望:E[Σ(Xi-X̄)²]=(n-1)σ²"]
C --> D["若分母用n:期望=(n-1)/n·σ² < σ²,有偏低估"]
C --> E["若分母用n-1:期望=σ²,无偏估计"]
D --> F["错误选择:分母为n"]
E --> G["正确选择:分母为n-1"]

四、学生高频错误对照表(教学纠错专用,直接打印/投影)

错误类型错误写法/计算过程错误原因正确修正
1. 偏差拆分错误强行写成$X_i-\bar{X}=X_i-\mu$,丢掉$\bar{X}-\mu$项不理解拆分的目的,试图跳过核心变形必须保留$X_i-\bar{X}=(X_i-\mu)-(\bar{X}-\mu)$,两项都不能丢
2. 平方展开漏项展开((a-b)^2$只写$a^2+b^2$,漏掉$-2ab$交叉项完全平方公式代数基础薄弱严格按((a-b)^2=a^2-2ab+b^2$展开,交叉项是化简关键
3. 求和项提取错误把含$i$的项和不含$i$的项一起乱提,不区分变量不理解求和符号$\sum_{i=1}^n$的作用范围仅与$i$无关的量($\bar{X}-\mu$)可提出求和号
4. 样本均值方差记错误用$\text{Var}(\bar{X})=\sigma^2$,而非$\frac{\sigma^2}{n}$混淆「单个样本方差」和「样本均值方差」牢记:样本均值波动更小,$\text{Var}(\bar{X})=\frac{\sigma^2}{n}$
5. 期望计算顺序错先除以$n$再求期望,或不拆分直接求期望不理解期望线性性的使用场景先化简求和式,再整体求期望,常数最后提出
6. 分母概念混淆坚持认为「平均就该除以$n$」,拒绝$n-1$只理解算术平均,不理解无偏估计除以$n-1$是修正低估偏差,不是简单算术平均
7. 符号理解错误把样本方差$s^2$和总体方差$\sigma^2$混用符号符号体系不清晰严格区分:总体用$\mu,\sigma^2$;样本用$\bar{X},s^2$

五、课堂分层讲解脚本(适配AP不同层次学生,直接照读)

版本1:基础版(AP普通学生,不要求完整推导,懂原理即可)

  1. 开门见山:我们用样本均值$\bar{X}$代替不知道的总体均值$\mu$,这会让偏差平方和变小,也就是低估总体方差。
  2. 核心公式一句话:通过数学化简,我们得到$\sum(X_i-\bar{X})^2$的期望是((n-1)\sigma^2$。
  3. 结论:想让期望等于$\sigma^2$,分母必须用$n-1$,这样一除刚好抵消,得到无偏估计。
  4. 考试要求:AP只需要你记住样本方差分母$n-1$,总体方差分母$N$,会计算、会区分即可。

版本2:进阶版(对数学感兴趣、想懂完整推导的学生)

  1. 先回顾3个前提:i.i.d.样本、$E(\bar{X})=\mu$、$\text{Var}(\bar{X})=\frac{\sigma^2}{n}$。
  2. 重点讲拆分技巧:为什么要引入$\mu$?因为$\mu$是常数,$\bar{X}$是随机变量,拆分后能把复杂项拆成两个可求期望的简单项。
  3. 带着学生逐行算步骤1-5,得到核心恒等式。
  4. 快速计算期望, highlight 「$n\sigma^2-\sigma^2=(n-1)\sigma^2$」这一步。
  5. 收尾:除以$n-1$是数学上严格的无偏修正,不是人为规定,是推导出来的结果。

六、板书/PPT排版设计(4区域布局,课堂直接用)

左侧:符号与前提

  • 样本:$X_1\cdots X_n$ i.i.d.
  • $E(X_i)=\mu,\text{Var}(X_i)=\sigma^2$
  • $E(\bar{X})=\mu,\text{Var}(\bar{X})=\frac{\sigma^2}{n}$
  • $s^2=\frac{1}{n-1}\sum(X_i-\bar{X})^2$

中间:核心推导(只写关键公式,不写冗余步骤)

  1. $X_i-\bar{X}=(X_i-\mu)-(\bar{X}-\mu)$
  2. $\sum(X_i-\bar{X})^2=\sum(X_i-\mu)^2-n(\bar{X}-\mu)^2$
  3. $E\left[\sum\right]=n\sigma^2-\sigma^2=(n-1)\sigma^2$
  4. $E(s^2)=\frac{1}{n-1}\cdot(n-1)\sigma^2=\sigma^2$

右侧:可视化逻辑链

  • 用$\bar{X}\to$平方和低估
  • 期望得((n-1)\sigma^2$
  • 除以$n-1\to$无偏

底部:易错警示

  • 忌:漏交叉项、记错$\text{Var}(\bar{X})$、分母用$n$
  • 记:样本方差分母$\boldsymbol{n-1}$,总体方差分母$\boldsymbol{N/n}$

七、配套2道小自测题(检验学生是否理解推导逻辑)

  1. 若错误地定义样本方差为$\displaystyle sn^2=\frac{1}{n}\sum{i=1}^n(X_i-\bar{X})^2$,求$E(s_n^2)$?
    解答:$E(s_n^2)=\frac{n-1}{n}\sigma^2$,是有偏估计
  2. 为什么$\sum(X_i-\bar{X})^2$的期望不是$n\sigma^2$?
    解答:因为要减去$nE[(\bar{X}-\mu)^2]=\sigma^2$,最终为((n-1)\sigma^2$

自测题答案(教师用)

  1. $\boldsymbol{E(s_n^2)=\frac{n-1}{n}\sigma^2}$
  2. 核心是样本均值自身存在波动,需要扣除$n(\bar{X}-\mu)^2$这一项的期望

文章作者: Kezade
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kezade !
评论
  目录