AP Statistics-样本方差无偏性的数学推导(证明$E(s^2)=\sigma^2$)
推导前提与符号说明
1. 基本假设
设样本$X_1,X_2,\dots,X_n$ 独立同分布(i.i.d.) 来自某总体,满足:
- 总体均值:$E(X_i)=\mu$(Population Mean)
- 总体方差:$\text{Var}(X_i)=E[(X_i-\mu)^2]=\sigma^2$(Population Variance)
- 样本均值:$\bar{X}=\frac{1}{n}\sum_{i=1}^n X_i$(Sample Mean)
- 样本方差:$s^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2$(Sample Variance)
2. 关键性质(推导必备)
- 期望的线性性质:$E[aX+bY]=aE(X)+bE(Y)$(与独立性无关)
- 独立随机变量的方差性质:$\text{Var}(\sum{i=1}^n X_i)=\sum{i=1}^n \text{Var}(X_i)$
- 样本均值的期望与方差:
核心推导步骤
步骤1:拆分偏差项(关键技巧)
直接计算$\sum_{i=1}^n (X_i-\bar{X})^2$较复杂,我们引入总体均值$\mu$作为中间量,将偏差拆分为:
这一步的核心是:将“样本内偏差($X_i-\bar{X}$)”转化为“样本与总体的偏差($X_i-\mu$)”和“样本均值与总体的偏差($\bar{X}-\mu$)”的差,利用已知的总体参数简化计算。
步骤2:展开平方和
将拆分后的式子代入平方和,展开得:
步骤3:简化中间项
观察第二项中的求和项$\sum_{i=1}^n (X_i-\mu)$,利用样本均值的定义化简:
将其代入展开式,中间项变为:
因此,平方和可进一步简化为:
这是推导的核心简化结果,将含$\bar{X}$的复杂项转化为两个易求期望的项。
步骤4:对平方和求期望
我们需要计算$E\left[\sum_{i=1}^n (X_i-\bar{X})^2\right]$,利用期望的线性性质,对简化后的式子求期望:
计算第一项:$E\left[\sum_{i=1}^n (X_i-\mu)^2\right]$
由于样本独立同分布,且$E[(X_i-\mu)^2]=\sigma^2$,因此:
计算第二项:$nE\left[(\bar{X}-\mu)^2\right]$
根据方差的定义,$\text{Var}(\bar{X})=E[(\bar{X}-E(\bar{X}))^2]=E[(\bar{X}-\mu)^2]$,且我们已知$\text{Var}(\bar{X})=\frac{\sigma^2}{n}$,因此:
合并两项结果
将两项代入,得到:
步骤5:计算样本方差的期望
样本方差的定义为:
对其求期望,利用期望的线性性质(常数因子可提出):
将步骤4的结果代入,得:
推导结论
通过以上步骤,我们严格证明了:
这说明样本方差$s^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2$是总体方差$\sigma^2$的无偏估计(Unbiased Estimator)。
关键推导要点与教学注意事项
1. 推导核心技巧
- 偏差拆分:引入总体均值$\mu$作为中间量,将$X_i-\bar{X}$拆分为$(X_i-\mu)-(\bar{X}-\mu)$,是解决含$\bar{X}$平方和的关键。
- 期望的线性性质:无需独立性即可使用,是简化期望计算的核心工具。
- 样本均值的方差:$\text{Var}(\bar{X})=\frac{\sigma^2}{n}$,是连接样本与总体的重要桥梁。
2. 学生易错点
- 忘记展开平方和时的中间项,直接计算$\sum_{i=1}^n (X_i-\bar{X})^2$,导致无法简化。
- 混淆样本均值的方差($\frac{\sigma^2}{n}$)与单个样本的方差($\sigma^2$)。
- 忽略“独立同分布”的假设,实际上该假设保证了$\text{Var}(\bar{X})=\frac{\sigma^2}{n}$和$E[(X_i-\mu)^2]=\sigma^2$的成立。
3. 术语中英文对照
| 中文术语 | 英文术语 | 符号 |
|---|---|---|
| 独立同分布 | Independent and Identically Distributed (i.i.d.) | - |
| 样本方差 | Sample Variance | $s^2$ |
| 总体方差 | Population Variance | $\sigma^2$ |
| 无偏估计 | Unbiased Estimator | - |
| 期望 | Expectation | $E(\cdot)$ |
| 方差 | Variance | $\text{Var}(\cdot)$ |
简化教学版本(课堂讲解用)
对于AP统计学生,可将推导简化为以下3步,重点理解逻辑而非完整计算:
- 拆分偏差:$X_i-\bar{X}=(X_i-\mu)-(\bar{X}-\mu)$,将样本内偏差转化为与总体均值的偏差。
- 简化平方和:展开后得到$\sum (X_i-\bar{X})^2=\sum (X_i-\mu)^2 - n(\bar{X}-\mu)^2$。
- 求期望修正:
- 第一项期望为$n\sigma^2$,第二项期望为$\sigma^2$,因此平方和的期望为$(n-1)\sigma^2$。
- 样本方差除以$n-1$,期望即为$\sigma^2$,修正了用$\bar{X}$代替$\mu$导致的低估偏差。
样本方差无偏性 $ E(s^2)=\sigma^2 $ 可视化推导+学生易错全解析
(AP Statistics教学专用,适配PPT/板书,附逐步讲解+纠错表)
本文完全贴合你之前要的严格数学推导,做可视化逐步拆解,搭配学生高频错误对照表、课堂讲解脚本、板书设计,可直接嵌入1小时章节讲义使用。
一、前置基础:符号、假设与必备公式(可视化框定,课前先回顾)
1. 符号与定义(中英文对照)
| 中文术语 | 英文术语 | 符号 | 数学定义 |
|---|---|---|---|
| 简单随机样本 | Simple Random Sample | $ X_1,X_2,\dots,X_n $ | 独立同分布(i.i.d.),取自同一总体 |
| 总体均值 | Population Mean | $ \mu $ | $ E(X_i)=\mu $ |
| 总体方差 | Population Variance | $ \sigma^2 $ | $ \text{Var}(X_i)=E[(X_i-\mu)^2]=\sigma^2 $ |
| 样本均值 | Sample Mean | $ \bar{X} $ | $ \bar{X}=\frac{1}{n}\sum_{i=1}^n X_i $ |
| 样本方差 | Sample Variance | $ s^2 $ | $ \displaystyle s^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2 $ |
| 无偏估计 | Unbiased Estimator | - | 满足 $ E(\hat{\theta})=\theta $ 的统计量 |
2. 必备统计性质(推导基石,必须先确认学生掌握)
- 期望线性性:$ E(aX+bY)=aE(X)+bE(Y) $(无独立性要求)
- 样本均值的期望:$ \displaystyle E(\bar{X})=\mu $
- 样本均值的方差:$ \displaystyle \text{Var}(\bar{X})=\frac{\sigma^2}{n} \implies E\left[(\bar{X}-\mu)^2\right]=\frac{\sigma^2}{n} $
- 方差定义:$ \text{Var}(X)=E(X^2)-[E(X)]^2 $
二、完整推导·可视化逐步版(PPT/板书逐行展示,配操作+解释)
核心目标
证明:$\displaystyle E\left( \frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2 \right) = \sigma^2$
步骤总逻辑链(流程图,先给学生看整体)
拆分偏差项 $\to$ 展开平方和 $\to$ 化简中间项 $\to$ 对整体求期望 $\to$ 代入样本均值方差 $\to$ 得到平方和期望 $\to$ 除以 $n-1$ 得无偏性
逐步可视化推导(每一行对应板书一行,标注【操作】【公式】【直观解释】)
步骤1:关键恒等变形——偏差拆分(最核心技巧)
【操作】把 $X_i-\bar{X}$ 用总体均值$\mu$拆成两段,消除$\bar{X}$的耦合
【直观解释】把「样本点到样本均值的距离」拆成「样本点到总体均值」减去「样本均值到总体均值」,引入已知参数$\mu$简化计算。
步骤2:两边平方,对所有样本求和
【操作】平方展开完全平方公式 ((a-b)^2=a^2-2ab+b^2$,再求和
展开:
步骤3:化简求和式中的常数项($\bar{X}-\mu$与下标$i$无关)
【操作】把不含$i$的项提出求和符号外
- 第二项:$\bar{X}-\mu$与$i$无关,可外提
- 第三项:$\bar{X}-\mu$与$i$无关,求和$n$次即$n(\bar{X}-\mu)^2$
化简后:
步骤4:化简中间求和项$\boldsymbol{\sum_{i=1}^n (X_i-\mu)}$
【操作】用样本均值定义展开求和
代回上式:
步骤5:合并同类项,得到核心恒等式
【操作】计算$-2n(\cdots)+n(\cdots)$
【关键结论】这是整个推导的灵魂公式,所有后续计算都基于此式。
步骤6:对等式两边同时求期望$E(\cdot)$
【操作】期望线性性,可逐项求期望
步骤7:计算第一项期望$\boldsymbol{E\left[\sum (X_i-\mu)^2\right]}$
【操作】期望可加性,样本i.i.d.,每一项期望都是$\sigma^2$
步骤8:计算第二项期望$\boldsymbol{n\cdot E\left[(\bar{X}-\mu)^2\right]}$
【操作】用样本均值方差性质$E[(\bar{X}-\mu)^2]=\text{Var}(\bar{X})=\frac{\sigma^2}{n}$
步骤9:合并两项,得到偏差平方和的期望
步骤10:代入样本方差定义,求$E(s^2)$
【操作】样本方差定义$s^2=\frac{1}{n-1}\sum(X_i-\bar{X})^2$,常数$\frac{1}{n-1}$提出期望
代入步骤9结果:
三、核心逻辑可视化总结(一图看懂为什么除以$n-1$)
graph TD
A["用样本均值X̄替代未知总体均值μ"] --> B["Σ(Xi-X̄)² < Σ(Xi-μ)²,偏差平方和被低估"]
B --> C["计算期望:E[Σ(Xi-X̄)²]=(n-1)σ²"]
C --> D["若分母用n:期望=(n-1)/n·σ² < σ²,有偏低估"]
C --> E["若分母用n-1:期望=σ²,无偏估计"]
D --> F["错误选择:分母为n"]
E --> G["正确选择:分母为n-1"]四、学生高频错误对照表(教学纠错专用,直接打印/投影)
| 错误类型 | 错误写法/计算过程 | 错误原因 | 正确修正 |
|---|---|---|---|
| 1. 偏差拆分错误 | 强行写成$X_i-\bar{X}=X_i-\mu$,丢掉$\bar{X}-\mu$项 | 不理解拆分的目的,试图跳过核心变形 | 必须保留$X_i-\bar{X}=(X_i-\mu)-(\bar{X}-\mu)$,两项都不能丢 |
| 2. 平方展开漏项 | 展开((a-b)^2$只写$a^2+b^2$,漏掉$-2ab$交叉项 | 完全平方公式代数基础薄弱 | 严格按((a-b)^2=a^2-2ab+b^2$展开,交叉项是化简关键 |
| 3. 求和项提取错误 | 把含$i$的项和不含$i$的项一起乱提,不区分变量 | 不理解求和符号$\sum_{i=1}^n$的作用范围 | 仅与$i$无关的量($\bar{X}-\mu$)可提出求和号 |
| 4. 样本均值方差记错 | 误用$\text{Var}(\bar{X})=\sigma^2$,而非$\frac{\sigma^2}{n}$ | 混淆「单个样本方差」和「样本均值方差」 | 牢记:样本均值波动更小,$\text{Var}(\bar{X})=\frac{\sigma^2}{n}$ |
| 5. 期望计算顺序错 | 先除以$n$再求期望,或不拆分直接求期望 | 不理解期望线性性的使用场景 | 先化简求和式,再整体求期望,常数最后提出 |
| 6. 分母概念混淆 | 坚持认为「平均就该除以$n$」,拒绝$n-1$ | 只理解算术平均,不理解无偏估计 | 除以$n-1$是修正低估偏差,不是简单算术平均 |
| 7. 符号理解错误 | 把样本方差$s^2$和总体方差$\sigma^2$混用符号 | 符号体系不清晰 | 严格区分:总体用$\mu,\sigma^2$;样本用$\bar{X},s^2$ |
五、课堂分层讲解脚本(适配AP不同层次学生,直接照读)
版本1:基础版(AP普通学生,不要求完整推导,懂原理即可)
- 开门见山:我们用样本均值$\bar{X}$代替不知道的总体均值$\mu$,这会让偏差平方和变小,也就是低估总体方差。
- 核心公式一句话:通过数学化简,我们得到$\sum(X_i-\bar{X})^2$的期望是((n-1)\sigma^2$。
- 结论:想让期望等于$\sigma^2$,分母必须用$n-1$,这样一除刚好抵消,得到无偏估计。
- 考试要求:AP只需要你记住样本方差分母$n-1$,总体方差分母$N$,会计算、会区分即可。
版本2:进阶版(对数学感兴趣、想懂完整推导的学生)
- 先回顾3个前提:i.i.d.样本、$E(\bar{X})=\mu$、$\text{Var}(\bar{X})=\frac{\sigma^2}{n}$。
- 重点讲拆分技巧:为什么要引入$\mu$?因为$\mu$是常数,$\bar{X}$是随机变量,拆分后能把复杂项拆成两个可求期望的简单项。
- 带着学生逐行算步骤1-5,得到核心恒等式。
- 快速计算期望, highlight 「$n\sigma^2-\sigma^2=(n-1)\sigma^2$」这一步。
- 收尾:除以$n-1$是数学上严格的无偏修正,不是人为规定,是推导出来的结果。
六、板书/PPT排版设计(4区域布局,课堂直接用)
左侧:符号与前提
- 样本:$X_1\cdots X_n$ i.i.d.
- $E(X_i)=\mu,\text{Var}(X_i)=\sigma^2$
- $E(\bar{X})=\mu,\text{Var}(\bar{X})=\frac{\sigma^2}{n}$
- $s^2=\frac{1}{n-1}\sum(X_i-\bar{X})^2$
中间:核心推导(只写关键公式,不写冗余步骤)
- $X_i-\bar{X}=(X_i-\mu)-(\bar{X}-\mu)$
- $\sum(X_i-\bar{X})^2=\sum(X_i-\mu)^2-n(\bar{X}-\mu)^2$
- $E\left[\sum\right]=n\sigma^2-\sigma^2=(n-1)\sigma^2$
- $E(s^2)=\frac{1}{n-1}\cdot(n-1)\sigma^2=\sigma^2$
右侧:可视化逻辑链
- 用$\bar{X}\to$平方和低估
- 期望得((n-1)\sigma^2$
- 除以$n-1\to$无偏
底部:易错警示
- 忌:漏交叉项、记错$\text{Var}(\bar{X})$、分母用$n$
- 记:样本方差分母$\boldsymbol{n-1}$,总体方差分母$\boldsymbol{N/n}$
七、配套2道小自测题(检验学生是否理解推导逻辑)
- 若错误地定义样本方差为$\displaystyle sn^2=\frac{1}{n}\sum{i=1}^n(X_i-\bar{X})^2$,求$E(s_n^2)$?
解答:$E(s_n^2)=\frac{n-1}{n}\sigma^2$,是有偏估计 - 为什么$\sum(X_i-\bar{X})^2$的期望不是$n\sigma^2$?
解答:因为要减去$nE[(\bar{X}-\mu)^2]=\sigma^2$,最终为((n-1)\sigma^2$
自测题答案(教师用)
- $\boldsymbol{E(s_n^2)=\frac{n-1}{n}\sigma^2}$
- 核心是样本均值自身存在波动,需要扣除$n(\bar{X}-\mu)^2$这一项的期望

