【AP Statistics】异常值、杠杆点、影响点判定及其各自影响


AP Statistics-异常值、杠杆点、影响点判定及其各自影响

在AP统计中,高杠杆点和影响点的判定是“先判定高杠杆点,再验证是否为影响点”的递进过程,核心区别是:高杠杆点仅需满足“x值极端”,而影响点是“高杠杆点+移除后模型显著变化”。以下是具体判定方法(适配AP题的考查逻辑):

一、如何判定“高杠杆点”?

高杠杆点的核心特征是:解释变量$x$的值远偏离$x$的样本均值$\bar{x}$(即$x$在散点图中位置极端)。AP题中判定方法分2种:

1. 直观判定(AP题最常用)

通过散点图观察$x$的位置:

  • 该点的$x$值明显超出其他点的$x$取值范围(如其他点的$x$在10-20之间,该点$x=50$);
  • 该点的$x$值远大于/小于$x$的样本均值$\bar{x}$(如$\bar{x}=15$,该点$x=1$或$x=30$)。

2. 杠杆值(Leverage Value)判定(AP题偶尔提经验法则)

杠杆值衡量$x$对模型的“潜在影响能力”,公式为:

AP统计中常用经验法则:若杠杆值$h_i > \frac{2(k+1)}{n}$(双变量分析中$k=1$,故为$\frac{4}{n}$,$n$是样本量),则该点为高杠杆点。

例如:$n=20$时,$\frac{4}{20}=0.2$,若某点杠杆值$h_i=0.3>0.2$,则为高杠杆点。

二、如何判定“影响点”?

影响点的前提是“该点已被判定为高杠杆点”(只有$x$极端的点,才有能力改变模型),再通过“移除验证”判定:

移除该点后,观察以下模型参数是否发生显著变化

  1. 回归线的斜率$b$(如原始斜率$b=3.2$,移除后变为$b=1.5$,变化幅度超50%);
  2. 相关系数$r$(如原始$r=0.8$,移除后变为$r=0.4$,相关性大幅减弱);
  3. 截距$a$(通常伴随斜率变化)。

三、AP题中的典型场景与结论

场景(散点图特征)判定结果理由
$x$极端(高杠杆),移除后斜率/r无明显变化高杠杆点,不是影响点$x$极端但$y$贴合回归线(残差小),对模型无实际改变力。
$x$极端(高杠杆),移除后斜率/r显著变化高杠杆点+影响点$x$极端且$y$偏离回归线(残差大),对模型有“决定性拉拽作用”。
$x$正常,$y$偏离回归线(残差大)离群值,不是高杠杆点/影响点$x$不极端,无能力改变模型,仅为普通离群值。

四、AP题易错点提醒

  1. 影响点一定是高杠杆点(只有$x$极端才能影响模型),但高杠杆点不一定是影响点(若$y$贴合趋势,无偏离);
  2. 不要混淆“离群值”和“高杠杆点”:离群值看$y$偏离趋势,高杠杆点看$x$位置极端;
  3. FRQ中判定影响点需写全步骤:“该点$x$远偏离$\bar{x}$(是高杠杆点),移除后斜率从$b=3$变为$b=1.2$(显著变化),故为影响点”。

五、异常值/离群值/杠杆点移除对模型的影响对比表

(注:AP统计中“异常值”通常指回归离群值,表格中统一术语并区分核心场景)

点的类型(细分场景)位置核心特征移除后对相关系数$r$的影响移除后对回归线斜率$b$的影响移除后对$y$总体方差的影响移除后对残差方差的影响AP常考场景提示
回归离群值($x$正常,$y$偏离趋势)$x$接近$\bar{x}$,$y$显著偏离回归线(残差大)变大(剩余点更聚集,线性相关性增强)基本不变($x$不极端,对斜率拉力弱)变小(移除$y$极值,离散度降低)变小(移除大残差点,预测误差降低)选择题常考“移除离群值后$r$变大”
高杠杆点($x$极端,$y$贴合趋势)$x$远偏离$\bar{x}$,$y$在回归线上(残差小)变小(失去极端点支撑,线性聚集度下降)基本不变($y$贴合趋势,无偏离拉力)轻微变小($y$在正常范围,仅$x$极端)基本不变(残差本就小)选择题易混淆“高杠杆点≠影响点”
影响点(单侧:$x$极端+$y$偏离趋势)$x$远偏离$\bar{x}$,$y$显著偏离回归线(残差大)变大(移除偏离点,点更聚集)显著变化(如原被拉高→变平缓/原被拉低→变陡峭)变小(移除$y$极值)显著变小(移除高杠杆+大残差点)FRQ常考“移除影响点后斜率变平缓”
影响点(双侧:$x$极小+极大,$y$分别偏离两侧)$x$分处$\bar{x}$两端,$y$分别在回归线上下(残差大)变大(移除偏离点)轻微变化(两侧拉力相互抵消)变小(移除$y$极值)显著变小(移除大残差点)选择题考“双侧影响点移除后斜率变化小”
混合点($x$正常离群值+$x$极端影响点)一个$x$正常、$y$偏离;一个$x$极端、$y$偏离变大(移除两个偏离点)变小(高杠杆点的“拉高/拉低”拉力主导)变小(移除$y$极值)显著变小(移除两个大残差点)对应之前“Penguin+Superman”场景,FRQ考斜率变化分析

文章作者: Kezade
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kezade !
评论
  目录