← 返回首页

p 值的五个常见误读

p 值是现代统计里被用得最广、也被误解得最深的概念之一。严格定义是:假设原假设 H₀ 为真,观测到当前或更极端数据的条件概率。这句话看似简单,但它严禁任何"反向"的解读。

误读 1:p = 0.04 → "原假设为真的概率是 4%"

错。p 是在 H₀ 为真前提下的条件概率,不是 H₀ 为真本身的概率。前者是 P(data | H₀),后者是 P(H₀ | data),两者方向完全相反。

正确:p = 0.04 意味着,如果 H₀ 成立,观测到当前或更极端结果的概率只有 4%。

误读 2:p > 0.05 → "两组没有差异"

错。p > 0.05 只是"没有充分证据拒绝 H₀",不等于"证实 H₀"。可能是:

正确:说"没有发现显著差异"或"在此样本中无法拒绝 H₀"。想证明"没差异"要用等效性检验(equivalence test)。

误读 3:p 值越小 → "效应越大"

错。p 值同时受效应大小和样本量影响。样本量足够大时,一个微不足道的差异也能做出 p < 0.001 的结果。

正确:判断效应强度要看效应量(effect size,如 Cohen's d、η²、OR),而不是 p 值。

误读 4:"这次 p = 0.04,下次重复还是 p = 0.04 左右"

错。p 值本身有很大的抽样波动。同样的研究重做一次,p 值可能在 0.003 到 0.3 之间变化(取决于效应量和样本量)。

正确:单次研究的 p 值只是一个有噪声的样本估计,重复性研究才是真正验证结论的方式。

误读 5:p = 0.049 和 p = 0.051 是"质的不同"

错。0.05 只是一个人为约定的阈值(Fisher 的建议),并不存在"跨过即真理、跨不过即错误"的突变。p = 0.049 和 p = 0.051 在证据强度上几乎无差。

正确:不要把 0.05 当作绝对门槛。最好同时报告效应量、置信区间和 p 值,让读者自己判断。

为什么这些误读如此普遍

p 值的"正向"定义非常违反直觉。我们心里想问的是 P(H | D)——"给定数据,H 成立的概率";但 p 值给的是 P(D | H)——"给定 H 成立,数据出现的概率"。两者的桥梁需要先验概率(贝叶斯推断),这恰恰是频率派方法回避的。

一个非常实用的经验:任何时候看到 p < 0.05,先问自己样本量多大、效应量多大、研究重复过吗。单一 p 值从来不是科学结论的决定性证据。