p 值的五个常见误读 | SPSSzero 统计经验分享

p 值是现代统计里被用得最广、也被误解得最深的概念之一。严格定义是：假设原假设 H₀ 为真，观测到当前或更极端数据的条件概率。这句话看似简单，但它严禁任何"反向"的解读。

误读 1：p = 0.04 → "原假设为真的概率是 4%"

错。p 是在 H₀ 为真前提下的条件概率，不是 H₀ 为真本身的概率。前者是 P(data | H₀)，后者是 P(H₀ | data)，两者方向完全相反。

正确：p = 0.04 意味着，如果 H₀ 成立，观测到当前或更极端结果的概率只有 4%。

错。p > 0.05 只是"没有充分证据拒绝 H₀"，不等于"证实 H₀"。可能是：

正确：说"没有发现显著差异"或"在此样本中无法拒绝 H₀"。想证明"没差异"要用等效性检验（equivalence test）。

错。p 值同时受效应大小和样本量影响。样本量足够大时，一个微不足道的差异也能做出 p < 0.001 的结果。

正确：判断效应强度要看效应量（effect size，如 Cohen's d、η²、OR），而不是 p 值。

错。p 值本身有很大的抽样波动。同样的研究重做一次，p 值可能在 0.003 到 0.3 之间变化（取决于效应量和样本量）。

正确：单次研究的 p 值只是一个有噪声的样本估计，重复性研究才是真正验证结论的方式。

错。0.05 只是一个人为约定的阈值（Fisher 的建议），并不存在"跨过即真理、跨不过即错误"的突变。p = 0.049 和 p = 0.051 在证据强度上几乎无差。

正确：不要把 0.05 当作绝对门槛。最好同时报告效应量、置信区间和 p 值，让读者自己判断。

p 值的"正向"定义非常违反直觉。我们心里想问的是 P(H | D)——"给定数据，H 成立的概率"；但 p 值给的是 P(D | H)——"给定 H 成立，数据出现的概率"。两者的桥梁需要先验概率（贝叶斯推断），这恰恰是频率派方法回避的。

一个非常实用的经验：任何时候看到 p < 0.05，先问自己样本量多大、效应量多大、研究重复过吗。单一 p 值从来不是科学结论的决定性证据。