置信区间 vs 预测区间:数据科学中不确定性量化的利器

置信区间和预测区间,量化数据科学中不确定性的利器,你真的了解它们的区别吗?

原文标题:置信区间与预测区间:数据科学中的不确定性量化技术深度解读

原文作者:数据派THU

冷月清谈:

文章深入讲解了置信区间和预测区间这两个在数据科学中常用的不确定性量化工具。置信区间用于估计总体参数(如均值)的范围,反映了采样误差带来的不确定性。它关注的是用样本估计总体参数的可靠性,例如估计300平方米住宅的平均价格。
预测区间则用于估计单个未来观测值的范围,不仅考虑了模型估计的误差,还包含了单个观测值本身的随机波动。它关注的是对未来单个事件的预测,例如预测某套300平方米住宅的具体价格。
预测区间通常比置信区间更宽,因为它包含了更多的不确定性。误用置信区间代替预测区间会导致低估实际的不确定性,从而影响决策的准确性。文章通过房价预测的例子,清晰地解释了这两个概念的区别及其应用场景。

怜星夜思:

1、除了房价预测,置信区间和预测区间在其他领域还有哪些实际应用?
2、如何选择合适的置信水平?过高或过低的置信水平会带来什么影响?
3、文章提到小样本量会导致置信区间变宽。除了增加样本量,还有什么方法可以缩小置信区间的宽度?

原文内容

图片
来源:DeepHub IMBA‍‍‍
本文约3100字,建议阅读10分钟
本文深入探讨了统计学中两个常见但容易混淆的不确定性量化工具:置信区间和预测区间。


在数据科学实践中,结果的可靠性评估至关重要。准确理解结果的可靠程度能够为决策制定提供有力支持。


当我们能够量化结果的不确定性水平后,可以将其应用于以下方面:


  • 进行场景规划,评估最优和最劣情况;

  • 开展风险评估,分析对决策的影响程度;

  • 实施模型评估,对比不同模型的性能表现;

  • 向决策者阐述结果的可信程度。


不确定性的来源分析


考虑一个具体示例:假设我们需要估算300平方米住宅的平均价格。显然收集所有300平方米住宅的数据是不切实际的,我们只能基于具有代表性的样本子集计算平均价格。


这就引出了不确定性的根源:采样过程。我们仅能获取总体的一个子集或样本的信息。由于样本无法完美代表整个总体,样本估计值与真实总体参数之间必然存在偏差,这种偏差即为采样误差。不同的采样方式会导致不同的结果。比如对同一类型住宅进行两次采样,得到的平均价格可能会有所不同。


在预测平均价格时,由于无法获取全部总体数据,只能基于总体的子集构建模型。这导致了采样不确定性的产生,因为无法准确获知平均价格(因变量)与面积(自变量)之间的精确关系。采样过程必然带来不确定性,这种不确定性需要通过科学的方法进行量化。所以可以通过设定一个预期真值所在的区间来实现这一目标。区间范围越窄,表明估计的确定性越高(假设区间具有足够的覆盖率)。


在统计学中,量化不确定性通常使用两个经常被混淆的概念:置信区间预测区间


这两个概念在统计学中具有基础性地位,因此在数据科学领域也有广泛应用。从宏观角度看,它们都为目标变量的估计提供了概率意义上的上下界,形成了量化不确定性的区间。


从更深层次来看,这两个概念描述的是不同的统计特性。因此不应该将它们等同使用。若将置信区间误解为预测区间,可能导致对不确定性的错误认知,进而影响决策的准确性。


本文旨在帮助读者理解这两个概念的区别,将详细讨论置信区间和预测区间各自的度量对象,并据此分析它们的差异及其适用场景。让我们首先探讨使用更为广泛的置信区间。


置信区间


置信区间用于量化从样本集估计总体参数(如均值)时的采样不确定性。它反映了采样参数平均响应的不确定性程度。


仍以房价估算为例。我们需要估计300平方米住宅的平均价格。总体包含该类别的所有住宅。由于无法获取所有住宅的数据,只能收集部分住宅的样本数据。


针对采集的样本,可以通过以下公式计算样本均值的置信区间:


图片


其中:x 表示均值z 表示置信水平对应的标准差倍数(95%置信水平时取1.96,99%置信水平时取2.576)s 表示样本标准差n 表示样本容量。


这个过程可以对总体的不同样本重复进行。


置信区间的正确解读


置信水平95%的实际含义是:如果重复进行多次采样过程,约95%的区间会包含真实的总体参数。这里的置信水平描述的是区间构建过程的长期特性,而非针对某个具体区间的特性。这并不意味着真值有95%的概率落在某个特定样本的区间内。这种解释方式体现了频率学派的统计思想。


图片


上图展示了从正态分布中抽取不同样本并计算90%置信区间的情况。红色列表示不包含总体均值的置信区间。


这是一个需要仔细辨别的重要差异:95%的置信水平描述的是区间构建过程的整体特性,而非单个具体区间的性质。


以300平方米住宅为例,假设我们得到的95%置信区间为400,000元到1,000,000元。这意味着如果我们进行大量重复采样,约95%的样本产生的置信区间会包含真实均值。这种表述强调了在重复采样和区间计算过程中捕获真实均值的长期概率特性。


在实际应用中,人们常说"我们有95%的把握认为真实总体均值位于400,000元到1,000,000元之间"。虽然这种表述并不准确(因为它暗示了对特定区间的确定性),但这种表述方式更易于理解,它体现了95%的类似计算区间会包含真实参数这一特性。


置信区间宽度的影响因素


从前述公式可以看出,影响置信区间宽度的主要因素有两个:总体方差和样本容量。


总体方差越大,样本之间的差异就越显著。这会导致样本标准差增大,进而使置信区间变宽。这种现象是合理的,因为更大的变异性意味着采样参数与总体参数的差异可能更大。


较大的样本容量能够降低异常值的影响,同时提高样本的代表性。这使得估计更为可靠从而产生更窄的置信区间。这一点在公式中也得到了体现:随着样本容量增加,分母变大,区间宽度相应减小。相反小样本容量会导致置信区间变宽,这是因为较少的采样提供的信息量较小,且更容易受到采样误差的影响。


预测区间


预测区间用于量化基于特定自变量值和历史数据对未来单个观测值预测的不确定性。它需要同时考虑预期值估计的不确定性和个体值的随机波动。


如果德国300平方米住宅的95%预测区间为400,000元到1,000,000元,这表明任一300平方米住宅的实际价格有95%的概率落在该区间内。


预测区间宽度的影响因素


预测区间的宽度主要受两个因素影响:模型估计的方差和目标变量的方差。与置信区间类似预测区间需要考虑模型估计的变异性。估计的方差越大,不确定性程度越高,预测区间就越宽。


预测区间还需要考虑目标变量本身的方差。目标变量的固有波动性越大,预测区间的宽度也会相应增加。


在理解了这些基本概念后,我们来探讨它们之间的关键差异。


置信区间与预测区间的核心差异


置信区间的特征


  • 用于描述总体参数(如均值或回归系数)的不确定性。(虽然"我们有95%的把握认为总体均值落在这个范围内"这种表述在技术上并不严格准确)

  • 主要关注历史数据和当前状态的分析


预测区间的特征


  • 用于描述具体预测值的不确定性。("我们有95%的把握认为下一个观测值会落在这个范围内")

  • 主要关注对未来状态的预测考虑以下回归分析模型:


图片


其中:y 代表目标变量E[x|y] 代表条件期望响应x 代表特征变量beta_0 代表斜率系数beta_1 代表截距系数epsilon 代表随机误差项。


置信区间量化了条件期望值 E[y|x] 估计的采样不确定性。而预测区间则反映了 y 整个取值范围的不确定性,而不仅限于期望值。


图片


上图示说明了置信区间与预测区间的区别:置信区间描述了给定x条件下y均值的不确定性(即 E[y|x]),而预测区间描述了给定x条件下单个y值的不确定性。


还是以房价预测的线性回归模型为例:对于300平方米的住宅,95%置信区间可能是(250,000元,270,000元),而95%预测区间则可能是(220,000元,300,000元)。


可以观察到预测区间明显宽于置信区间并且这是合理的。因为预测区间不仅需要考虑均值估计的不确定性,还要包含单个观测值的随机变异。预测区间反映了单个300平方米住宅价格的波动范围,而置信区间仅反映了该类住宅平均价格的估计精度。


所以如果使用置信区间来表示单个未来观测值的不确定性,可能会导致对预测精度的错误判断。


图片


总结


本文深入探讨了统计学中两个常见但容易混淆的不确定性量化工具:置信区间和预测区间。文章通过详细的理论分析和具体示例,阐明了这两种区间的本质区别:置信区间用于量化总体参数(如均值)估计的不确定性,主要反映采样过程带来的统计不确定性;而预测区间则用于量化单个未来观测值的不确定性,需要同时考虑模型估计和随机变异的双重影响。


这种区别直接导致了预测区间通常比置信区间更宽。理解这两种区间的差异对于正确评估和解释数据分析结果至关重要,能够帮助数据科学从业者在实践中做出更准确的判断和决策。通过准确理解和恰当使用这两种统计工具,我们能够更好地量化和传达分析结果中的不确定性,从而提供更可靠的数据支持。


作者:Jonte Dancker


编辑:黄继彦



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。



新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

如果对风险特别敏感,比如在医疗领域,可能需要更高的置信水平;如果更关注精确性,比如一些工程应用,可以选择较低的置信水平。总的来说,具体情况具体分析吧!

“如何选择合适的置信水平?过高或过低的置信水平会带来什么影响?”这个问题提的很好,除了增加样本量,降低总体方差也能缩小置信区间宽度。总体方差越小,样本估计值与总体真值之间的差异就越小,置信区间自然就更窄了。

对对对,工业生产中也可以用,比如估计产品的合格率,或者预测设备的寿命,都能用到这两个概念。

我觉得在医学领域应该也挺常用的吧,比如估计某种药物的有效率或者某种疾病的患病率,应该可以用置信区间;预测某个病人未来一段时间的病情变化,应该可以用预测区间。

置信水平的选择其实是在精确性和可靠性之间做权衡。较高的置信水平(如99%)意味着更大的把握包含真值,但区间也会更宽,降低了精确性。较低的置信水平(如90%)区间更窄,精确性更高,但包含真值的把握也更小。

在金融领域,比如预测股票价格、风险评估等等,肯定也需要考虑不确定性,这时候置信区间和预测区间就能派上用场了。

改进测量方法或者控制实验条件,可以有效降低测量误差,从而降低总体方差,最终缩小置信区间。

一般来说,95%的置信水平比较常用,算是一个比较平衡的选择。当然,具体选择还是要根据实际情况和对风险的容忍度来决定。

如果知道一些先验信息,也可以利用贝叶斯方法来估计参数,这样可以有效利用先验信息来提高估计的精度,从而缩小置信区间。