深入理解概率分布:PMF、PDF和CDF概念解析

本文深入解析PMF、PDF和CDF的概念及应用,帮助理解概率分布的基本原理。

原文标题:概率分布深度解析:PMF、PDF和CDF的技术指南

原文作者:数据派THU

冷月清谈:

本文探讨了概率分布的基本概念,包括概率质量函数(PMF)、概率密度函数(PDF)和累积分布函数(CDF)。首先介绍了正态分布和均匀分布的基本特征。正态分布是一种常见的连续概率分布,在许多实际案例中,例如身高和考试成绩的分布中,均呈现出对称的钟形。而均匀分布则表示在特定范围内,各个结果的出现概率相等,常见于公平骰子的情况。接着,深入阐述了PMF、PDF和CDF的定义及算法原理,PMF用于离散随机变量,定义了特定值的出现概率;PDF则用于连续随机变量,表示随机变量在特定范围内的可能性,且通过积分计算;而CDF则提供了随机变量小于或等于某个值时的累积概率,能够形象化理解概率的累积特性。最后,结合具体的骰子投掷和均匀分布的例子,帮助读者更好地理解这些概念在数据科学中的重要性。

怜星夜思:

1、PMF、PDF和CDF之间有何具体区别?实际应用中各自适用于哪些场景?
2、如何从实际数据中推导出PMF、PDF和CDF?
3、在数据科学中的应用,哪些领域对这些概率分布函数需求较大?

原文内容

图片
来源:DeepHub IMBA

本文约2200字,建议阅读10分钟

本文本文将深入探讨概率分布,详细阐述概率质量函数(PMF)、概率密度函数(PDF)和累积分布函数(CDF)这些核心概念,并通过实际示例进行说明。


在深入探讨PMF、PDF和CDF之前,有必要先简要介绍两种常用的概率分布:正态分布和均匀分布。

正态分布:也称为高斯分布或钟形曲线,正态分布以其均值为中心对称。它广泛应用于描述自然界中的许多现象。诸如人口身高、标准化考试成绩、测量误差等多种实际数据集都呈现正态分布特征。

均匀分布:在均匀分布中,给定范围内的每个结果具有相等的概率。这是最基本的概率分布形式,常用于描述每个结果等可能出现的情况,如公平骰子的投掷结果或0到1之间随机数的选取。

图片

图1左侧展示了正态分布,呈现典型的钟形曲线,以平均值(此处为0)为中心。可以观察到,大多数数值集中在中心区域。右侧图表表示均匀分布,在0到1之间呈现均匀分布,表明每个值具有相等的出现概率。

在数据科学和统计学研究中,理解概率分布方式是核心任务。概率分布函数在这方面发挥着关键作用。本文将详细讨论概率密度函数(PDF)、概率质量函数(PMF)和累积分布函数(CDF)的概念。我们还将探讨如何从PMF或PDF推导CDF,并为每种情况提供具体示例。

概率质量函数(PMF)


概率质量函数(PMF)专用于描述离散随机变量。它定义了离散随机变量取特定值的概率。PMF为表示不同离散结果的概率提供了一种方法。

例如,在硬币翻转实验中,可能的结果只有正面和反面两种。公平硬币翻转的PMF可以表示为:

P(正面) = 0.5P(反面) = 0.5

另一个典型示例是投掷六面骰子。PMF表明每个结果(1,2,3,4,5,6)的概率均为0.167(约等于1/6)。

概率密度函数(PDF)


概率密度函数(PDF)用于描述连续随机变量。与为离散值分配概率的PMF不同,PDF描述了随机变量落在特定范围内的可能性。在连续分布中,任一具体点的概率为零,但我们可以通过对PDF在某个区间上进行积分来计算变量落在该区间内的概率。

正态分布(也称为高斯分布)是最常用的连续概率分布之一。其PDF可以表示为:

图片

PDF给出了连续随机变量不同值的相对可能性。

下图直观地展示了PDF和PMF。左图显示了PDF的钟形曲线,曲线下的面积代表连续变量的概率。曲线的峰值位于均值处,其展开程度由标准差决定。右图展示了PMF(以六面骰子投掷为例),表示离散结果,每个可能的结果具有相等的概率。PMF为每个可能的结果分配了具体的概率值。

图片

图3:概率密度函数(左)和概率质量函数(右)的图形表示。

累积分布函数(CDF)


累积分布函数(CDF)是一个函数,它定义了随机变量 X 小于或等于特定值 x 的概率。在数学上CDF 定义为:

F(x) = P(X ≤ x)

CDF 可以理解为概率的"累积和"。它从 0 开始,随着随机变量值的增加而增加,最终达到 1(表示总概率)。

为了更好地理解这些概念,我们将通过两个实例来说明,这些实例与前面解释 PDF 和 PMF 时使用的例子相对应:

示例1:离散随机变量的 CDF(骰子投掷)


考虑投掷一个标准六面骰子的情况。可能的结果是 {1,2,3,4,5,6},每个结果的概率均为 0.167(约等于 1/6)。

我们可以通过累加每个结果的概率来构建 CDF:

当 x = 1 时:P(X ≤ 1) 是结果小于或等于 1 的概率。F(1) = P(X = 1) = 0.167
当 x = 2 时:P(X ≤ 2) 是结果小于或等于 2 的概率。F(2) = P(X ≤ 2) = P(X = 1) + P(X = 2) = 0.167 + 0.167 = 0.333

依此类推,当 x = 6 时,CDF 包括了所有可能的结果(因为骰子不可能产生大于 6 的结果),因此总概率为 1。F(6) = P(X ≤ 6) = P(X = 1) + P(X = 2) + ... + P(X = 6) = 1

由此可见CDF 是逐步增加的,累积了每个结果的概率。如果我们绘制这个函数,会得到一个阶梯状的图形,这是离散变量 CDF 的典型特征。

示例2:连续随机变量的 CDF(均匀分布)


现在让我们考虑一个连续变量的情况。假设 X 遵循 0 到 1 之间的均匀分布。均匀分布的 PDF 在区间 [0,1] 内为常数 1,在其他区间为 0。

我们可以通过对 PDF 进行积分来计算 CDF。

对于 x = 0.2,CDF 就是从 0 到 0.2 的 PDF 下的面积。我们对 PDF 在区间 [0, 0.2] 上积分,得到结果 0.2。

对于 x = 1,我们对 PDF 在区间 [0, 1] 上积分,CDF 的值为 1。

由于这是均匀分布,CDF 从 0 线性增加到 1。如果我们绘制这个函数,如下图所示会得到一条从点 (0, 0) 到点 (1, 1) 的直线,反映了 0 和 1 之间所有值具有相等概率的特性。

图片

图4:左图显示了离散随机变量(骰子投掷)的 CDF,展示了骰子投掷结果概率的阶梯式累积。右图是连续随机变量(均匀分布)的 CDF,显示了从 0 到 1 的连续均匀分布概率的平滑线性增加。

结论


累积分布函数(CDF)是理解离散和连续设置中概率分布的强大工具。它使我们能够直观地看到任何给定点之前的累积概率,特别适用于计算区间概率。这些概念在数据分析、统计推断和机器学习算法中有广泛的应用。对于那些正在学习数据科学和统计学的读者,深入理解这些基本概念将为更高级的主题奠定坚实的基础。


编辑:王菁



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。



新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

数据科学的各个领域都有应用,比如在金融分析中评估风险和收益时就需要运用这些概率分布函数;在医疗数据分析中,统计病人恢复几率时同样涉及。

机器学习和人工智能中,尤其是在模型评估和假设检验时,PMF、PDF和CDF都是不可或缺的工具,能够直接影响分类和回归的准确性,非常重要!

PMF主要用于离散变量的概率计算,比如骰子投掷等情况;而PDF则用于连续变量,比如测量身高这样的数据。CDF则是两者的延伸,用于表示某个值的累积概率。在实际应用中,PMF常用于统计实验结果,而PDF则在物理和工程学中更为普遍。

区别主要在于适用的随机变量类型。PMF用于离散数据,像投票所得到的结果;PDF则是针对连续变量,像温度变化;而CDF则是综合了这两者的特点,适用于计算特定值之前所有结果的概率。你们觉得在机器学习中,哪个更常用呢?

简单来说,PMF像是对单个事件的详细探讨,PDF则更像是整体趋势,CDF则帮助我们找到总的结果。所以在做数据分析时,选择哪个函数取决于你手上数据的性质。

推导PMF时,你需要对离散随机变量的数据频率进行统计,算出每个结果出现的频率;而推导PDF可通过与相关的数理统计模型进行拟合来实现,或者利用直方图来可视化数据分布。CDF则是把先前的概率累计起来。具体的数据分析工具可以帮助你实现。

可以使用Python中的numpy和scipy等库来分析数据,通过数据集直接计算PMF和PDF,CDF可以通过对频率进行累加得到。对不对,我自己有时也需要查阅文档。