打开/关闭菜单
切换首选项菜单
打开/关闭个人菜单
未登录
未登录用户的IP地址会在进行任意编辑后公开展示。

概率密度函数

✨寻星知识库——携手与您,寻觅群星。

概率密度函数 (Probability Density Function, PDF) 是理解连续型随机变量的关键。


回顾:离散型随机变量和概率质量函数 (PMF)

对于离散型随机变量 X(比如掷骰子的点数),它可以取一系列离散的值 x₁, x₂, x₃, ...

  • 我们用概率质量函数 (Probability Mass Function, PMF),通常表示为 P(X=x) 或者 p(x),来描述随机变量 X 取某个特定值 x 的概率。
  • 比如掷一个公平的骰子,X 可以取 {1, 2, 3, 4, 5, 6}。P(X=1) = 1/6, P(X=2) = 1/6, 等等。
  • 关键特性
    1. 0 ≤ P(X=xᵢ) ≤ 1:任何一个特定结果的概率都在0和1之间。
    2. ∑ P(X=xᵢ) = 1:所有可能结果的概率加起来必须等于1(因为必然会发生其中一个结果)。

进入连续型随机变量和概率密度函数 (PDF)

现在想象一个连续型随机变量 Y(比如一个城市明天的最高气温,一个灯泡的寿命,一个学生的身高)。Y 可以取某个区间内的任何一个值。

  • 问题来了:对于连续型随机变量,它取到 某一个精确值 的概率是多少?比如,明天气温恰好是 25.000000...℃ 的概率是多少?
    • 答案是:0
    • 为什么?因为在一个连续的区间内,有无限多个可能的精确值。如果每个精确值都有一个大于零的概率,那么把这些无限多个大于零的概率加起来就会远大于1,这不符合概率的基本公理。
  • 解决方案:概率密度函数 (PDF)
    • 既然我们不能谈论取某个精确值的概率,我们就谈论随机变量落入一个区间的概率。
    • 概率密度函数,通常表示为 f(y) 或 fₓ(y) (如果需要指明是随机变量X的PDF),它本身不是概率
    • f(y) 的值可以大于1(这与PMF不同,PMF的值不能大于1)。
    • 它的意义在于:PDF曲线下方,某个区间 [a, b] 上的面积,等于随机变量 Y 落在这个区间 [a, b] 内的概率。
      • 即:P(a ≤ Y ≤ b) = ∫ₐᵇ f(y) dy (这里 ∫ 就是积分符号)

理解概率密度函数 f(y)

你可以把 f(y) 想象成一种“概率的密度”或“概率的集中程度”。

  • 如果 f(y) 在某个点 y₀ 附近的值比较大,说明随机变量 Y 的取值更有可能出现在 y₀ 附近。
  • 如果 f(y) 在某个点 y₁ 附近的值比较小,说明随机变量 Y 的取值不太可能出现在 y₁ 附近。

为什么 PDF 在整个定义域上的积分必须为 1?

这直接源于概率论的基本公理:某件事情必然发生的概率是1

  1. 对于一个随机变量 Y,它必然会取其定义域 (domain) 内的某个值。定义域就是 Y 所有可能取值的集合。通常,对于没有特殊限制的连续型随机变量,我们认为其定义域是 (-∞, +∞)。
  2. 所以,随机变量 Y 取其定义域内某个值的概率必须是 1。
    • 用数学语言表达就是:P(-∞ < Y < +∞) = 1 (或者如果 Y 的定义域是 [c, d],那么 P(c ≤ Y ≤ d) = 1)。
  3. 根据 PDF 的定义,P(a ≤ Y ≤ b) = ∫ₐᵇ f(y) dy。
  4. 那么,P(-∞ < Y < +∞) 就等于 PDF f(y) 在其整个定义域 (-∞, +∞) 上的积分: ∫₋∞⁺∞ f(y) dy
  5. 因为 P(-∞ < Y < +∞) 必须等于 1,所以: ∫₋∞⁺∞ f(y) dy = 1

总结 PDF 的关键特性:

  1. 非负性 (Non-negativity):对于所有的 y,f(y) ≥ 0。
    • 虽然 f(y) 不是概率,但它是用来计算概率的。如果 f(y) 可能是负的,那么我们计算出来的面积(概率)也可能是负的,这不符合概率的定义。
  2. 积分为1 (Normalization condition):∫₋∞⁺∞ f(y) dy = 1。
    • 这表示随机变量必然取其定义域内的某个值,总概率为1。
  3. 计算区间概率:P(a ≤ Y ≤ b) = ∫ₐᵇ f(y) dy。
    • 注意:对于连续型随机变量,P(a ≤ Y ≤ b) = P(a < Y ≤ b) = P(a ≤ Y < b) = P(a < Y < b),因为 Y 取到精确值 a 或 b 的概率是0。

一个简单的类比 (可能不完美,但有助于理解):

想象你有一公斤的沙子 (总概率为1)。

  • 离散情况 (PMF):你把这一公斤沙子分成几堆,放在不同的离散位置上。每堆沙子的重量就是 P(X=x)。所有堆的沙子重量加起来是一公斤。
  • 连续情况 (PDF):你把这一公斤沙子沿着一条线连续地铺开。f(y) 描述的是在 y 这个位置沙子铺得有多“密”(密度)。你取线上任意一段 [a, b],这一段上沙子的总重量 (通过积分密度得到) 就是随机变量落在这个区间的概率。把整条线上所有沙子的重量加起来 (积分整个定义域),总重量仍然是一公斤。
寻星知识库使用 Cookie 技术提升您的浏览体验,这需要在您的浏览器存储部分信息。禁用 Cookie 将导致部分功能无法正常使用。 寻星团队将严格遵守隐私政策,并尽可能保护您的信息安全。 继续浏览寻星知识库,视为您同意启用 Cookie 并生成、存储相关数据。