经典摘录-正态随机变量

说明:全文摘自 Introduction to probability, 2nd Edition 3.3 normal random variables

正态随机变量

如果一个连续的随机变量 $X$ 的概率密度具有下列形式, 那么这个随机变量称为正态(normal)的或高斯(Gaussian)的。
$$
f_X(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{\frac{-(x-\mu)^2}{2\sigma^2}}
$$
其中 $u$ 和 $\sigma$ 是密度函数的两个参数,$\sigma$ 还必须是正数。可以证明,$f_X(x)$ 满足下面的概率密度函数的归一化条件(见本章关于定理的习题):
$$
\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{+\infty}e^{\frac{-(x-\mu)^2}{2\sigma^2}}dx=1
$$
下图是正态分布的密度函数和分布函数 $(\mu=1 \text{ 和 } \sigma^2=1)$ 。

A_normal_PDF_and_CDF_with_u=1_and_sigmal^2=1

由图可以看出,正态随机变量的概率密度函数是相对于均值 $\mu$ 对称的钟形曲线。当 $x$ 离开 $\mu$ 的时候,概率密度函数的表达式中的项 $e^{\frac{-(x-\mu)^2}{2\sigma^2}}$ 很快地下降。在图中,概率密度函数在区间 $[-1,3]$ 之外非常接近 $0$ 。

正态随机变量的均值和方差可由下列式子给出:

$$
E[X]=\mu,\quad var(X)=\sigma^2
$$

由于 $X$ 的概率密度函数相对于 $\mu$ 对称,其均值只能是 $\mu$ 。至于方差的公式,一句定义得:

$$
var(X)=\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{+\infty}(x-\mu)^2e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx
$$

将公式中的积分作积分变量替换 $y=\frac{(x-\mu)}{\sigma}$ 以及分布积分得到:

$$ \begin{eqnarray} var(X) &=& \frac{\sigma^2}{\sqrt{2\pi}}\int_{-\infty}^{+\infty}y^2e^{-\frac{y^2}{2}}dy \\ &=& \frac{\sigma^2}{\sqrt{2\pi}}(-ye^{-\frac{y^2}{2}})|^{+\infty}_{-\infty}+\frac{\sigma^2}{\sqrt{2\pi}}\int_{-\infty}^{+\infty}e^{\frac{y^2}{2}}dy \\ &=& \frac{\sigma^2}{\sqrt{2\pi}}\int_{-\infty}^{+\infty}e^{-\frac{y^2}{2}}dy \\ &=& \sigma^2 \end{eqnarray} $$

上面最后的等式,是由于

$$ \frac{1}{\sqrt{2\pi}}\int_{-\infty}^{+\infty}e^{-\frac{y^2}{2}}dy=1 $$

这个公式正好是当 $\mu=0$ 和 $\sigma^2=1$ 的时候的正态随机变量的概率密度函数的归一化条件,在本章习题第 14 题得以证明,截图如下:

the_normal_PDF_satisfies_the_normalization_property

正态随机变量具有若干重要的性质。下面的性质尤其重要,并且将在 第四章 Further Topics
on Random Variables 的第一节加以证明。

随机变量的正态性在线性变换之下保持不变

设 $X$ 是正态随机变量,其均值为 $\mu$ ,方差为 $\sigma^2$ 。若 $a\ne 0$ 和 $b$ 为两个常数,则随机变量
$$
Y=aX+b
$$
仍然是正态随机变量,其均值和方差由下式定义给出:
$$
E[Y]=a\mu+b,\quad var(Y)=a^2\sigma^2
$$

标准正态随机变量

设正态随机变量 $Y$ 的期望为 $0$ ,方差为 $1$,则 $Y$ 称为标准正态随机变量。以 $\Phi$ 记为它的 CDF :
$$
\Phi(y)=P(Y\le y)=P(Y< y)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{y}e^{\frac{-t^2}{2}}dt
$$
通常将它的值列成一个表——标准正态累积分布表(见下表:),这是计算有关正态随机变量的概率的重要的工具。标准正态表的每一项提供了 $\Phi(y)=P(Y\le y)$ 的数值,这里 $Y$ 是一个正态随机变量,这个表中 $y\in [0,4.09]$ 。怎么使用这个表呢?举例,为了查找 $\Phi(1.71)$ 的值,查看关于 $1.7$ 所在的行和 $0.01$ 所在的列,得到 $\Phi(1.71)=0.95637$ 。

注意到下表只列出当 $y > 0, \Phi(y) $ 的值,可以利用标准正态随机变量的概率密度函数的对称性,可将 $y < 0$ 时 $\Phi(y)$ 的值推导出来。例如:
$$
\begin{eqnarray}
\Phi(-0.5) &=& P(Y\le -0.5)=P(Y\ge 0.5)=1-P(Y < 0.5) \
&=& 1- \Phi(0.5) = 1-0.69146=0.30854
\end{eqnarray}
$$
可推广
$$
\forall\ y>0, \Phi(-y)=1-\Phi(y)
$$

y +0.00 +0.01 +0.02 +0.03 +0.04 +0.05 +0.06 +0.07 +0.08 +0.09
0.0 0.50000 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.53188 0.53586
0.1 0.53983 0.54380 0.54776 0.55172 0.55567 0.55966 0.56360 0.56749 0.57142 0.57535
0.2 0.57926 0.58317 0.58706 0.59095 0.59483 0.59871 0.60257 0.60642 0.61026 0.61409
0.3 0.61791 0.62172 0.62552 0.62930 0.63307 0.63683 0.64058 0.64431 0.64803 0.65173
0.4 0.65542 0.65910 0.66276 0.66640 0.67003 0.67364 0.67724 0.68082 0.68439 0.68793
0.5 0.69146 0.69497 0.69847 0.70194 0.70540 0.70884 0.71226 0.71566 0.71904 0.72240
0.6 0.72575 0.72907 0.73237 0.73565 0.73891 0.74215 0.74537 0.74857 0.75175 0.75490
0.7 0.75804 0.76115 0.76424 0.76730 0.77035 0.77337 0.77637 0.77935 0.78230 0.78524
0.8 0.78814 0.79103 0.79389 0.79673 0.79955 0.80234 0.80511 0.80785 0.81057 0.81327
0.9 0.81594 0.81859 0.82121 0.82381 0.82639 0.82894 0.83147 0.83398 0.83646 0.83891
1.0 0.84134 0.84375 0.84614 0.84849 0.85083 0.85314 0.85543 0.85769 0.85993 0.86214
1.1 0.86433 0.86650 0.86864 0.87076 0.87286 0.87493 0.87698 0.87900 0.88100 0.88298
1.2 0.88493 0.88686 0.88877 0.89065 0.89251 0.89435 0.89617 0.89796 0.89973 0.90147
1.3 0.90320 0.90490 0.90658 0.90824 0.90988 0.91149 0.91308 0.91466 0.91621 0.91774
1.4 0.91924 0.92073 0.92220 0.92364 0.92507 0.92647 0.92785 0.92922 0.93056 0.93189
1.5 0.93319 0.93448 0.93574 0.93699 0.93822 0.93943 0.94062 0.94179 0.94295 0.94408
1.6 0.94520 0.94630 0.94738 0.94845 0.94950 0.95053 0.95154 0.95254 0.95352 0.95449
1.7 0.95543 0.95637 0.95728 0.95818 0.95907 0.95994 0.96080 0.96164 0.96246 0.96327
1.8 0.96407 0.96485 0.96562 0.96638 0.96712 0.96784 0.96856 0.96926 0.96995 0.97062
1.9 0.97128 0.97193 0.97257 0.97320 0.97381 0.97441 0.97500 0.97558 0.97615 0.97670
2.0 0.97725 0.97778 0.97831 0.97882 0.97932 0.97982 0.98030 0.98077 0.98124 0.98169
2.1 0.98214 0.98257 0.98300 0.98341 0.98382 0.98422 0.98461 0.98500 0.98537 0.98574
2.2 0.98610 0.98645 0.98679 0.98713 0.98745 0.98778 0.98809 0.98840 0.98870 0.98899
2.3 0.98928 0.98956 0.98983 0.99010 0.99036 0.99061 0.99086 0.99111 0.99134 0.99158
2.4 0.99180 0.99202 0.99224 0.99245 0.99266 0.99286 0.99305 0.99324 0.99343 0.99361
2.5 0.99379 0.99396 0.99413 0.99430 0.99446 0.99461 0.99477 0.99492 0.99506 0.99520
2.6 0.99534 0.99547 0.99560 0.99573 0.99585 0.99598 0.99609 0.99621 0.99632 0.99643
2.7 0.99653 0.99664 0.99674 0.99683 0.99693 0.99702 0.99711 0.99720 0.99728 0.99736
2.8 0.99744 0.99752 0.99760 0.99767 0.99774 0.99781 0.99788 0.99795 0.99801 0.99807
2.9 0.99813 0.99819 0.99825 0.99831 0.99836 0.99841 0.99846 0.99851 0.99856 0.99861
3.0 0.99865 0.99869 0.99874 0.99878 0.99882 0.99886 0.99889 0.99893 0.99896 0.99900
3.1 0.99903 0.99906 0.99910 0.99913 0.99916 0.99918 0.99921 0.99924 0.99926 0.99929
3.2 0.99931 0.99934 0.99936 0.99938 0.99940 0.99942 0.99944 0.99946 0.99948 0.99950
3.3 0.99952 0.99953 0.99955 0.99957 0.99958 0.99960 0.99961 0.99962 0.99964 0.99965
3.4 0.99966 0.99968 0.99969 0.99970 0.99971 0.99972 0.99973 0.99974 0.99975 0.99976
3.5 0.99977 0.99978 0.99978 0.99979 0.99980 0.99981 0.99981 0.99982 0.99983 0.99983
3.6 0.99984 0.99985 0.99985 0.99986 0.99986 0.99987 0.99987 0.99988 0.99988 0.99989
3.7 0.99989 0.99990 0.99990 0.99990 0.99991 0.99991 0.99992 0.99992 0.99992 0.99992
3.8 0.99993 0.99993 0.99993 0.99994 0.99994 0.99994 0.99994 0.99995 0.99995 0.99995
3.9 0.99995 0.99995 0.99996 0.99996 0.99996 0.99996 0.99996 0.99996 0.99997 0.99997
4.0 0.99997 0.99997 0.99997 0.99997 0.99997 0.99997 0.99998 0.99998 0.99998 0.99998

现在用 $X$ 表示一个均值为 $\mu$ 和方差为 $\sigma^2$ 的正态随机变量。通过定义一个新的随机变量 $Y$ 来(“standardize”)标准化 $X$ :
$$
Y=\frac{X-\mu}{\sigma}
$$
因为 $Y$ 是 $X$ 的线性函数,所以 $Y$ 也是正态随机变量。而且
$$
E[Y]=\frac{E[X]-u}{\sigma}=0,\quad var(Y)=\frac{var(X)}{\sigma^2}=1
$$
因此,$Y$ 是一个标准正态随机变量。这个事实可以让我们用 $Y$ 重新定义 $X$ 所表示的事件,然后使用标准正态表去计算。

使用正态分布表的例子

某地区的年度降雪量是一个正态随机变量,期望为 $\mu=60$ 英寸,标准差为 $\sigma=20$ 。本年度降雪量至少为 $80$ 英寸的概率有多大?

记 $X$ 为年降雪量,令
$$
Y=\frac{X-\mu}{\sigma}=\frac{X-60}{20}
$$
显然 $Y$ 是标准正态随机变量。
$$
P(X\ge 80)=P(\frac{X-60}{20} \ge \frac{80-60}{20})=P(Y\ge \frac{80-60}{20})=P(Y\ge 1)=1-\Phi(1)
$$
其中 $\Phi$ 为标准正态累积分布函数。通过查询上表得到:$\Phi(1)=0.84134$ ,因此
$$
P(X\ge 80)=1-\Phi(1)=0.15866
$$
推广这个例子中的方法,得到如下:

正态随机变量的累积分布函数计算

对于均值为 $\mu$ 方差为 $\sigma^2$ 的正态随机变量 $X$ ,使用一下步骤:

  1. 标准化 $X$ :先减去 $\mu$ 再除以 $\sigma$ 来获取标准随机变量 $Y$ 。

  2. 从标准正态表中读取累积分布函数值:
    $$
    P(X\le x)=P(\frac{X-\mu}{\sigma}\le \frac{x-\mu}{\sigma})=P(Y\le \frac{x-\mu}{\sigma})=\Phi(\frac{x-\mu}{\sigma})
    $$
    正态随机变量经常使用在信号处理和通信工程中去对噪音和信号失真进行建模。

例3.8 信号侦测

二进制信息用信号 $s$ 传输,这个信息要么是 $-1$ 和 $+1$ 。信号在信道传输过程中会伴随一些噪声,噪声满足均值为 $\mu=0$ ,方差为 $\sigma^2$ 的正态分布。接收器会接收到混有噪音的信号 ,如果接收到的值为小于 $0$ ,那么就认为信号为 $-1$ ,如果接收到的值为大于 $0$ ,那么就认为接收到的信号为 $+1$ 。问这种判断方法的误差有多大?

误差只有出现在下面两种情况:

  1. 实际被传输的信号为 $-1$,但是噪声变量 $N$ 值至少是 $1$ ,因此 $s+N=-1+N \ge 0$ 。
  2. 实际被传输的信号为 $+1$,但是噪声变量 $N$ 值小于 $-1$ 。因此 $s+N=1+N <0$ 。

Figure_3.11_The_signal_detection

因此这种判断方法在情况1下出现误差的概率为:
$$
\begin{eqnarray}
P(N\ge 1) &=& 1-P(N < 1) = 1 - P(N<1)=1-P(\frac{N-\mu}{\sigma}<\frac{1-\mu}{\sigma}) \
&=& 1- \Phi(\frac{1-\mu}{\sigma}) \
&=& 1-\Phi(\frac{1}{\sigma})
\end{eqnarray}
$$
在第2种情况下出现误差的概率根据正态分布的对称性得到与前一种情况一样。$\Phi(\frac{1}{\sigma})$ 能够从正态分布表得到。例如对于 $\sigma=1$ ,$\Phi(\frac{1}{\sigma})=\Phi(1)=0.84134$ ,所以出现误差的概率为 $0.15864$ 。

正态随机变量扮演一个重要的角色在各种广泛的概率模型中,其原因是在物理、工程和统计中,正态随机变量能够很好地模拟许多独立因素的叠加效应。数学上,关键事实是大量独立同分布的随机变量(不必为正态)的和的分布近似地服从正态分布,而这个事实与各个和项的具体的分布无关的。这个事实就是著名的中心极限定理,这个将在本书第五章详细说明。

查看本网站请使用全局科学上网
欢迎打赏来支持我的免费分享
0%