《深度学习》学习笔记二——概率论

  |   0 评论   |   0 浏览   |   夜雨飘零

随机变量

随机变量(random variable)是可以随机地取不同值的变量。随机变量是可以离散的或者连续的,离散随机变量拥有有限或可数无限多的状态,连续随机变量伴随这实数值的。


概率分布

概率分布(probability distribution)用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。
概率质量函数(probability mass function,PMF):离散型变量的概率分布可以用概率质量函数来描述,通常使用P表示概率质量函数
概率质量函数可以同时作用于多个随机变量。这种多个变量的概率分布被称为联合概率分布(joint probability distribution).P({\bf x}=x,{\bf y}=y)表示{\bf x}=x{\bf y}=y同时发生的概率

一个函数P是随机变量x的 PMF,必须满足以下条件:

  1. P的定义域必须是x所有可能状态的集合
  2. \forall x \in {\bf x},0 \leq P(x) \leq 1 不可能发生的事件概率为 0,一定发生的事件概率为 1
  3. \sum _{x \in {\bf x}}P(x) = 1这条性质称为归一化(normalized)

如果一个离散型随机变量{\bf x}k不同的状态,如果每个每个状态的可能性都是相同的(均匀分布(uniform distribution)),那它的 PMF 为:

P({\bf x}=x_i) = \frac{1}{k}\tag{1}

因为k是一个正整数,所以\frac {1}{k}也是正的,通过下列计算:

\sum _i P({\bf x}=x_i) = \sum _i \frac{1}{k} = \frac{k}{k} = 1\tag{2}

所以均匀分布也是满足归一化条件的


边缘概率

边缘概率分布(marginal probability distribution):如果我们知道了一组变量的联合概率分布,但想要了解其中一个子集的概率分布,这个子集的概率分布称为边缘概率分布


条件概率

条件概率:在其他事件发生的条件想该事件发生的概率。计算公式如下P({\rm x}=x) > 0:

P({\rm x}=x | {\rm y}=y) = \frac{P({\rm x}=x,{\rm y}=y)}{P({\rm x}=x)}\tag{3}

例题
在一汽车工厂中,一辆汽车有两道工序是由机器人完成的,其一是紧固 3 只螺栓,其二是焊接 2 处焊点。以X表示由机器人紧固的螺栓紧固得不良的数目,以Y表示由机器人焊接的不良焊点数目。据积累的资料知(X,Y)具有分布律:

Y\X 0 1 2 3 P{Y=j}
0 0.840 0.030 0.020 0.010 0.900
1 0.060 0.010 0.008 0.002 0.080
2 0.010 0.005 0.004 0.001 0.020
P{X=i} 0.910 0.045 0.032 0.013 1.000

求在X=1的条件下,Y的条件分布律

P\{Y=0|X=1\}=\frac{P\{X=1,Y=0\}}{P\{X=1\}}=\frac{0.030}{0.045}
P\{Y=1|X=1\}=\frac{P\{X=1,Y=1\}}{P\{X=1\}}=\frac{0.010}{0.045}\tag{4}
P\{Y=2|X=1\}=\frac{P\{X=1,Y=2\}}{P\{X=1\}}=\frac{0.005}{0.045}

独立性和条件独立性

相互独立(independent):两个随机变量 x 和 y,如果他们的概率分布可以表示成两个因子的乘积形式,并且一个因子只包含 x,另一个因子只包含 y,我们就能称这两随机变量是相互独立的。计算如下:

\forall x \in {\rm x},y \in {\rm y},p({\rm x} = x,{\rm y} = y)=p({\rm x} = x)p({\rm y} = y\tag{5})

例题
实验E为“抛甲、乙两枚硬币,观察正(H)反(T)面出现的情况”。设事件A为“甲币出现 H”,事件 B 为“乙币出现 H”。E的样本空间:

S=\{HH,HT,TH,TT\}\tag{6}

即:

P(A)=\frac{2}{4}=\frac{1}{2},P(B)=\frac{2}{4}=\frac{1}{2} \\ P(B|A)=\frac{1}{2},P(AB)=\frac{1}{4}\tag{7}

由上可得P(B|A)=P(B),而P(AB)=P(A)P(B)。所以我们知道甲币是否出现正面与乙币是否出现正面是互不影响的。

条件独立(conditionally independent):如果关于 x 和 y 的条件概率分布对于z的每一个值都可以写成乘积的形式那么这两个随机变量 x 和 y 子在给定随机变量z时是条件独立的,计算如下:

\forall x \in {\rm x},y \in {\rm y},z \in {\rm z},p({\rm x} = x,{\rm y} = y | {\rm z} = z)=p({\rm x } = x | {\rm z} = z)p({\rm y} = y | {\rm z} = z)\tag{8}

数学期望

设离散型随机变量X的分布律如下:

P\{X=x_k\}=p_x,k=1,2,3,\ldots\tag{9}

若是级数绝对收敛,则称级数\sum_{k=1}^\infty x_k p_k的和为随机变量X的数学期望,记作E(X),公式如下:

E(X)=\sum_{k=1}^\infty x_k p_k\tag{10}

设连续型随机变量X的概率密度为f(x),若为积分绝对收敛,则称积分\int_{-\infty}^\infty xf(x)dx的值为随机变量X的数学期望,记作E(X),公式如下:

E(X)=\int_{-\infty}^\infty xf(x)dx\tag{11}

数学期望简称期望,又称均值。
数学期望E(X)完全由随机变量X的概率分布所确定的,若X从某一分布,也称为E(X)是这一分布的数学期望
离散型例题
某医院当新生儿诞生时,医生要根据婴儿的皮肤颜色、肌肉弹性、反应的敏感性、心脏的搏动等方面的情况进行评分,新生儿的得分X是一个随机变量,根据以往资料表明X的分布律为:

X 0 1 2 3 4 5 6 7 8 9 10
p_k 0.002 0.001 0.002 0.005 0.02 0.04 0.18 0.37 0.25 0.12 0.01

X的数学期望E(X)

E(X)=0\times0.002+1\times0.001+2\times0.002+3\times0.005+4\times0.02+\\ 5\times0.04+6\times0.18+7\times0.37+8\times0.25+9\times0.12+10\times0.01=7.15

连续型例题
有两个相互独立工作的电子装置,它们的寿命(以小时计)X_k=(k=1,2)服从同一指数分布,其概率密度为:

f(x)=\left\{\begin{matrix}\frac{1}{\theta}e^{-x/\theta},& x > 0 \\ 0,& x \leq0\end{matrix}\right., \quad \theta > 0\tag{12}

若将这两个电子装置串联连接组成整机,求整机寿命(以小时计)N的数学期望。
解:X_k(k=1,2)的分布函数为:

F(x)=\left\{\begin{matrix}1-e^{-x/\theta},& x > 0 \\ 0,& x \leq0\end{matrix}\right.\tag{12}

N=\min\{X_1,X_2\}的分布函数

F_{\min}(x)=1-[1-F(x)]^2=\left\{\begin{matrix}1-e^{-2x/\theta},& x > 0 \\ 0,& x \leq0\end{matrix}\right.\tag{13}

因而N的概率密度为:

f_{\min}(x)=\left\{\begin{matrix}\frac{2}{\theta}e^{-2x/\theta},& x > 0 \\ 0,& x \leq0\end{matrix}\right.\tag{14}

于是N的数学期望为:

E(N)=\int_{-\infty} ^\infty xf_{\min}(x)dx=\int_0^\infty\frac{2x}{\theta}e^{-2x/\theta}dx=\frac{\theta}{2}\tag{15}

方差

方差(variance)设X是一个随机变量,若E\{[X-E(X)]^2\}存在,则称E\{[X-E(X)]^2\}X的方差,记为D(X)Var(X),即:

D(X)=Var(X)=E\{[X-E(X)]^2\}\tag{16}

如果方差很小是,X的值形成的簇比较接近它们的数学期望。方差的平方根\sqrt{D(X)}称为标准差(standard deviation)或均方差(mean square deviation)
X为离散型随机变量时:

D(X)=\sum_{k=1}^\infty[x_k-E(X)]^2p_k\tag{17}

X为连续型随机变量时:

D(X)=\int_{-\infty}^\infty[x-E(X)]^2f(x)dx\tag{18}

协方差

E\{[X-E(X)][Y-E(Y)]\}称为随机变量 X 与 Y 的协方差(covariance),记作Cov(X,Y),公式如下:

Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}\tag{19}

\rho_{xy}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}\tag{20}

称为随机变量XY相关系数(correlation)


协方差矩阵

二维随机变量(X_1,X_2)有四个二阶中心矩(设它们都存在),分别记为:

c_{11} = E\{[X_1-E(X_1)]^2\} \\ c_{12} = E\{[X_1-E(X_1)][X_2-E(X_2)]\} \\ c_{21} = E\{[X_2-E(X_2)][X_1-E(X_1)]\} \\ c_{22} = E\{[X_2-E(X_2)]^2\} \tag{21}

将它们排列成矩阵的形式:

\left( \begin{matrix} c_{11} & c_{12} \\ c_{21} & c_{22} \end{matrix} \right) \tag{22}

这个矩阵称为随机变量(X_1,X_2)协方差矩阵(covariance matrix)


常用的概率分布

Bernoulli 分布

Bernoulli 分布(Bernoulli distribution)是单个二值随机变量的分布,它由单个参\phi \in [0,1]控制,\phi给出了随机变量等于 1 的概率。

Multinoulli 分布

Multinoulli 分布(multinoulli distribution)或者范畴分布(categorical distribution)是指在具有k个不同状态的单个离散随机变量上的分布,其中k是一个有限值。

高斯分布

高斯分布(Gaussian distribution)也叫正态分布(normal distribution):

{\ N}(x;\mu,\sigma^2)=\sqrt{\frac{1}{2\pi \sigma^2}}{\rm exp}(-\frac{1}{2\sigma^2}(x-\mu)^2)\tag{23}

\mu=0,\sigma=1是,这个我们称为标准正态分布(standard normal distribution)


常用函数

logistic sigmoid 函数

公式:

\sigma(x)=\frac{1}{1+{\rm exp}(-x)}\tag{24}

logistic sigmoid 函数图

这里写图片描述
*图片来自网络

softplus 函数

公式:

\varsigma(x)=\log(1+\exp(x))\tag{25}

softplus 函数名来源于它是另一个函数的平滑(或"软化")形式,这个函数是:

x^+=\max(0,x)

softplus 函数的图
softplus 函数图
*图片来自网络


参考资料

  1. lan Goodfellow,Yoshua Bengio,Aaron Courville.深度学习(中文版).赵申剑,黎彧君,符天凡,李凯,译。北京:人民邮电出版社
  2. 浙江大学,盛骤,谢式千,潘承毅。工程数学-概率论与数理统计(第四版).北京:高等教育出版社

标题:《深度学习》学习笔记二——概率论
作者:夜雨飘零
地址:https://blog.doiduoyi.com/articles/1584970224843.html

评论

发表评论