从本篇开始来介绍随机变量及其分布,借此可以引申出一些常用的分布函数。(我不想上课)
当样本空间$\varOmega$的元素不是数时,比较难以描述,所以我们构建了这样的映射关系,使得样本空间的每一个元素都与一个实数对应起来,这个概念就是随机变量。
定义 设$\varOmega=\left\{ \omega \right\} $是随机试验的样本空间,称定义在样本空间$\varOmega$上的单值实值函数$X=X\left( \omega \right) $为随机变量
随机变量会是一个实数,这样样本空间的元素都可以用一个数来表达,一般地,$\forall L\subset \mathbf{R}$,则$\left\{ X\in L \right\} $表示$\left\{ \omega |X\left( \omega \right) \in L \right\} $中满足条件的样本点组成的事件,可以将其视作数字之间的比较。当$L=\left( -\infty ,x \right] $时,随机事件$\left\{ X\in L \right\} =\left\{ X\leqslant x \right\} $有概率$P\left( X\leqslant x \right) $。这样就有了一个定义在$\mathbf{R}$上的函数$F(x)$,我们叫它分布函数。它具有如下性质:
①$0\leqslant F\left( x \right) \leqslant 1\left( x\in \mathbf{R} \right) ,F\left( -\infty \right) =0,F\left( +\infty \right) =1$
②$F(x)$单调不减,当$x_1<x_2$时,$F(x_1)\leqslant F(x_2)$。(没有说它单增)
③$F(x)$右连续,即$F\left( x+0 \right) =F\left( x \right) $。(没说它左连续)
其中第三条在某些离散型或者被人为构造出的分布函数中会带来困惑,例如:
设随机变量$X$的分布函数
求$P(x=1)$:
$P\left( x=1 \right) =F\left( 1 \right) -F\left( 1-0 \right) =1-e^{-1}-\frac{1}{2}=\frac{1}{2}-e^{-1}$,其中$F(1-0)$实际上表达的是$0\leqslant x<1$时$F(x)$右连续的性质。
并且当一个函数满足①②③时,它一定是某个随机变量的分布函数。证明这里我们就不管了。
在高中的时候我们已经对离散型随机变量有了一定的认识,所以书上关于离散型随机变量的内容我们先跳过了,一些必要的内容后面再补充。当$X$是一个连续型随机变量的时候,如果存在非负可积函数$f(x)$,使得:
则$f(t)$为$X$的概率密度函数,简称概率密度。这里密度一词其实有一点线密度的感觉。我们要注意,概率密度和概率,并不是一回事。之前我们都听过一个例子,叫“概率为0的事情也可以发生”。最经典的说法是一个数轴上选一个点,则抽一个数等于这个点的概率是0。这个事情的深入解释需要引入测度论里的知识,我们做一些浅显的理解就好了。
对于连续型随机变量,$P(X=x)$实际上是0。真正有意义的是在某一区间处的概率,也就是$P\left( x\leqslant X\leqslant x+\mathrm{d}x \right) =F\left( x+\mathrm{d}x \right) -F\left( x \right) =f\left( x \right) \mathrm{d}x$,所以实际上$f(x)$在孤立点的值并不是概率,我们可以将$f(x)\mathrm{d}x$看成在极小点处的概率,所以概率密度和概率并不一样,也就是说概率密度会出现某些值大于1的情况,但是这都是正常的,只要它从负无穷积到正无穷的值是1即可。
现在对于连续型的数据,我们也可以有刻画它的工具了。那么在实际应用中,许多时候我们研究的是以随机变量函数为自变量的函数,比如工厂车床加工的圆盘的半径的误差符合一个以$\mu$为均值$\sigma^2$为方差的正态分布,但我们实际关心的是制造出的圆盘的面积的概率分布。对于离散型的数据,这样很简单,我们只需要直接计算就好了。下面我们给出一个通用的办法:分布函数法。
设随机变量$X$服从$N(\mu,\sigma^2)$,求随机变量$Y=aX+b(a\ne0)$的概率密度。
设$Y$的分布函数为$F_Y(y)$则当$a>0$时:
$a<0$时,道理是一样的,要注意变号。
所以$Y$的概率密度为:
上面我们借助单次积分定义一个连续的概率密度函数,那么自然可以推广到重积分,那么就是多维随机变量及其分布,这里我们重点讨论二维的情形,因为比较直观。如果一个二元函数$F(x,y)$有如下的性质:
①$0\leqslant F\left( x,y \right) \leqslant 1,F\left( -\infty ,y \right) =F\left( x,-\infty \right) =F\left( -\infty ,-\infty \right) =0,F\left( +\infty ,+\infty \right) =1$
②固定一个变量,$F(x,y)$是另一个变量的单调不减函数
③固定一个变量,满足右连续
通过$F(x,y)$的定义,可以推出一个有用的判断一个二元函数是否为一个二维随机变量的分布函数的方法,取$x_1<x_2,y_1<y_2$,则有:
这是由于实际上上面的式子表达了$P\left( x_1<X\leqslant x_2,y_1<Y,\leqslant y_2 \right) $,它自然是非负的。那么关于二维连续型随机变量的定义就是如果存在$f(x,y)$使得
这是个二重积分,那么很自然会引出当固定其中一个积分变量时,积分的结果。这个结果被记作边缘概率密度:
实际上就是问,不考虑另一个变量时某个变量为一个值时的概率。
我们知道,随机变量可以表示随机事件,随机事件中存在条件概率。那么实际上也可以将条件概率引入随机变量的分布上来,即条件分布。我们先写出离散条件下的形式:
在这里用一个例子来停顿一下,这样有助于我们理解。因为上面的内容公式和符号堆砌的太多了,并不能很好的让人理解。假设一个枪手正在射击,击中目标的概率为$p(0<p<1)$,直至击中目标两次为止。设$X$为首次击中目标所进行的射击次数,$Y$表示总共进行的射击次数,试求$(X,Y)$的联合分布律与条件分布律。
我们分析这个问题,条件分布往往都很抽象,我们先从联合分布入手。这里我们显然注意到,$X$和$Y$是有关系的,我们虽然说不出是什么关系,但我们可以确定他们肯定不是独立的。当$X=m,Y=n$时,如果$m \geqslant n$,显然概率$P(X=m,Y=n)=0$。如果$m<n$,那么也就是在$n-1$次里击中了一次,并且是在$m$次击中的。那么$P(X=m,Y=n)=p^2(1-p)^{n-1}$。
所以我们就有了联合分布:
那么为了求条件分布,只要求出$P(X=m),P(Y=n)$即可。我们可以直接计算,对于$P(X=m)$,即前$m-1$次不中,即$p(1-p)^{m-1}$。对于$P(Y=n)$,即两次射中,一次在前$n-1$里,有$n-1$种可能,为$(n-1)p^2(1-p)^{n-2}$。
如果用上面的边缘概率的定义来算,我们会发现是一样的:
最后计算条件分布律:
我建议在这里停留一小会儿感受一下上面条件分布计算的结果:当给定$Y=n$时,第一次击中是第几次的概率是均匀分布的,这个值与$p$无关。因为在$Y=n$发生的情况下,所以前面一定击中了一次,概率是$1/(n-1)$。但是是不知道$p$的。反过来,知道$X=m$了,那么$Y=n$就是与$p$有关的了,因为在不知道具体的概率值的情况下,是不可能进行估计的。这里体现了先验和后验的微妙区别。
连续情况下的条件分布,我们称之为条件概率密度:
我们用一道例题练习一下:
求条件概率密度$f_{Y|X}\left( y|x \right) $,和条件概率$P\left( X\leqslant 1|Y\leqslant 1 \right) $。
连续时的情况和离散型的时候其实是一样的,但要注意变量取值范围,这会影响积分区间。
首先计算各自的边缘概率分布:
然后计算条件概率密度:
之后的概率直接按照定义进行计算:
现在我们进一步考虑了联合分布,那么自然我们要考虑一种特殊的情况:即随机变量间独立。我们不加推理,直接给出结论,当$X$与$Y$相互独立时:
歇一口气缓一下,这简短的一篇与上一篇相比,实际上是将我们对概率的认识,从一个单纯的“事件$A$发生的概率”扩展到一个离散型的情景“$A$取1的概率是xx,$A$取2的概率是xx…”,进一步,由极限和高等数学,我们得到了一个更为抽象的连续型表达,很遗憾我没有时间对这些稍微抽象的概念在这里给出一些更多的例子和解释了。