在上一篇中我们认识到了许多抽样分布产生的定理,如果理解它们到位了,那么后面就不会很困难,下面主要是对参数的点估计和区间估计,我们将会看到,区间估计只是上一篇的分布定理的直接应用。
下面我们强化条件,设想我们得到了一系列数据,并且知道数据服从的分布,现在想根据数据统计出该分布的参数,自然我们要关心,如何求出参数,以及参数的区间范围,换句话说,估计出的参数的多少,与可信度的关系。
由辛钦大数定律知,样本均值依概率收敛于总体均值,这就引出了矩估计法,这里我们没必要给出理论推导了,简而言之就是:“算期望(一阶矩),列等式;一阶矩不够,列高阶矩。”。
(这里的算,指的是利用样本均值构造理论分布均值的表达式,然后列线性方程组。)
举个例子:设总体$X\sim U\left( a,b \right) $,其中$a,b$为未知参数,$X_1,X_2,…,X_n$为来自总体$X_n$的一个样本,求$a,b$的矩估计量。
显然有两个位置参数,而一阶矩显然为$(a+b)/2$,则:
还差一个方程,则就接着算高阶矩:
联立解得:
这里的尖代表估计量,一般考试不会超过二阶矩,连续的变量下也是一样的,写成积分就好。
第二种方法是最大似然估计,这个的做法十分的固定,这里就略去了,但稍微指出的就是当似然函数单调时,取值的特殊情况,如果你不知道上面那句话是什么意思的话,指的就是下面这道作业题,列出这道题的原因不止是想说明上面的那个情况,还是因为这个题成分比较复杂。:
设某种元件的使用寿命$X$的概率密度为
$\theta$为未知参数,$X_1,X_2,…,X_n$为来自总体$X$的一个样本,试求$\theta$的极大似然估计和$D\hat{\theta}$
我们先按照极大似然估计的模板,依次写出:
你可能会觉得,对数似然函数单增,为了让对数似然函数尽可能的大,难道不应该尽可能的让$\theta$取大,然后迷迷糊糊写$max(X_1,X_2,…,X_n)$,这是不对的,要注意,我们是在给定样本的情况下计算的最大似然估计量,我们希望它尽可能大,但在许多概率密度函数中,比如本题的$f(x)$,一旦$\theta$超过某个$x_i$,这个$x_i$出现的概率就是0了,这就会引发矛盾,所以$\theta$只能在样本取得的情况下尽可能大,或者也可以直接记下来,似然函数单增,似然量取样本里最小的;似然函数单减,似然量取样本里最大的。
之后要计算其方差,问题就被归结为了极大/极小型随机变量密度的求解,有些同学可能忘了,所以在这里也要说明一下:
我们利用分布函数法来求解这个问题:
$X_i$独立同分布,它们的分布函数是:
所以$X_{max}$的分布函数是它们的联合分布函数:
概率密度函数直接求导即可:
$f_{min}$即为$f_{\theta}$,(回忆前面计算出的似然估计量的结果)为了计算方差,我们下面直接按照定义来计算:
要注意,矩估计法和最大似然估计法求出的估计量可能不同,以及推广到用其他的一些估计方法,求出的参数也不一定相同,如上例,如果我们改用矩估计:
结果并不相同,所以我们要有判断估计量的标准,这里有三个要求:无偏性,有效性,相合性,重点是前两个。
对于无偏性,无偏性指的就是,单纯的无偏,即理论上估计量的等号右端,精准的指向所估计的量,写成数学表达式即:
例如高阶矩,无论什么时候都是对相关原点矩的无偏估计:
再如上面的例题中对$\theta$的估计:
这就不是无偏估计。
下面再用一个例子来加深理解,即样本方差的分母为什么是$n-1$:
如果按照之前的想法,将方差的分母计成$n$,那么我们直接计算$E(S^2)$:
这个的计算与前一篇证明抽样定理(2)时的展开很类似,我们发现如果分母为$n$,此时的估计量不是无偏估计。
但如果分母为$n-1$,则最后就变为了:
就变成了无偏估计,这就是分母是$n-1$的由来。
对于有效性,有效性就是指,当有多个无偏估计时,哪个的方差小选哪个,考试不会考的很难。应该只会让计算一个方差。
对于相合性(一致性),相合性就是说要保证选取的估计量依概率收敛,即$n$取大的时候,它得收敛,一般就是利用切比雪夫不等式来验证,记忆相合性的判断可以帮助我们记忆切比雪夫不等式。相合性可以认为是在找到实数$a$使得对于所有的$\varepsilon$都有:
实际上就是切比雪夫不等式的直接应用。由切比雪夫不等式可知,此时的$E\hat{\theta}$大多数情况下是无偏的。不是无偏的情况确实没见到。可以说一致性是无偏性延申出来的,所以有时会直接证明一致无偏估计。我们以上面的样本方差$S^2$为例子。进一步证明$S^2$是总体方差$\sigma^2$的一致无偏估计。
但这里有个插曲,在推导$E(S^2)=\sigma^2$时,我们对总体的性质没有要求。也就是说不管是正态总体还是别的,这个都正确。但是如果推导我们下面的结论,我们就仅在正态总体的情况下讨论。点到为止,这样会带来很大便利。实际上如果我们考虑一般总体,那么样本方差的方差为:
计算过程这里就略过了,想说的就是在考虑一般总体时,样本方差的方差比较复杂,而如果考虑正态总体,它的四阶中心矩可通过下式确定:
上面式子的导出涉及到了伽马函数,也比较复杂,这里先略去。这样在正态总体情况下的$D(S^2)$即可被确定,从而:
那样由切比雪夫不等式:
相合性即得到证明,实际上对于正态总体下的样本方差的方差,可以借助卡方分布的性质:
接下来就是区间估计,在区间估计前,为了叙述的方便,先引入$\alpha$分位点的概念。我们以正态分布为例,实际上这个不需要记得非常清楚,因为考试会给参考值,那个其实是个提示,我们说如果对于一个$0\sim1$的正数$\alpha$,则$P(X>z_{\alpha})=\alpha$,我们就叫$z_{\alpha}$为上$\alpha$分位点,这个值可以查表得到,考试也会给出来,就好像$3-\sigma$检验的那个意思。
我们所谓作区间估计的原因,是基于这样的逻辑,对于某个情景,我们计算出一个均值$\mu_*$,我们并不清楚能不能相信他,但我们知道该数据服从的分布,所以我们可以采用某种手段,计算出在有多少把握的程度下,可以信任的区间,比如在$95\%$下,区间是$(-10,10)$。在$80\%$下,区间是$(-20,20)$,这样可以给我们一个定量的结果,当然在比较复杂的情况下,我们可能并知道数据的均值方差,这个我们后面再说,先以简单的为例。
在给出之前,我们先严格规定一下格式,这很重要,即:
对于给定的$1-\alpha$,我们称之为置信水平,我们就是为了找到那两个$\theta$的区间,将其称之为置信下限和置信上限。
①单正态$\sigma^2$已知估计$\mu$:
由于正态分布有对称性,所以可以取$\alpha/2$,回忆抽样分布定理,可以得到:
所以置信区间就是:
②单正态$\sigma^2$未知估计$\mu$
在未知的情况下,我们知道要利用证明中消去$\sigma$的那个分布,即:
其实只是将正态分布换成自由度为$n-1$的$t$分布,且将$\sigma$换成$S$,因为$\sigma$未知。
③单正态$\mu$已知估计$\sigma^2$
注意,这里要估计的是$\sigma^2$,并不能在概率的那个不等式上简单的理解为两边平方,所以我们利用分母里有$\sigma^2$并且有$\mu$的抽样分布:
注意,这里卡方分布并不对称,所以角标变成了$\alpha/2,1-\alpha/2$,正态分布时都是直接加个负号。
④单正态$\mu$未知估计$\sigma^2$
这里就不能用含$\mu$的抽样分布了,直接用抽样分布定理(2):
双正态下要掌握的几种情况可以从单正态下直接推出:
①$\sigma_1^2,\sigma_2^2$已知对$\mu_1-\mu_2$的估计:
证明与①是类似的,这里直接类比出来:
②$\sigma_1^2,\sigma_2^2$未知对$\mu_1-\mu_2$的估计:
一样可以从②中类比:
最后剩下的两个关于双正态的置信区间说的是:
③$\mu_1,\mu_2$已知对$\sigma_1^2/\sigma_2^2$估计:
④$\mu_1,\mu_2$未知对$\sigma_1^2/\sigma_2^2$估计:
这样就完成了对八个置信区间的推导,有些时候,我们会用到单侧置信区间,此时依据不同的情况,我们只需要把区间的一端释放成正/负无穷即可,总之,理解抽样分布定理十分重要,因为即使没有背下来置信区间公式,也可以有现推的机会,最后书里还给出了一种0-1分布的总体参数的置信区间,这里就不推导了,它的形式十分好记,像一元二次方程的通解: