随机误差的统计处理方法

  Alu ·  2007-09-19 20:44  ·  47211 次点击
1.随机误差的正态分布规律对于随机误差的处理有完整的数学理论。由于数学基础的原因,将只限于介绍它的主要特征和结论。由误差理论可知,许多随机误差服从正态分布规律。下面通过对一组实测数据来研究一下服从正态分布规律的随机误差的特点。例如,用数字毫秒计测量一脉冲信号的周期,对100次测量数据(列于表1.2—1中)按统计方法作统计直方图。步骤如下。(1)在测量数据中找到最小值3719ms和最大值4017ms。根据两数据的大小把数据按一定组距(δx=27ms)分成若干组(n=11组)。(2)统计落在各组的数据个数ni,ni称为分组频数。分组频数ni除以数据总数n,得相对分组频数fi=ni/n,fi又称经验概率,如表1.2—2?所示。(3)以测量周期值x为横坐标,以y=fi/δx(即单位组距的相对频数)为纵坐标作图,得统计直方图,如图1.2—1所示。从统计直方图中可以发现:中间一组测量值出现的相对频数最高;左右两侧各组相对频数逐渐变小;偏离中间过远的测量值实际上不存在;每个测量值的出现是偶然的,但从总体上看测量值的分布具有一定的规律性。如果测量次数增加,当n→∞时,并使δx→dx,各组单位组距的相对频数yi就会趋向于某一确定值即概率密度值,这时统计直方图就会过渡到一条光滑的连续曲线,这条曲线称为正态分布概率密度函数曲线(如图1.2—1中的曲线)。_表1.2—1测量数据表_http://202.113.13.85/webclass/physics/syjx/jxnr/cha1/f2/table1.bmp_表1.2—2频数分布表__http://202.113.13.85/webclass/physics/syjx/jxnr/cha1/f2/table2.bmp_http://202.113.13.85/webclass/physics/syjx/jxnr/cha1/f2/1.JPG_图1.2—1统计直方图和正态分布概率密度曲线_正态分布的概率密度函数p(x)由下式给出:http://202.113.13.85/webclass/physics/syjx/jxnr/cha1/f2/gs1.gif(1.2—1)用概率密度函数p(x)来描述测量值在区间[x1,x2]出现的概率为http://202.113.13.85/webclass/physics/syjx/jxnr/cha1/f2/gs2.gif(1.2—2)显然测量值在(-∞,∞)区间出现的概率http://202.113.13.85/webclass/physics/syjx/jxnr/cha1/f2/gs3.gif(1.2—3)从正态分布的概率密度函数曲线中,可以看到测量值(随机变量)的总体分布情况。概率密度为极大的取值位置就是被测量真值A(数学中称为数学期望)。于是,通过这组实测数据可以得到随机误差的统计规律。(1)单峰性:绝对值小的误差出现的概率比绝对值大的误差出现的概率大。(2)对称性:绝对值相等的正误差和负误差出现的概率相等。(3)有界性:绝对值很大的误差出现的概率近于零。误差的绝对值不会超过某一个界限。(4)抵偿性:在一定测量条件下,测量值误差的算术平均值随着测量次数的增加而趋于零。2标准误差与置信概率在正态分布的概率密度函数中包含着随机变量的一些重要信息。一个随机变量具有两个重要的参数:数学期望(被测量真值)A和方差σ2。被测量真值A体现了测量值取值平均的大小,它反映了测量值取值的集中位置,而用方差σ2来衡量测量值取值在被测量真值A附近的散布程度。正态分布的概率密度函数曲线(如图1.2—2)反映了这两个重要参数:A是概率密度极值的取值位置,而A-σ,A+σ是曲线两个拐点的横坐标位置。定义方差http://202.113.13.85/webclass/physics/syjx/jxnr/cha1/f2/gs4.bmp(1.2—4)在误差理论中,方差σ2的平方根σ称为测量值的标准误差。显然σ越小,测量值的分布范围越小,测量的精密度越高。http://202.113.13.85/webclass/physics/syjx/jxnr/cha1/f2/2.JPG_图1.2—2正态分布中的两个参数_为了进一步理解σ的意义,可以算出测量值落入区间[A-σ,A+σ]的概率P[A-σ≤x≤A+σ]。可以证明,对于正态分布http://202.113.13.85/webclass/physics/syjx/jxnr/cha1/f2/gs5.gif(1.2—5)这个结果表明,在一定条件下对某一物理量进行任何一次测量,其取值x落入[A-σ,A+σ]区间内的可能性为68.3%,或者说x在区间[A-σ,A+σ]内的置信概率为68.3%。把上面概率表达式变换一下,即成P[x-σ≤A≤x+σ]=0.683(1.2—6)于是就可以说:在一定条件下对某一物理量进行任何一次测量,则在[x-σ,x+σ]区间内找到被测量真值A的概率为68.3%。这种说法的重要性在于它提供了一个以一定概率包含被测量真值的量值范围来表达测量结果精密度的一个途径。人们把区间[x-σ,x+σ]称为置信区间,而把在此区间包含真值的概率(P=68.3%)称为置信概率。如果把置信区间扩大到[x-2σ,x+2σ],则置信概率为95.4%;扩大到[x-3σ,x+3σ],置信概率为99.7%。因而只要对测量结果给出置信区间和置信概率就表达了测量结果的精密程度。在误差处理中,把3σ称为极限误差。3平均值和平均值的标准偏差在一定条件下对同一待测量进行多次重复测量,获得n个测量值,这n个测量值的集合称为样本或测量列。如何从已获得的数据中提取被测量真值的最佳估计是实验数据处理的一个重要问题。可以证明样本的算术平均值http://202.113.13.85/webclass/physics/syjx/jxnr/cha1/f2/gs7.gif(1.2—7)是被测量真值的最佳估计。在1.2.1节中提到服从正态分布的随机变量有两个重要参数:数学期望A和方差σ2,即被测量真值A和标准误差σ。一般情况下A和σ是未知的并无法知道,现在已用样本平均值x作为被测量真值A的最佳估计,那么如何来估计未知参数σ呢?在有限次测量中取http://202.113.13.85/webclass/physics/syjx/jxnr/cha1/f2/gs8.gif(1.2—8)作为σ的估计值。Sx称为样本的标准偏差,简称标准差。必须指出,Sx并不是严格意义下的标准误差σ,而只是它的估计值。因此当把测量结果表示为x±Sx时(如果x服从正态分布),它包含真值的概率将小于68.3%,只有测量次数较多时,x±Sx包含真值的概率才接近68.3%。前面已经介绍样本平均值x是被测量真值的最佳估计,一般情况下重复若干次测量后,可以由样本平均值x来表示测量结果。虽然平均值x是样本统计量,但是它本身也是一个随机变量。设法在同样的条件下取若干个样本(测量次数都为n次),于是就有了若干个样本平均值x1,x2…这个随机变量(x)i仍然服从正态分布。(x)i作为一个正态分布随机变量也有两个参数,真值和方差http://202.113.13.85/webclass/physics/syjx/jxnr/cha1/f2/fh1.gif。可以证明(x)i的真值与随机变量xi的真值一致,而平均值(x)i的方差http://202.113.13.85/webclass/physics/syjx/jxnr/cha1/f2/fh1.gif却是单个测量值x方差σ2的1/n倍,即http://202.113.13.85/webclass/physics/syjx/jxnr/cha1/f2/gs9-1.gif或http://202.113.13.85/webclass/physics/syjx/jxnr/cha1/f2/gs9-2.gif(1.2—9)于是平均值x的标准偏差http://202.113.13.85/webclass/physics/syjx/jxnr/cha1/f2/gs10.gif(1.2—10)Sx是平均值x的标准误差σx的估计值。如果把测量结果表示成x±Sx,当测量次数较多时,它包含被测量真值A的概率也约为68.3%。式(1.2—10)说明平均值x的离散程度要小于单个测量值x的离散程度,即平均值x的标准偏差Sx要小于单个测量值的标准偏差Sx,并且Sx随着测量次数的增加而减小。计算Sx和Sx的式(1.2—9)和式(1.2—10)称为贝塞尔公式。4t因子和置信区间由于样本标准偏差Sx只是σ的估计值,x±Sx包含真值A的概率将偏离68.3%,同样当用x±Sx表达测量结果时,它包含被测量真值的概率也将偏离68.3%,尤其当测量次数较少时,这种偏离将更加严重。为了继续用Sx报道测量结果的置信区间,那就应当在此基础上进行必要的修正。根据误差理论,对于一个正态分布样本,统计量http://202.113.13.85/webclass/physics/syjx/jxnr/cha1/f2/fh2.gif服从t分布。由t分布可以提供一个系数因子,简称t因子。用这个t因子乘以样本平均值的标准偏差Sx以求得一个置信区间x±tpSx,其置信概率为P。表1.2—3列出了不同置信概率和不同测量次数下的tP值。_表1.2—3t因子表_http://202.113.13.85/webclass/physics/syjx/jxnr/cha1/f2/table3.bmp

0 条回复

暂无讨论,说说你的看法吧!

 回复

你需要  登录  或  注册  后参与讨论!