正态概率分布
仪器信息网 · 2009-07-02 13:55 · 33523 次点击
又叫正态分布normaldistribution
一种概率分布。正态分布是具有两个参数μ和σ2的连续
型随机变量的分布,第一参数μ是服从正态分布的随机变量的均值,第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ,σ2)。服从正态分布的随机变量的概率规律为取μ邻近的值的概率大,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。正态分布的密度函数的特点是:关于μ对称,在μ处达到最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点。它的形状是中间高两边低,图像是一条位于x轴上方的钟形曲线。当μ=0,σ2=1时,称为标准正态分布,记为N(0,1)。μ维随机向量具有类似的概率规律时,称此随机向量遵从多维正态分布。多元正态分布有很好的性质,例如,多元正态分布的边缘分布仍为正态分布,它经任何线性变换得到的随机向量仍为多维正态分布,特别它的线性组合为一元正态分布。
正态分布最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。
生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(见中心极限定理)。从理论上看,正态分布具有很多良好的性质,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。
正态分布应用最广泛的连续概率分布,其特征是“钟”形曲线。
(一)正态分布
1.正态分布
若的密度函数(频率曲线)为正态函数(曲线)
(3-1)
则称服从正态分布,记号~。其中、是两个不确定常数,是正态分布的参数,不同的、不同的对应不同的正态分布。
正态曲线呈钟型,两头低,中间高,左右对称,曲线与横轴间的面积总等于1。
2.正态分布的特征
服从正态分布的变量的频数分布由、完全决定。
(1)是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以为对称轴,左右完全对称。正态分布的均数、中位数、众数相同,均等于。
(2)描述正态分布资料数据分布的离散程度,越大,数据分布越分散,越小,数据分布越集中。也称为是正态分布的形状参数,越大,曲线越扁平,反之,越小,曲线越瘦高。
(二)标准正态分布
1.标准正态分布是一种特殊的正态分布,标准正态分布的,,通常用(或Z)表示服从标准正态分布的变量,记为~N(0,)。
2.标准化变换:,此变换有特性:若服从正态分布,则就服从标准正态分布,故该变换被称为标准化变换。
3.标准正态分布表
标准正态分布表中列出了标准正态曲线下从-∞到范围内的面积比例。
(三)正态曲线下面积分布
1.实际工作中,正态曲线下横轴上一定区间的面积反映该区间的例数占总例数的百分比,或变量值落在该区间的概率(概率分布)。不同范围内正态曲线下的面积可用公式3-2计算。
(3-2)
2.几个重要的面积比例
轴与正态曲线之间的面积恒等于1。正态曲线下,横轴区间内的面积为68.27%,横轴区间内的面积为90.00%,横轴区间内的面积为95.00%,横轴区间内的面积为99.00%。
(四)正态分布的应用
某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,呈现为正态或近似正态分布;有些指标(变量)虽服从偏态分布,但经数据转换后的新变量可服从正态或近似正态分布,可按正态分布规律处理。其中经对数转换后服从正态分布的指标,被称为服从对数正态分布。
1.估计频数分布一个服从正态分布的变量只要知道其均数与标准差就可根据公式(3-2)估计任意取值范围内频数比例。
2.制定参考值范围
(1)正态分布法适用于服从正态(或近似正态)分布指标以及可以通过转换后服从正态分布的指标。
(2)百分位数法常用于偏态分布的指标。表3-1中两种方法的单双侧界值都应熟练掌握。
表3-1常用参考值范围的制定
概率
(%)正态分布法百分位数法
双侧单侧双侧单侧
下限上限下限上限
90
95
99
3.质量控制:为了控制实验中的测量(或实验)误差,常以作为上、下警戒值,以作为上、下控制值。这样做的依据是:正常情况下测量(或实验)误差服从正态分布。
4.正态分布是许多统计方法的理论基础。检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布。许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础的。
一、正态分布的概念
由表1.1的频数表资料所绘制的直方图,图3.1(1)可以看出,高峰位于中部,左右两侧大致对称。我们设想,如果观察例数逐渐增多,组段不断分细,直方图顶端的连线就会逐渐形成一条高峰位于中央(均数所在处),两侧逐渐降低且左右对称,不与横轴相交的光滑曲线图3.1(3)。这条曲线称为频数曲线或频率曲线,近似于数学上的正态分布(normaldistribution)。由于频率的总和为100%或1,故该曲线下横轴上的面积为100%或1。
图3.1频数分布逐渐接近正态分布示意图
为了应用方便,常对正态分布变量X作变量变换。
(3.1)
该变换使原来的正态分布转化为标准正态分布(standardnormaldistribution),亦称u分布。u被称为标准正态变量或标准正态离差(standardnormaldeviate)。
二、正态分布的特征:
1.正态曲线(normalcurve)在横轴上方均数处最高。
2.正态分布以均数为中心,左右对称。
3.正态分布有两个参数,即均数和标准差。是位置参数,当固定不变时,越大,曲线沿横轴越向右移动;反之,越小,则曲线沿横轴越向左移动。是形状参数,当固定不变时,越大,曲线越平阔;越小,曲线越尖峭。通常用表示均数为,方差为的正态分布。用N(0,1)表示标准正态分布。
4.正态曲线下面积的分布有一定规律。
实际工作中,常需要了解正态曲线下横轴上某一区间的面积占总面积的百分数,以便估计该区间的例数占总例数的百分数(频数分布)或观察值落在该区间的概率。正态曲线下一定区间的面积可以通过附表1求得。对于正态或近似正态分布的资料,已知均数和标准差,就可对其频数分布作出概约估计。
查附表1应注意:①表中曲线下面积为-∞到u的左侧累计面积;②当已知μ、σ和X时先按式(3.1)求得u值,再查表,当μ、σ未知且样本含量n足够大时,可用样本均数和标准差S分别代替μ和σ,按式求得u值,再查表;③曲线下对称于0的区间面积相等,如区间(-∞,-1.96)与区间(1.96,∞)的面积相等,④曲线下横轴上的总面积为100%或1。
正态分布曲线下有三个区间的面积应用较多,应熟记:①标准正态分布时区间(-1,1)或正态分布时区间(μ-1σ,μ+1σ)的面积占总面积的68.27%;②标准正态分布时区间(-1.96,1.96)或正态分布时区间(μ-1.96σ,μ+1.96σ)的面积占总面积的95%;③标准正态分布时区间(-2.58,2.58)或正态分布时区间(μ-2.58σ,μ+2.58σ)的面积占总面积的99%。