正态分布其实是次数分布的其中一种,但是它在统计学中(尤其是推断统计中)具有特殊的重要性。首先,在自然界、现实生活以及我们的语言研究中,许多现象或特征都是呈正态分布的(粗略地讲,就是人们常说的“中间大,两头小”的现象)。以人的身高为例,特别高的和特别低的都占少数,大多数人都是不高不低。再例如学生的考试成绩,特别好与特别差的总是占少数,而大多数都是居中。就统计工作本身来讲,正态分布具有一些特殊的数学特征,使得我们能够预测总体中多大比例的个体将会在一定范围内取正态分布的变量的某些值,此外,一些要的差异显著性检验也要求所涉及的变量呈正态分布。因此,充分理解正态分布将会有助于推断统计部分的学习。
一、正态分布的特征
正态分布主要具有以下几个特征:
其形状如钟,中央点(最高点)为平均数点,整个分布以过该点的垂线左右对称,横坐标代表标准差,即横坐标上各点表示离开平均数的标准差单位数,曲线两端向靠近横坐标处无限延伸,但永远不能与之相交。
(一)在正态分布的中央点,平均数、中数与众数相等或重合
正态曲线完全是由平均数和标准差两个参数确定的。有了这两个值,就可以利用正态分布的密度函数绘出正态曲线。当随机变量的平均数与标准差的值不同时,正态分布就会呈现不同的形态。在平均数相同的情况下,标准差大的正态曲线低平宽阔,而小的则高尖狭窄。
但是我们可以把一个正态分布里的观测值换算成标准分Z(见第四章),即把原来的随机变量转换成一个标准正态变量,这样就可以把各种不同形态的正态分布转换成标准正态分布。标准正态分布的平均数总是0,标准差总为1,因此标准正态分布常记作N(0,1)。标准正态分布的中点即为平均数, Z =0,平均数以上(即其右边)的Z为正值,平均数以下(即其左边)的Z为负值。
(二)在曲线下,从任一标准差(整数或小数均可)作垂线,截取的“尾巴”所占总面积的比例都可以精确地计算出来。譬如,0个标准差截取的尾巴占总面积的50%;+1个标准差约截取总面积的15.87%;+2个标准差约截取总面积的2.28%;+3个标准差约截取总面积的0.13%。
任一标准差与平均数之间的面积也可以精确地计算出来。如,+1,+2,+3个标准差与平均数之间约分别包含总面积的34.13%,47.72%和49.87%。由于正态曲线左右对称,以上所述也适用于标准差为负值的情况,因而正负一个标准差之间约包含总面积的68.26%;正负两个标准差之间约包含总面积的95.44%;正负三个标准差之间约包含总面积的99.74%。
任何两个标准差之间的面积也是固定的。譬如,+1和+2两个标准差之间的面积约占总面积的13.59%;+2和+3两个标准差之间的面积约为总面积的2.14%。
正态曲线下的总面积为1,因而任一面积与总面积之比(即该面积本身)可以视为随机变量的值出现的概率。我们可以从这样一个角度来理解这一点:在第二章我们看到,数据的次数分布可以用直方图来表示,把各直方形的顶端连起来,就得到直方图的大致轮廓,分组区间越小,直方形越多,轮廓线就越平滑,这时把轮廓线下的线条抹去,就剩下一个曲线,如果数据的分布呈正态,该曲线就是正态曲线。我们知道,直方图中各直方形的高度代表次数或频率,或者说与所表示的频率是成比例的,当直方形的宽度(即分组区间)相等时,各直方形的面积与相应的分组区间的数值的次数或频率也是成比例的,而数值出现的次数与总次数之比就是数值出现的概率。
二、正态分布表
由于任何形态的正态分布都可以转换成标准正态分布,我们就有可能依据标准正态分布编制一个通用的表,列出与各Z值相对应的正态曲。
线下的面积(或概率),这就是正态分布表。当我们想知道一个正态分布中的某个观测值所对应的面积时,或者已知面积,求相对应的观测值时,就不用一一计算了,只要把观测值换算成标准分,然后查正态分布表即可得到答案。
三、正态分布表的用法
由Z值查A值
1.查某Z值与平均数之间的面积。
先在第一列找到要查的Z值,其后的数值即是该Z值与平均数之间所夹的面积。
由于A值为某Z值与平均数之间的面积,而平均数以上或以下(即平均数右侧或左侧)的面积各占曲线下总面积的一半,所以,在按照上述方法查到A值之后,还要进行一些简单的计算:
求某Z值以上的面积时,如果Z为正值,用0.5减去A值就可得到,如果Z为负值,则要用A值加上0.5(平均数右侧的面积)才能得到;求某Z值以下的面积时,如果Z为正值,用A值加上0.5就可得到,如果Z为负值,则要用0.5(平均数左侧的面积)减去A值才能得到。例如:
2=1.00时,A=0.34134
所以,2=1.00以上的面积为0.5-0.34134=0.15866;
Z=-1.00时,A=0.34134
所以,-1.00以上的面积为0.34134+0.5=0.84134;
Z=1.00时,A=0.34134
所以,Z=l.00以下的面积为0.34134+0.5=0.84134;
Z=—1.00时,A=0.34134
所以,-1.00以下的面积为0.5-0.34134=0.15866。
2.求两个Z值之间的面积。
求两个2值之间的面积时也要进行一些运算。例如:
求Z=1.00和Z=2.00之间的面积。
查表得:2=1.00时,义=0.34134,2=2.00时,八=0.47725则Z=1.00和Z=2.00之间的面积应为
47725-0.34134=0.135912.由A值查Z值
(二)已知平均数与某Z值之间的面积A,查与之对应的Z值。
只要在标有A的一列里找到该面积值,其前的数值即是对应的Z值。如果已知的面积在表里没有列出,则用表里与之最接近的面积值。如果不知道该面积是平均数以上还是以下的面积,则查出的Z值可能是正值,也可能是负值。例如:
已知平均数以上的面积A=0.067,Z=0.17(表中面积为0.06749);
已知平均数以下的面积A=0.35,Z=-1.04(表中面积为0.35083)。
1.已知正态分布两端的面积值,求该面积的分界点的Z值。
由于表中所给面积为平均数与Z值之间的面积,因而查表时不能直接用两端的面积,而是要用0.5减去两端的面积,然后再查表求Z值。例如:
求分布曲线右端面积为0.025的分界点的Z值:
0.5-0.025=0.475,查表得Z=l.96;
求分布曲线左端面积为0.05的分界点的Z值:
0.5-0.05=0.45,查表得Z=-1.64(表中面积为0.44950)。
2.已知正态曲线下中央部分的面积,求两侧分界点的Z值。
由于分布曲线是对称的,两侧的Z值其实是一样的,只是符号不同而已,所以只查一侧的Z值即可。由于表中列出的只是平均数与一侧Z值之间的面积,所以查表之前,要先用2去除中央部分的面积。例如:求中央部分面积为0.68的两侧分界点的Z值:
0.68/2=0.34,查表得±1.00(表中面积为0.34134)。
四、正态分布理论的实际应用
正态分布理论和正态分布表在语言研究中有着重要的实用价值。下面是一些主要的应用示例。
(一)选拔与淘汰
在包括外语教学在内的各类教育中,我们都面临着对学生进行选拔和淘汰的问题,如高考时选拔考生、教学中选拔优等生或淘汰差生,等等。在所有这些工作中,正态分布的理论都能给予我们有益的指导。
例如,有些学校规定,如果学生在毕业考试中成绩不及格(及格线一般定为60分),就不能毕业或没有资格撰写学士论文等。其实这是不科学的,也是不公平的。严格来讲,这样做的前提应该是历年的毕业考试具有可比性,否则就会因题型、题量、难度等方面的差异造成不公。譬如某年的考试难度过大,致使学习很好的学生都无法及格,而如果某年的考试过于容易,就会使一些本来学习很差的学生通过考试。克服这一问题的方法之一是,先设定一个稳定的淘汰比例,然后根据当年的考试成绩定出具体的淘汰分数线。具体计算步骤举例如下。
例1 某次考试的成绩呈正态分布,平均分75,标准差为8,淘汰率为5%,求淘汰分数线。
分析:淘汰率为被淘汰的考生在所有考生中所占的比例,从考试成绩分布的角度看,就是这些考生的成绩在正态分布中的概率,也就是正态曲线下平均数左侧的“尾巴”的面积。因而要计算淘汰分数线,就要首先在正态分布中找到该面积分界点的Z值,然后再由Z值计算出分数。
计算:
第一步:求分布曲线一端的面积的分界点的Z值,要先用0.5减去该面积:0.5-0.05=0.45;
第二步:查表得对应于A=0.45的Z值为-1.64(表中最接近的面积为0.44950);
第三步:得×=(Z×S)+×
所以×=(-1.64×8)+75=61.88。也就是说,考分低于61.88的考生将被淘汰。
例2
某次测试的分数呈正态分布,平均数71,标准差6,现决定从考生中选拔10%予以奖励,求出选拔分数线。
分析:如同上例,10%(0.10)可以看作分数分布中的概率或面积,只是这时该面积应处于分布曲线的右端。为了求选拔分数线,也要首先找出该面积的分界点的Z值。
计算:
第一步:0.5-0.10=0.4;(www.zuozong.com)
第二步:查表得2=1.28(表中最接近的面积为0.39973);
第三步(1.28×6)+71=78.68。
也就是说,把选拔分数线定在78.68,就可以选出10%的考生。
(二)考试后分教的分档
在各类教育评估中,都会遇到对分数或能力进行分档的问题,例如在考试后,往往要统计每个分数段的人数。当考生人数比较少时,直接数一数就可以了,但是对于大规模的考试(如涉及数以千计、数以万计的考生),这一做法显然不太经济有效。这时,如果考试的平均分和标准差已知,利用正态分布表就可以估计出各分数段的人数。该人数为理论值,它与实际人数是比较接近的。
例1 某次考试有300人参加,平均分70,标准差15,分数呈正态分布,求下列各分数段的人数:90分以上,80-90,70-80,60-70,60分以下。
分析:在正态分布的情况下,各分数段的人数在全部考生中所占的比例,就是分布中所占的概率。求各分数段的人数时,首先要计算各分数段在分布中的概率或面积,为此又要先计算出有关分数的Z值。
计算:
第一步:计算各有关分数的Z值,查表求各Z值与平均数之间的面积:
90分的Z=(90-70)+15=1.33,A=0.40824;
80分的Z=(80-70)+15=0.67,A=0.24857;
70分的Z=(70-70)+15=0,A=0;
60分的Z=(60-70)+15=-0.67,A=0.24857。
第二步:查表求各分数段在分布中的面积或概率(即理论次数):
90分以上的面积为0,5-0.40824=0.09176;
80-90之间的面积为0.40824-0.24857=0.15967;
70-80之间的面积为0.24857-0=0.24857;
60-70之间的面积为0.24857+0=0.24857;
60分以下的面积为0.5-0.24857=0.25143。
第三步:用总人数乘以各分数段的概率即得到各分数段的人数:
300×0.09176=27.528
300×0.15967=47.901
300×0.24857=74.571
300×0.24857=74.571
300×0.25143=75.429
由于人数只能以整数计,以上各分数段的人数要取整数,同时如果由于小数的四舍五入造成各分数段人数之和与总人数有出入,还要将某些分数段的人数稍加调整:
90分以上:27人;
80-90:48人;
70-80:75人;
60-70:75人;
60分以下:75人。
(三)等级评定前确定各等级或档次的人数
我们在按照某种能力指标、考试分数等对学生评定等级或分档时,为了保证各等级人数分布的合理性,可以利用正态分布的理论,计算出各等级或档次应该包含的人数。
例1
如果100个学生的能力服从正态分布,要把他们分成5个等级,求每个等级应该包含的人数。
分析:求每个等级的人数,首先要计算每个等级在正态分布中的面积或概率,然后乘以总人数即可得到各等级的人数。在讨论正态分布的特征时我们看到,正负三个标准差基本上包括了正态曲线下所有的面积,因此我们可以将6个标准差除以等级的个数5,就可以把整个面积等分成5个部分。
计算:
第一步:将6个标准差除以等级的个数5,得1.2个标准差,即平均每一等级约包含1.2个标准差或Z分数。这5个等级为:
A等:1.8以上;
B等:0.6-1.8;
C等:-0.6-0.6;
D等:-1.8--0.6;
E等:-1.8以下。
第二步:查表求对应于每一等级的面积或概率:
1.8以上:A=0.5-0.46405=0.03595;
0.6-1.8:A=0.46405-0.22575=0.23830;
-0.6-0.6:A=0.22575+0.22575=0.45150;
-1.8--0.6:A=0.46405-0.22575=0.23830;
-1.8以下:A=0.5-0.46405=0.03595。
第三步:用各等级的面积乘以总人数100,得各等级应该包含的人数(应四舍五入取整数,如果各等级的人数之和与总人数有出入,则在中间一个等级调整):
A等:3.595人(取整数为4人);
B等:23.83人(取整数为24人);
C等:45.15人(取整数为45人,调整为44人);
D等:23.83人(取整数为24人);
E等:3.595人(取整数为4人)。
五、检验分布是否为正态的方法
在上述例子中,我们都假设考试分数或能力(体现为某种能力指标)呈正态分布。其实对于一组数据是否为正态分布,可以用多种方法进行检验。
方法之一是绘制直方图或多边图,这样就可以非常直观地看出数据分布的形态是否大体对称或呈单众数分布。
方法之二是比较理论分布与实际分布中各标准差之间的面积或概率。我们知道,在正态分布中,任意两个标准差之间的面积都是固定的,通过计算或查表就可以得出。譬如,正负一个标准差之间包含总面积的68.26%;正负两个标准差之间包含总面积的95.44%;正负三个标准差之间基本上包含了所有的面积(99.74%)。把理论上的分布和数据的实际分布加以比较,就可以了解其分布是否为正态。假如有一次50人参加的英语阅读考试,平均分为75分,标准差为5分。如果考试分数确实呈正态分布,那么就应该有大约68%的考分在×±1个标准差之间(即70-80分),95%的考分在×±2个标准差之间(即65-85分),基本上所有的考分都应在×±3个标准差之间(即60-90分)。假如实际的分布为:35/50(70%)的考分在70-80分之间,47/50(94%)的考分在65-85分之间,49/50(98%)的考分在60-90之间,与预期的理论分布基本吻合,则这次考试的考分大体呈正态分布。
偏态值就是分布的偏斜程度的指标,正值表示分布为正偏态,负值表示分布为负偏态,如果其值为0,则表示分布为正态。峰值表示分布曲线的顶点尖峭的程度,正值表示分布曲线较尖,称“尖峰态”,负值表示分布曲线较平,称为“低峰态”,如果其值为0,则表示分布曲线为正态。
因此,该组数据的分布为负偏态,同时分布曲线呈低峰态。
方法之三是比较算术平均数、众数与中数。从正态分布的特征可知,在正态分布中这三个数值完全相同,在正偏态分布中,平均数高于中数和众数,而在负偏态分布中,平均数则低于中数和众数,因此通过比较它们的接近程度,就可以知道数据的分布是否呈正态分布。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。