即便是一个理想的点估计值,也无法克服点估计的一个致命缺陷,那就是它易受样本变化的影响:每次抽取的样本不同,得出的统计量也就不同,因而它所提供的参数估计值也就会不同。如果能把抽样所带来的这种变异性或不确定性考虑进去,对总体参数的估计将会更有意义,而区间估计就能做到这一点。
简言之,区间估计就是为总体参数计算出一个可能的取值范围或值域,然后指出总体参数处在该值域的可能性有多大,或者说我们作出这一估计的正确概率有多大。为了更好地理解总体平均数的区间估计的原理和过程,我们首先要对样本平均数的抽样分布问题有所了解。
一、样本平均数的抽样分布
假如有一个变量的总体(至于何种总体无关紧要),我们从中随机抽取一个含有若干个观测值的样本,记作SD,计算出样本平均数,然后把所抽取的观测值再放回总体。按照此法,再抽取样本S2,得样本平均数T2,等等。从理论上讲,我们可以无限次地重复这一过程,抽取样本,计算出样本平均数。正如我们可以为观测值绘制分布图那样,我们也可以为这些样本平均数绘制分布图(为了便于理解,不妨把这些平均数看作观测值),这个分布就叫作平均数的抽样分布。
(一) (渐近)正态分布
平均数的抽样分布的形态是什么样的呢?这要取决于总体的分布和总体方差是否已知,以及样本容量的大小:当总体的分布为正态,总体方差CT2已知时,样本平均数的分布为正态分布;当总体的分布为非正态,总体方差CT2已知时,如果样本较大,则样本平均数的分布接近正态分布,其接近的程度取决于样本容量以及总体的偏斜程度——样本越大,总体偏斜程度越轻,两者就越接近。这一现象叫作“中心极限定理”。
当样本平均数的分布为正态或渐近正态时,分布的平均数与总体平均数相等,而分布的离散程度则小于总体的离散程度。如果横轴上的测量单位相同,那么总体的分布形态较为平阔,而样本平均数的分布则较为尖狭。
不过,如前所述,一个呈正态分布的变量可以通过求标准分的方法,转换为标准正态变量,我们也可以用此方法把每个样本平均数转换为标准分,进而把正态的样本平均数的抽样分布转换为标准正态分布。
样本平均数分布的离散程度是用样本平均数的抽样分布的标准差来表示的。为了与样本标准差区别开来,抽样分布的标准差习惯上称作“标准误”,用符号SE表示。
标准误与样本容量(N)以及总体的标准差0有关,也就是说,标准误与总体标准差的大小成正比,与样本的大小成反比(严格来说是与样本大小的开方成反比,因此在总体标准差一定时,为了使标准误减少一半,就必须使样本容量扩大四倍)。
为了更好地理解样本平均数的抽样分布的平均数和标准差(标准误)与总体平均数和标准差的这种关系,我们不妨说得稍远一些,谈谈观测值之间以及样本平均数之间的差异问题。
我们知道,在客观世界中,各种现象所表现出的量的差异性是绝对的,其相似性只是相对的。如果不存在这种量的差异,也就没有推断统计的必要了。例如,如果我们知道某个变量的所有个体的值都相同,那么这个值肯定就是样本的平均值,同时它也肯定是总体的平均值,因此不仅没有必要从样本平均数推断总体平均数,甚至这个变量根本就没有从统计的角度进行研究的必要。可实际上这样的变量是不存在的。
那么我们就从量的差异的角度来看看如何描述总体中的一个个体。例如我们在研究儿童语言习得时,常常用其平均语句长度来衡量其语言的复杂程度和发展阶段。假如我们可以穷尽某个儿童的话语,那么就可以计算出所有这些话语长度的平均值(即总体平均数,譬如5个语素)。有些话语的长度可能与平均数相等,有些则低于平均数,而有些则高于平均数。因此,每个话语的长度就可以看作是由两个成分构成的:所有话语(即话语总体)的平均长度+每个话语的实际长度与平均长度之间的差异(该差异可能是正值,可能是负值,也可能是零)。按照惯例,我们用×表示变量,用不同的下标来区总体平均数P通常称作“真”值,则是第i个观测值的“误差”。该“误差”其实就是该观测值离开总体平均值的距离,也就是“离均差”。此外,由于e还可以看作从一个观测值中减去之后所剩余的部分,因而也有人称之为“余差”。假如我们的话语总体中含有长度(语素数)为3,4,6,7,8这样5个话语,再假如总体平均长度为6(实际上对于非常大或者无限大的总体,其平均数往往难以确知),那么这5个话语长度就可以分别表述为:6-3, 6-2,6+0(或6-0),6+1,6+2。
可以进一步证明,如果我们从总体中随机抽取一个样本,样本的平均数也同样可以分解为两个部分:总体平均值+样本中各观测值的误差的平均数(代表样本平均数与总体平均数之间的差异)。显然,由于各观测值的正负误差之间的互相抵消,样本平均数与总体平均数之间的差异要小于单个观测值与总体平均数的差异,而且随着样本的增大,样本平均数就越接近总体平均数,或者两者的差异就越来越小。当样本与总体同样大时,样本与总体的平均数就完全相等,其差异就将等于零。
因此,从个体观测值到样本平均数,由于正负误差相互抵消的缘故,后者的误差(即与总体平均数之间的距离)要小于前者的误差,而且样本容量越大,这种抵消作用就越明显,平均数的误差就越小。同样的道理,如果从总体中抽取无限多个样本,这些样本平均数的平均数的误差又得到了进一步的缩小,样本平均数的平均数就与总体平均数更加接近。显而易见,如果总体的离散程度本身就很小,那么样本平均数的误差以及样本平均数的平均数的误差也会很小,反之亦然。
(二)z分布
前面讲的是样本平均数呈正态分布或接近正态分布的情况。此外,还有两种情况:一是总体分布为正态,但总体方差未知,且样本容量又较小;二是总体分布为非正态,而且总体方差未知,样本容量又较小。
在这些情况下,样本平均数的分布为t分布。这是因为总体方差未知,在计算比率时,要用样本标准差S取代<7,但是在样本较小的情况下,样本方差S2作为总体方差C72的估计值并不是很准确的,这时不再呈正态分布,而是呈分布,因而该比率也就不再称作Z值,而是值。
t分布在某些方面与正态分布是一样的,譬如它的平均值为0,平均值两侧是对称的,左侧为负值,右侧为正值。但是不同的是d分布的方差要大于(标准)正态分布的方差(即大于1),因而与正态分布相比分布的中间要低平一些。样本越小,分布的方差就越大,其中间也就越低,两尾端就翘得越高。反过来,随着样本容量的增加,t分布的方差逐渐变小(逐渐接近1),而当样本容量大到一定程度时,t分布的方差就等于1,也就是说这时f分布与正态分布就没有什么区别了。因而分布的形状随着样本大小的变化而变化,但是这里“样本大小”不是通常所指的而是N-l(即样本容量减1),即所谓的“自由度”。
已知自由度与概率(单尾或双尾),可以从表中查到与之对应的值。方法是在最左边的标有“办”的一列中找到所查找的自由度(即JV-1),再从最上一行找到所设定的概率,这两个值所在的行和列相交之处的数值即是它们所对应的r值。例如,办等于30,概率为0.05(双尾)时,t=2.042。意思是在分布中f小于-2.042的面积与f大于2.042的面积之和为0.05。如果所查的rf/在表中没有列出,则查与之最接近的办,例如要查rf/为38,可在表中查40。
如果已知自由度和f值,也可以查找对应的概率;已知概率和f值,也可以查找自由度。
从表中还可以看出,随着样本容量的增大,z值逐渐接近Z值。当自由度等于30时,两者已经非常接近,也就是说t分布已经非常接近正态分布,这时使用正态分布表里的Z值和使用f分布表中的f值,有关的计算结果差别不会很大,只是f值更为精确一些。当自由度为的时”值与Z值完全相同,这时t分布与正态分布已经没有任何区别,那么在有关的计算中,使用t值或Z值的结果是完全一样的。
从以上的讨论可以看到,虽然决定样本平均数分布的因素有总体的分布形态、总体方差是否已知以及样本容量,但是由于在实际应用中总体的分布情况和方差往往是未知的(当然在语言研究中经常遇到的许多变量都是呈正态分布的),因而在多数情况下,样本的容量就成了关键因素或唯一的因素。因而,除非对统计的条件要求很严格或对统计结果的准确性要求非常高,一般是避繁就简,而仅考虑样本的容量:样本较大时,就认定其平均数的抽样分布为正态分布,否则为t分布。至于何为“大样本”,下面还要进一步讨论。
当然,除了正态分布和f分布之外,还有其他一些分布,我们将在以后陆续介绍。
二、总体平均数的区间估计
顾名思义,区间估计不像点估计那样给出一个值(样本统计量)作为总体的参数,而是在样本的基础上计算出总体参数值所在的可能区域。由于这个区域在数轴上不是一个点,而是一个区间或一段距离,所以称作“区间估计值”。本节我们将讨论如何从样本平均数或比例估计总体平均数或比例。上述有关样本平均数的抽样分布的知识将会在这一估计中发挥重要的作用。
样本抽样分布为正态时的区间估计:
1.几个基本概念
区间估计是建立在样本抽样分布理论之上的。我们知道,当样本容量足够大时,样本的平均数呈正态分布(我们所研究的一个样本的平均数×可以看作来自该分布的一个观测值),该分布的平均数即为母总体的平均数……该分布的标准差(称为标准误)。根据正态分布理论,在该正态分布中,任两个标准误之间的面积与总面积之比都是一定的。区间(即离平均数正负1.96个标准误单位之间)包括总面积的95%。我们可以从这样几个角度来理解这一关系:在所有样本中,95%的样本的平均数将会在这一区间;总体处在这一区间的可能性为95%;如此估计的正确概率为95%;我们有95%的把握说,总体的P处在这一区间,等等。由于这一面积实际上代表了我们从样本统计量估计总体参数时的把握程度或信心程度,我们称之为“置信水平”,这两个标准误的值所界定的区间称作“置信区间”,这一区间的上下界称为“置信界限”,定义这一置信区间的标准误的值称为“临界值”,例如定义95%(或0.95)的置信区间的临界值为1.96,定义99%(或0.99)的置信区间的临界值为2.58等,这些临界值都可以在正态分布表中查到。如果正确估计的概率为95%,那么就等于说错误估计的概率为5%,这个“错误估计的概率”称作“显著水平”,常用字母a表示,它其实是正态分布中处于两尾端的面积或置信区间之上和之下的面积。因而0.95的置信水平(可以表示为1-就等于0.05的显著水平。
2.总体平均数的区间估计(www.zuozong.com)
从样本平均数×来估计总体平均数,是进行总体参数估计的常见情形之一。这时,我们的任务就是根据样本平均数计算出总体平均数可能落入的置信区间,以此来估计总体平均数的可能取值范围。该置信区间的计算方法是:
样本平均数±(临界值×标准误)
我们看到,对于大样本,抽样分布服从正态分布,这时式中的“临界值”为对应于某置信水平(或显著水平)的Z值(从正态分布表中可以查到)。该式用符号表示,则为或第二式表示处于其两边的式子(表示置信区间的下限和上限)所界定的范围之内。表示以平均数为界置信水平的一半所对应的Z值。这表示显著水平的一半(即正态分布的一端的尾巴)所对应的Z值。不同的表示方法适用于按不同的方法编制的正态分布表(第二式适用于本书所列的正态分布表),但最后查得的Z值是一样的。在计算标准误时,如果总体标准差未知,则用样本标准差S代替,即S//W。
例如,我们随机从一批英语本科二年级学生中抽取50人进行英语水平测试,其平均分为77,标准差为6.5。假如所有这批学生都参加了考试,其平均成绩会是多少?
分析:这是已知样本平均数×,求总体(即所有学生)的平均数但无法确知,我们只能为其估计一个取值范围,即置信区间。
计算:
第一步:设置信水平或显著水平。如果我们要有95%的把握让置信区间包括总体平均数,则设置信水平为0.95(显著水平a则为0.05)。
第二步:查表求与该置信水平对应的临界值。根据该样本的规模,可以认定其平均数服从正态抽样分布,所以要查正态分布表(附表2)。查表得Z值(即临界值)为1.96。(注意:查表时应查0.475)
第三步:根据样本的标准差(如果总体标准差已知,则用之)和样本容量计算标准误SE。
第四步:计算置信区间。
也就是说,总体平均数处在上下限为78.8和75.2的区间之内,而这一估计的正确概率为95%,错误的概率为5%,或者我们有95%的把握说该区间包含总体平均数。从另一个角度来看,如果我们从一个平均数为(未知)的总体中抽取无限多个样本,有9596的样本的平均数±1.96×0.919将包含,而5%的样本的平均数±1.96×0.919将不包含。
3.比例的区间估计
如果我们所研究的是一个现象在总体中所占的比例,也同样可以按照上述方法在样本的基础上对该现象在总体中所占的比例进行估计。例如为了研究一个文本的词汇难度,我们从中随机抽取150个词,然后根据某常用词汇表来确定其中“生疏词”的比例。结果发现,“生疏词”有60个,所占比例为60/150=0.4。那么“生疏词”在整个文本(即总体)中所占的比例会是多少呢?如同对总体平均数的估计那样,我们可以为其计算一个可能的取值区间(即置信区间),并同时指出正确估计的概率。
然后要设定一个置信水平,臂如95%,并查表找出所对应的临界值。当样本较大,或者非常接近0.5,或者这两个条件同时具备时,就可以认定样本比例的抽样分布接近正态,因此就可以到正态分布表中查找临界值,即Z值。巴特勒(Bmler,1985)认为,如果之积至少等于5,就可以比较有把握地认定抽样分布为正态。在本例中,两者之积为(150×0.4),即60,因此可以认定抽样分布为正态。
对于较大的样本,加与不加该值对结果不会有太大的影响,但当样本较小时,则最好加上。
首先要计算出该样本的平均值,同时,由于总体的标准差未知,还要计算样本的标准差以代之。经计算,样本的平均值为13.87,标准差为3.96。那么抽样分布的标准误就为3.96/B=1.022。要使正确估计的概率为95%(即置信水平为95%),则错误估计的概率(显著水平)为5%。我们知道这个“错误估计的概率”就是置信区间以上和以下的面积之和,对于i分布,就是两尾端的面积之和(即双尾概率),而“正确估计的概率”就等于分布中正负值之间所夹的面积。查t分布表,当办等于14(N-1),双尾概率为0.05时,t值(即临界值)为2.145。那么该样本所来自的总体平均数的置信区间为13.87±(2.145×1.022)=13.87±2.19即我们有95%的把握说,全年级的平均成绩可能在11.68分与16.06分之间。
4.置信区间与置信水平、样本容量以及标准差的关系区间估计是在样本统计量的基础上来估计相应的总体参数,因而我们所希望的当然是:这一区间越小越好,而估计的正确概率越大越好。但是,从进行区间估计的公式可以看出,在其他条件一定时,要提高正确估计的概率(即提高置信水平),置信区间就不可避免地会增大,而要使置信区间缩小,就要降低正确估计的概率。显然要提高估计的正确概率或把握程度,置信区间就会随之加大。即随着置信水平的降低,置信区间就缩小了。
那么在实际应用中,选择什么样的置信水平合适呢?对此似乎还没有定论。但是必须牢记,置信水平越低,置信区间越小,该区间不包括总体参数的可能性就越大;置信水平越高,置信区间越大,该区间包括总体参数的可能性就越大。但是如果区间太大,虽然正确估计的概率很高,但是信息量却很小,因而也就没有多大用处。所以,此问题的关键是怎样在置信水平的高低和置信区间的大小之间取得一种妥协或平衡。一般来说,采用95%的置信水平比较合适。
在正确估计的概率(例如95%或99%)一定的情况下,置信区间的大小取决于抽样分布的标准误的大小——标准误越小,区间就越小。而如前所述,标准误又与总体的标准差(总体标准差未知时,则用样本标准差代之)及样本容量有关——样本容量越大或标准差越小,标准误就越小。仍以上述英语水平考试为例,如果标准差不变,而样本容量由50增加到100,那么抽样分布的标准误就为6.5,即0.65。
5.样本容量
我们在前面的讨论中,多次提到样本的大小问题,这是统计学中的重要问题之一。因此,我们现在就来专门讨论一下样本容量的重要性以及如何决定样本容量的问题。
样本的“大”与“小”是相对的,要根据具体情况来定。以抽样分布为例,我们前面曾经说过,当样本容量较大时,一般来说平均数的抽样分布基本上就能保证为正态。那么,怎样才算“较大”呢?这要看所研究的变量的个体观测值(即总体)的分布如何。如果它们呈正态分布,就不用考虑样本大小的问题了,因为在这种情况下,不管样本大小,只要为随机样本,样本平均数的分布都会是正态的。如果该变量的分布为轻度偏态(大体对称,单众数),一般有20个左右观测值的样本也就能保证样本平均数呈正态分布了。但是,如果该分布严重偏态,那么就需要大大增加样本容量,但是即便如此,有100个观测值的样本也足够了。
一般情况下,一个变量的总体的分布是未知的。但是大量的研究证明,如果一个量是由数个互相独立的部分相加而来的,那么该量的分布一般为正态,例如植物的高度是受多种因素影响的结果,那么在相似环境中生长的同一种植物的高度的分布就会呈正态分布。大量研究表明,在语言研究中经常遇到的许多变量(如“测试分数”)都具有这种性质,因而都可以认定其分布为正态或接近正态,那么不需要太大的样本容量就可以保证样本平均数的正态分布。从理论和实践的角度都可以证明,当样本容量大于30时,不论总体的分布是否为正态,基本上都可以保证样本平均数的抽样分布为正态或接近正态。因此,一般以30为界,样本的观测值少于30,就叫作“小”样本,大于30就是“大”样本。所以在统计学教科书以及实验研究文献中,如果形容样本为“大”“足够大”等时,一般指大于30的样本;反之,即是指小于30的样本。
此外,所需样本容量的大小与其中观测值是否互相独立也有关系。如果它们不具备相互独立性(观测值之间在有关方面互相联系,或者一些观测值的性质受其他观测值的影响),就需要增大样本容量才能保证样本平均数的正态分布。换个角度来看,对于估计总体平均数或比例来说,同一个变量的两个同样大小的样本,观测值互相独立的样本提供的信息量要大于观测值相互关联的样本,那么所估计的总体参数(平均数或比例)的标准误就小(置信区间小,假设检验的敏感性也高)。因此,在抽样时要注意观测值的独立性问题,如果受实际条件限制,难以保证数据的独立性,就要考虑增加样本容量。
那么,既然样本容量的确定涉及如此多的问题,是不是只要把样本大幅度增大,就可以省去这些麻烦了?回答是否定的,因为虽然增大样本容量无疑会提高参数估计的准确性以及以后要讲到的假设检验的敏感性,但是太大的样本也会使研究者在时间、精力、物力和财力等方面感到不堪重负。所以,必须全面衡量,求一最佳选择。
6.要达到一定的估计精确度,如何计算所需样本容量
这个问题其实是把参数的区间估计的问题倒过来看。在估计总体参数时,我们感兴趣的是,在一个一定容量的样本基础上估计总体参数能达到多大的精确度(把握程度有多大或置信区间有多大)。现在我们要问:要达到一定的估计精确度(或者要把估计误差控制在一定的范围之内),需要多大的样本才行呢?
意思是,用样本平均数估计总体平均数总会有误差,误差有多大?例如,在上述英语测试的例子中,样本的平均数为77分,标准差为6.5,样本容量为50,如果据此样本来估计总体平均数的值,在95%的置信水平上,估计误差为1.96×6.5,即1.8分。假如现在反过来问,如果要有95%的把握,使估计达到与总体平均数之间的误差不超过1分的精确度(也就是说总体平均数的95%的置信区间为×±l),需要多大的样本呢?使误差不超过1分,就等于说。本例中,以样本标准差6.5作为总体标准差的估计值,则正如总体平均数的估计那样,要确定达到一定估计精确度的样本容量,往往要先抽取一个样本,计算出样本比例。为了省去这个麻烦,统计学家们提出了一个粗略的计算样本容量的方法。总体比例的取值范围只能在0和1之间,那么户(1户)就不可能大于0.25。所以,我们可以在任何情况下都用/Kl-户)=0.25(即把0.25作为一个常数)。这样做的结果是,在任何情况下所计算出的样本容量都不会小,但是当实际的总体比例过小(<0.2)或过大(>0.8)时,计算的样本容量就会大大超过实际所需的样本容量。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。