首页 理论教育 假设检验及显著性检验中的两类错误

假设检验及显著性检验中的两类错误

时间:2023-05-22 理论教育 版权反馈
【摘要】:所以,在决定是否能推翻零假设时,必须确定一个允许的误差限度,即随机误差造成的差异在多大范围之内才能推翻零假设。如果零假设被推翻,我们就说观察到的差异有显著意义或者说检验有显著意义,所以这个概率通常称为显著水平。

假设检验及显著性检验中的两类错误

—、假设检验——证实与证伪

我们看到,实验研究的过程就是检验假设的过程,可是从一个研究问题中可以产生不止一个假设,那么到底检验哪一个呢?又是如何检验呢?答案似乎是显而易见的:备择假设。比较直观,容易理解,那么只要捜集足够的证据去证实它就行了。其实,要去证实备择假设是非常困难的,难就难在无法收集到“足够的”证据去证实它的正确性。我们每次只能研究一个样本,当我们根据该样本得出结论的时候,我们无法保证不存在推翻这一结论的潜在证据,也就是说,如果我们研究更多的样本,说不定会发现推翻这一结论的证据。由于从理论上讲我们可以这样无休止地研究下去,因而我们永远也无法收集到“足够的”证据去证实一个备择假设,也就无法得到确定的结论。所以在实验研究中,我们不是直接去证实Hi的正确性,而是去设法推翻也就是先假设有关参数之间不存在差异,然后再通过实验收集证据,看能不能推翻这一假设。这时,只要找到一条反证,就足以证明零假设是错误的。采用这种检验假设的方法,就能够得出确定的结论。如果推翻了零假设(即Hi为假),就表明差异确实存在,那么就接受与零假设对立的备择假设(即为真);如果无法推翻它(即为真),就表明有关差异是由各种误差造成的,而不是真正的差异,那么就接受零假设,而拒绝有关备择假设(即Hi为假)。

其实,这种“反证法”是科学研究的一般方法:先在某一理论的基础上提出假设,然后通过实验收集证据,以证明该假设(以及所基于的理论)是“错误的”。换句话说,我们不是试图去证实一个假设,而是去证伪它。譬如有这样一个假设:“所有的天鹅都是白色的。”我们有两种方法去检验它:一是设法去证实它,二是设法去证伪它。使用前一种方法,就要逐个观察一只只的天鹅,但是要观察完所有的天鹅,即使是可能的,也将是很困难的。如果反过来去证伪这一假设就容易多了,而且能得出肯定的结论。也就是说我们先假设“所有的天鹅都是白色的”是正确的,在发现反证之前,就接受它,但是只要发现一条反证(即见到一只不是白色的天鹅)就可以推翻这一假设。我们前面讲到假设的特征时提到,一个假设应该是可检验的,其确切的含义即是“可以证伪的”。如果一个论断(包括预测、理论、概括等)不可以证伪,那它就不具有科学性

因此,统计学中假设检验的方法是:先对有关总体参数之间的差异提出零假设(同时给出相应的备择假设),然后分析样本统计量之间的差异,看看是否能推翻零假设。

二、显著水平

我们在上面谈到,假设检验从陈述零假设开始(即先假设某总体参数值之间不存在差异),然后再根据样本中观察到的差异情况,看能否推翻这一假设。但是并不是说,不论样本中的相应统计量之间的差异大小,都可以证明零假设不成立或者都可以推翻零假设,因为这一差异(至少在一定程度上)有可能是由随机误差造成的,而不是真正的差异。同时,我们还谈到,要完全避免随机误差的影响是不可能的,只是影响的程度不同而已,因而观察到的差异不可能纯粹是由操纵的变量造成的。所以,在决定是否能推翻零假设时,必须确定一个允许的误差限度,即随机误差造成的差异在多大范围之内才能推翻零假设。这个范围用概率表示,譬如5%、1%(或0.05,0.01等)。如果随机误差的概率(即可能性)为0.05,就表示当随机误差造成的差异在等于或小于5%时,就可以推翻零假设。如果零假设被推翻,我们就说观察到的差异有显著意义或者说检验有显著意义,所以这个概率通常称为显著水平。因此显著水平就是:当等于或低于其值时我们愿意把观察到的差异视为具有显著意义的概率。显著水平常用a表示。在0.05,0.01,0.001水平上有显著意义的差异分别称为差异有“显著意义”“非常显著的意义”“极为非常显著的意义”。理解了显著水平的概念,我们在表述和理解差异时,就可以精确一些了。譬如,如果我们决定在0.05时拒绝零假设,意思就是我们有95%的把握说,样本中所观测到的差异是真正存在的(即是由我们所操纵的变量所造成的),而随机误差造成这一差异的可能性至多只有5%。另一方面,我们也不能简单地说有还是没有差异,而是应该指明是否有显著差异(或差异是否具有显著意义),而且要同时给出差异的显著水平,因为没有显著差异不等于说没有差异,而差异具有显著意义也不等于说差异完全是由我们所研究的变量引起的。

显著水平是由研究者决定的,显著水平的设定需要考虑多种因素,如研究领域、研究目的、研究对象、研究内容等。一般来讲,在自然科学领域,所涉及的变量一般都可以加以精确的度量,而在社会科学领域,所涉及的变量往往与人有关,对它们的测量往往难以达到很高的精确度,因而在前者就可以设定较为严格的显著水平,譬如0.01,甚至0.001,而在后者一般定0.05就可以了。此外,如果研究的目的只是探索性的,显著水平就可以定得宽松一些,譬如0.05或者0.10,否则如果为了检验某个既定理论,就要定得严一些,譬如0.01,甚至0.001。另外还要考虑,假如所得出的结论是错误的(如在不该推翻零假设时而推翻了),是否会带来严重的后果,如果其后果是严重的,就要谨慎一些,要把显著水平定得严一些(即不要轻易推翻零假设),否则就可以定得松一些。在语言研究中(譬如比较不同教学方法的优劣),一般来说即使结论有误,也不会带来十分严重的后果,所以,可以定得宽松一些。总之,综合考虑上述因素,在语言研究中,一般选择0.05或0.01的显著水平。

三、显著性检验中的两类错误

上面谈到,我们在对差异进行显著性检验时有可能得出错误的结论。一种情况是“错误地拒绝”,即零假设成立或属真时(也就是说不存在真正的差异,所观察到的差异只是由随机误差造成的),应该接受零假设而我们却拒绝了。另一种情况是“错误地接受”,即零假设不成立或属假时(也就是所观察到的差异是确实存在的),应该拒绝零假设而我们却过于谨慎,认为没有足够的证据推翻它,所以在不该接受零假设时接受了它。前一种错误称为“一类错误”或a型错误,后一种错误称为“二类错误”或J型错误。犯第一类错误的概率等于显著水平,这是不难理解的,因为显著水平代表随机误差所造成的差异的可能性。这两类错误之间的关系是:随着a型错误的概率的降低,J型错误的概率就会增加,因此,0.01时犯a型错误的概率要低于0.05的时候,但是犯型错误的概率却随之增大了。因此,在设定显著水平时,过高(如0.001,0.0001等)或过低(如0.10,0.20)都不好,最好在两者之间求得一种平衡。我们上面提到,在语言研究中一般选择0.05或0.01的显著水平,在一定程度上就是基于这一考虑。

四、检验统计值与临界值

我们谈到,当设定一个显著水平时,譬如0.05,我们的意思是,如果根据样本计算,误差的概率低于5%,就可以推翻零假设,而认定存在显著差异。误差概率是否低于某水平,是用根据样本所计算的一个值来判断或检验的,这个值就叫作检验统计值。虽然我们所涉及的只是一个样本,但是要把它看作无数个可能的样本中的一个(见有关抽样分布的讨论),即我们可以从总体中随机抽取无限多个样本,这样一来就可以计算出无限多个检验统计值,这些统计值将服从某一抽样分布,比如正态分布、分布等,那么这个统计值就是Z值、f值等。

因此,显著水平(即认为差异显著时所允许的最大随机误差概率)其实就是抽样分布曲线中处于尾端部分的面积。当我们说“低于某个显著水平”时拒绝零假设,就等于说尾端的面积要小于该面积,这个面积或区域叫作“临界区域”或“拒绝区域”,界定该区域的值叫临界值,也就是对应于该区域面积的Z值、f值等。

当我们对零假设进行检验时,要首先依据样本计算检验统计值,如果检验统计值的绝对值小于显著水平对应的临界值,我们称检验统计值落在了临界区域之外,这就意味着检验统计值对应的尾端的面积大于临界值对应的尾端的面积,这时就要接受零假设。反之,如果检验统计值的绝对值大于显著水平对应的临界值,我们称检验统计值落在了临界区域之内,这就意味着检验统计值对应的尾端的面积小于临界值对应的尾端的面积,这时就可以推翻或拒绝零假设。从随机误差的角度来看,前一种情况,样本中所观察到的差异由随机误差造成的概率超过了认定差异显著时所允许的最大随机误差概率,因此可以认为,所观察到的差异是由随机误差造成的,而不存在真正的差异,而在后一种情况,则可认为确实存在真正的差异。

示意了双尾检验时显著水平、临界区域、临界值以及拒绝和接受零假设的情况(假如检验统计值服从正态分布)。界定该区域的Z值即为临界值。检验统计值落入阴影区域就表明可以拒绝零假设,如果落入该区域之外(即空白区域内)就表明可以接受零假设。

五、单尾与双尾检验

我们已经知道,在检验零假设时,要同时提出适当的备择假设。备择假设预测总体参数之间存在差异,但是具体来讲,又有两种情况。一种是在指出存在差异的同时,还指出差异的方向(即“大于”“小于”“高于”“低于”等)。而另一种则仅仅强调差异的存在,而不指出差异的方向,如果所提出的备择假设为方向性的,则假设检验称为单尾检验或单侧检验;反之,如果备择假设为非方向性的,则假设检验称为双尾检验或双侧检验。

为了更好地理解这两类检验的区别,我们再回过头来看看临界区域与检验统计值的问题。我们说,当检验统计值落入临界区域之内时,就可以拒绝零假设。如果备择假设是方向性的,这时检验只与抽样分布曲线下的一个尾巴(即右侧的尾巴)有关,所以这样的检验叫作单尾或单侧检验。假如我们所设定的显著水平为0.05,那么这0.05的面积(临界区域)全部位于分布的右边一端。但是,如果备择假设为非方向性的,譬如那么由于。可能大于也可能小于,所以检验与分布曲线的两个尾巴都有关系,因此我们称这样的检验为双尾或双侧检验。假如显著水平同样还是0.05,但是这一面积就要平分到分布的两端,各占0.025。

同样的显著水平,单尾检验的临界值要小于双尾检验的临界值,因此对于同样的检验统计值,就有可能在使用单尾检验时差异是显著的,而在使用双尾检验时差异却是不显著的。反过来讲,在单尾检验时,推翻零假设所需的检验统计值要小于双尾检验所需的检验统计值,这是因为在单尾检验时我们输入了更多的信息——差异的存在以及差异的方向,所以为了证明差异有显著意义所需的检验统计值就小一些。(www.zuozong.com)

但是必须注意,我们不能随意决定使用单尾还是双尾检验。譬如,不能因为我们想要假设检验具有显著意义,就使用单尾检验,或者为了使假设检验没有显著意义而选用双尾检验。这样的检验结果具有误导性,因而是没有什么意义的,这样的假设检验也是不严肃的。检验的选择要依据所从事的研究的具体情况来确定。我们仍以本章开始时所提到的教学方法研究为例,如果已经有初步的证据表明,方法A将会比方法B更能有效地提高学习成绩,那么就可以采用单尾假设检验;如果没有充分的证据预测差异的方向,就要使用双尾假设检验。

六、参数检验与非参数检验

假设检验往往对数据有一定的要求,所以为了恰当地选择和使用这些检验,也为了更好地理解检验的结果,必须对这些要求要有所了解。

不同的检验其要求是不同的。所谓的“参数检验”一般对所涉及的变量的测量水平、总体的分布形态、总体的方差等方面有一定的要求。严格来讲,参数检验只适用于连续性的等距(或比率)变量,譬如考试分数。此外,参数检验一般都要求样本所来自的总体呈正态分布,因为这对决定检验统计值的抽样分布非常重要。当数据为正态分布时,参数检验最为有效,随着其偏斜程度的增加,参数检验的有效性也随之降低。不过,这一要求在有些情况下可以有所放松,譬如当样本容量较大时,根据“中心极限定理”,即使总体的分布为非正态,平均数的抽样分布也会接近正态。另外,有些参数检验还要求所涉及的总体的方差相等,这样便于比较数据,检验的结果也易于解释。当上述条件不能满足时,就要使用“非参数检验”。这类检验对总体的分布形态和方差没有什么要求。有些非参数检验适用于顺序数据,有些则适用于称名数据。

总之,为了正确地选择合适的检验,必须了解不同检验的优缺点、使用条件以及违反了这些使用条件会产生什么样的后果,等等。此外还必须知道,对许多检验来说,并不是所有的条件都是同等重要的,有些条件即使不能完全满足,对结果也不会造成严重的影响,譬如用于检验方差是否相等的F检验对总体的分布要求非常严格,或者说对分布的偏斜比较敏感,但用来比较平均数是否相等的检验对正态分布的要求就不是那么高。

至于使用某检验的条件是否得到了满足,可以在检验之前对之进行诊断性检验。虽然在语言研究中,差异检验的结果不太可靠也不会带来灾难性的后果,但是如果是在进行比较严肃的研究,对诊断性检验还是要给予足够的重视。对于分布是否为正态的检验,我们在讨论正态分布时已经介绍了一些方法。对于方差是否相等的检验,我们将在第十章介绍。目前,计算机统计软件(如SPSS)的假设检验程序一般都能自动进行此类诊断检验。

此外,对假设检验的选择有时还要考虑实验研究的设计问题,我们将在有关章节中加以讨论。

七、假设检验的一般步骤

在分别讨论常用的假设检验之前,我们先来看看假设检验的一般步骤。

我们知道,假设检验的目的是根据随机样本中观察到的结果,对总体参数进行推测。具体来讲,就是通过检验两个(或多个)样本之间观察到的差异在多大程度上是由偶然因素造成的,来决定两者之间是否存在真正的差异,进而对相应总体之间的差异作出推断。对于多数假设检验,检验的过程都是一样的:

(一)陈述零假设,同时提出适当的备择假设(表明是方向性的,还是非方向性的,以便决定采用单尾检验还是双尾检验);

(二)根据研究的性质和目的设定适当的显著水平;

(三)根据数据的测量水平、分布的形态以及实验设计等选择适当的检验;

(四)根据样本计算检验统计值;

(五)把检验统计值和显著水平所对应的临界值加以比较(要考虑是单尾还是双尾检验)。如果检验统计值的绝对值大于临界值而落入临界区域之内,就拒绝零假设,同时接受备择假设;如果检验统计值落入临界区域之外,就接受零假设。

SPSS统计软件中给出的是观察到的显著水平,也就是如果零假设为真(即确实不存在真正差异),会出现至少像观察到的那样大的差异的可能性。我们可以把这一概率与我们所设定的显著水平比较,如果这一概率等于或小于显著水平,就拒绝零假设,否则就接受零假设。

但是这里有一点需要一并加以说明,那就是如果不能拒绝零假设,实际上存在着两种解释:一是参数之间(譬如两总体平均数之间)确实不存在差异,二是差异是存在的,只是我们的检验没有能够发现它。检验不能发现存在的真正差异有多方面的原因,譬如真正的差异虽然存在,但是确实太小,而难以发现。此外,如果样本容量过小或者变异过大,即使是很大的真正差异也不一定能够检验出来。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈

相关推荐