莆田第一中学 欧剑雄
一、 效度的概念
考试的目的是根据考生在考试中的表现推测考生的心理结构或能力。效度就是衡量这种推测有效性的指标,即测量结果与所要测量的结果相符合的程度。效度是衡量考试科学性的最重要指标。与其它领域的测量相比,效度问题在教育测量中更为重要。
在物理测量中,我们清楚地知道测量工具与所要测量的对象之间的对应关系,如天平用来测质量,米尺用来测长度。无法直接用仪器测量出的物理量,我们一般也清楚被测量量与直接测量量之间的函数关系。如密度,可以用米尺测得的长度算得物体的体积,用天平测得物体的质量,再将质量除以体积得到物体的密度。
而在教育测量中,测量的对象是人的心理特性,我们只能根据被试在测验中具有可测性的外部表现的测量来间接推测被试的心理特性。而被试的心理特性与外部表现之间,一般仅具有相关关系而无函数关系。因此,在教育测量中,我们必须要关心“测量结果究竟在多大程度上反映了我们所要测量的结果”
这一重要问题。
效度的概念是相对的。首先,考试的效度是针对特定的考试目的而言的。一个考试对特定的考试目的是有效的,但对另一种目的,则很可能就是无效的。例如,一份高考物理试卷,对于评价学生的物理学科能力有很高的效度,而用于评价学生的计算能力或初三学生的物理学科能力就可能只有很低的效度。不存在对于任何目的都有效的考试。其次,考试效度的评价只有程度上的评价,而没有“有”
或“无” 的问题。这是因为对人心理特性的测量,是通过考生的外部表现间接推测而获得的,显然这不可能完全正确有效。同时,考试又是根据特定目的精心编制的,一般来说,效度不可能全无。
二、 效度与信度的联系
凡测量必有误差,误差的存在会使考试分数对真分数有所偏离。如果测量过程中对误差控制得好,对影响测量准确性的干扰因素对抗性强,考试分数所传达的有关真分数的信息就会越准确,分数使用起来的可靠性就强,在测量实践中就体现为对同一被试反复施测的一致性高。因此,考试的信度一般以两次重复测量或等值测量的结果的相关系数来表示,这一相关系数称为信度系数。按照信度系数获得方法的划分,有再测信度、复本信度、内在一致性信度(半分信度、同质性信度)和评分者信度。
如果某个考试的信度很低,则说明这个考试的误差很大,测量的结果是不可靠的,那么就更谈不上有效性了。如果某个考试的信度高,则说明测量的结果是可靠的,但这个可靠的结果并不能确保测到了我们要测的心理特性。因此,信度高是效度高的必要条件,而非充分条件。
例如,如果根据实验“蜘蛛的耳朵长在腿上”设计如下的测验。
测试目的:判断蜘蛛的听力
被试:一群蜘蛛(一部分正常,一部分腿被剪掉)
问题情境:冲所有蜘蛛大吼一声
评价方法:根据蜘蛛的行为判断蜘蛛的听力——爬走的蜘蛛听力正常,未爬走的蜘蛛听力不正常。
这个测验不管施测几次,测验结果都会是“腿被剪掉的蜘蛛都不会爬走、腿正常的蜘蛛基本都会爬走”,也就是说这个测验的信度很高。但是,显然这个测验是无效的。因此,不能用信度代替效度来解决考试的有效性问题。
三、 效度与难度、区分度的联系
在经典测量理论中,试题难度在数值上反映的就是考生群体在该试题上的通过率或得分率。试题的区分度是指试题对考生实际水平的区分程度和鉴别能力。
区分度有正区分、零区分和负区分。所谓正区分就是能够准确地把考生的真实水平区分出来,实际水平高的考生得高分,实际水平低的考生得低分,反之则成为负区分;零区分是指考生的实际水平高低与得分之间没有太大的关系。 REF _Ref536658796 \r \h \* MERGEFORMAT
区分度的分析首先要找一个标准来确定考生实际水平的高低,通常我们把考生考试的总分当成考生的实际水平。因此,我们通常把考生该题得分与试卷总分的相关系数作为该题的区分度。区分度的计算通常用相关法(点二列相关系数、二列相关系数、积差相关系数等)或高低分组法。
试题的难度会影响试题的区分度。一般而言,过难或过易都会降低试题的区分度,高区分度的试题则是高效度考试的必要条件而非充分条件。例如如下测验:
测试目的:选拔中国男足国家队队员
被试:100名待选足球运动员
测试试题:第1题100米赛跑,第2题110米赛跑,第3题120米赛跑,……第20题290米赛跑。
评价方法:根据被试跑步的完成时间评价。对100名运动员在每题的跑步成绩进行排序,用时最少者该项成绩记100分,第二名记99分,依次类推。将20题总成绩相加,记为该被试的总成绩。总成绩高者入选国家队。
对于上述测验,由于20道试题之间存在极强的同质性,因此考生每道试题的得分与总分之间的相关系数一定很高,即每道试题的区分度都很高。但显然的,选拔出的队员未必是最佳的足球运动员,也就是说试题的效度未必很高。
参考文献
[1]教育部考试中心.高考物理测量理论与实践(2007年版)[M].北京,高等教育出版社,2006
[2]李金波.让考试更科学——基于命题视角的研究[M].武汉;武汉大学出版社,2012
[3]黄光扬.教育测量与评价[M].上海:华东师范大学出版社,2012
|