天才一秒记住【热天中文网】地址:https://www.rtzw.net
曝光率越高,则测验的安全性越差,而且过度曝光的题目的测量性能(如难度参数)会发生改变,进而影响到CAT的测量精度。
因此对于一些CAT来说(尤其是高利害的CAT),需要采取一些技术来降低曝光率,从而提高题库使用的均匀性,提升CAT测试的安全性及测量精度。
(四)终止策略
终止CAT测试的方法一般有两种,一种是定长(FixedLength),即当被试完成了m题(如m=25)则结束测试;另一种是不定长(VariableLength),指固定测量误差(或测量信度),即如果某被试在CAT测试过程中达到某一设定的测量精度,则停止测试。
这种策略的特点是被试的测量误差(或测量信度)相近,但每个被试使用的题量不等。
以上CAT算法的确定需综合考虑多种因素:已有实证数据的分析结果,MontCarlo模拟实验结果,测试对象特征、测验目标要求甚至是相关法律、文件要求等,关于以上CAT各种算法的详细介绍,读者可参见本书第三章。
四、信度与效度验证
(一)CAT信度验证
CAT的信度验证,一方面可借鉴经典测量理论(CTT)的信度验证方法,如重测信度,考察同一批被试两次不同时间CAT测量结果的一致性程度;复本信度,将CAT题库随机分成两半(复本题库),考察同一批被试在两个CAT复本题库下测量结果的一致性程度。
这种基于CTT方法下的信度,一般只能分析所有被试一个笼统的信度值,但无法具体分析CAT对不同被试的测量误差(测量信度)的不同。
CAT信度验证的另一种思路,是以IRT为基础的测验信息量(Information,I),通过信息的大小来考察测量误差及测量的信度。
IRT中,信息量与测量误差的数学关系式为
而测量误差与测量信度成如下反比例函数关系(假定被试能力均值为0,标准差为1)
则由公式(2.3.1)和公式(2.3.2)可得CAT对能力为θi的被试的测量信度为
也即,可通过被试在CAT测试的信息量来计算该被试的测量误差和测量信度。
例如,对能力为θi的被试的信息量为25,则CAT对其的测量误差为0.2,对其测量的信度为0.96,参见表2-3-1和图2-3-3。
表2-3-1信息量与信度及测量误差的关系
图2-3-3测验对不同能力被试的信息量及测量误差
与经典测量理论下的信度相比,基于IRT的信度可以具体分析CAT系统对不同能力被试(θi)的测量信度及测量误差,从而可以细致考察CAT对每个被试测量的准确性,这也为CAT的自适应选题提供了重要的技术支持(如挑选对被试具有最大信息量即最小测量误差、最大测量信度的试题给被试做)。
(二)CAT效度验证
CAT的效度验证多半采用经典测量理论的方法验证,如效标关联效度,即CAT测量结果与某一效标之间的关联程度。
这方面内容读者可参考相关经典测量理论的文献。
五、正式使用与题库维护更新
在CAT系统建成之后,经大量试测、破坏性实验及用户体验和意见征求且效果良好之后,可以考虑正式使用CAT系统,并在使用过程中根据出现的问题及时修正与完善。
随着时间的推移,CAT题库中,有的试题可能内容陈旧或过时,有的试题被使用的次数过少或没有,而有的试题则被过度使用(曝光率高)等,这些都对题库的维护与更新提出了新要求:一方面需要对已有题库中的题目进行适度的调整、修改甚至删除;另一方面还需根据形式要求,不断向题库中增加新的、质量优秀的试题,从而使题库能不断适应新的环境及满足新的实际需求。
但我们知道,CAT题库中所有试题都必须具有IRT参数,更为重要的是这些参数还需等值到同一量尺上。
然而,题库中修改前与修改后的试题的测量学特征(如难度)会发生改变;新增加的试题的参数未知等。
因此这类试题不能简单地直接入库,需要经过测试及等值等过程,从而保证修改了的试题以及新增加的试题具有IRT参数并且与题库参数定义在同一量尺上。
随着测量技术的发展,目前学者们已提出了多种CAT中新题参数的在线标定技术,即在实际CAT使用过程中,自动实现对新增加的试题或题库中修改了的试题进行项目参数标定,从而省去了组卷测试以及等值等烦琐工作,大大节省了对题库维护更新的成本,本书第九章将对CAT项目参数在线标定作详细介绍。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!