天才一秒记住【热天中文网】地址:https://www.rtzw.net
其中,语言推理和数量推理部分具有相同的MST设计。
基于已有的研究结果表明,对于语言推理和数量推理的测量,一个简单的两阶段MST设计(图10-1-1)就可以满足预期的信度和效率(测验时间保持在4小时以内)。
还有研究结果表明,使用更复杂的MST设计并不能提升测验的信度(Robin&Steffen,2014;Robin,Steffen&Liang,2014)。
图10-1-1两阶段MST测验
&设计应具备以下特征:
第一,两阶段三水平设计,由20个题目组成;
第二,使用两参数IRT的正确次数得分(NC)计分;
第三,设定路由划界分数,使分别有三分之一的被试被分配到简单、中等和困难的阶段二模块中,并且每一个分组的被试能力值能够与他们被分配到的阶段二模块的难度良好匹配。
当测验设计完成后,所有的目标规范都应该被实现。
特别是,限制题目曝光率,模块和面板之间的重叠,以及大多数被试完成测验所需要的时间估计等(Hambleton,Swaminathan&Rogers,1991;Kolen&Brennan,2,1997;Stog,1996;Stog,Steffen&Eignor,2002;Thissen&Wainer,2001)。
三、GRE测验规范
GRE测验主要考虑三个方面的规范:内容,精度和测验安全性(Davey&Pitoniak,2006;vanderLinden&Glas,2010)。
内容规范规定了题目应涉及的范围和数量以及题目类型,具体包括不同领域的题目及其特征。
例如,生物科学或社会科学,理论知识或真实生活情境,图或表等。
内容规范也规定,若题目之间相关度过高,使用过多相同的词汇,或者题目相互之间可以提供答题线索,这些题目则不允许出现在同一个测验中。
测量规范规定了每一个测验应该达到以下要求:
第一,避免性别和种族的偏见;
第二,非速度测试;
第三,对所有能力范围的被试都能良好的测量;
第四,精确计分。
安全性规范规定,考虑到过去的曝光率,在测验中应仅有很小的概率会出现被试可以预期的任何题目或者题组(Robin&Steffen,2014)。
也就是说,在测验过程中,被试要完成的题目应是“新题”
,而不是其事先接触过的题目。
否则,不但无法考察该被试的真实能力,也会对其他被试造成不公平。
&设计的评估
GRE测验的测量结果是否精确,还需要更多研究结果的验证。
图10-1-2所示为一个典型的计分结果报告图。
图中显示了一次测验中简单、中等、困难模块的正确次数得分能获得的所有可能的报告分数。
计分考虑了阶段二不同模块的特殊性。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!