机助英语听说考试计算机自动评分的多层面Rasch模型分析
周燕 曾用强
提要:本研究运用多层面Rasch模型测量软件FACETS分析了计算机和15名专家评分员在一次广东省高考机助英语听说考试模拟测试中批阅215名考生口语录音的阅卷行为。研究发现:计算机自动评分和专家评分员评分的严厉度虽有显著差异,但并不会对考生能力分布产生决定性影响;计算机自动评分阅卷较低的评分偏差几率说明计算机自动评分比专家人工阅卷具有更高的内部一致性。
关键词:多层面Rasch模型; 机助英语听说考试; 计算机自动评分; 阅卷效度
基于多层面Rasch模型的评分员效应研究——以某市级青少年外语能力竞赛决赛为例
程俊瑜 袁洁
提要:本研究基于多层面Rasch模型,针对某市一次青少年外语能力竞赛决赛中的评分员效应进行研究,使用Facets 软件分析了7名评分员对13 名选手在外语能力竞赛中的评分。研究结果表明:1)评分员之间的严厉度有较为显著的差异,且有个别评分员自身一致性较差;2)7位评分员总体并没出现显著的集中趋势和随机性,但是个别评分员在打分时可能出现集中趋势和随机效应; 3)7位评分员出现了明显的晕轮效应;4)在区别性严厉度方面,评分员在对个别选手和不同性别的选手评分时出现偏差,在评分项目上不存在评分偏差。本文对产生上述评分偏差的原因进行了初步的探讨,并针对问题提出了相应的建议。
关键词:多层面Rasch模型; 评分员效应; 严厉度; 评分员偏差