|
板凳
楼主 |
发表于 2008-11-6 06:52:00
|
只看该作者
三、评分标准的制定
无论是HSA、HRLS还是NAEP,其阅读测试中的开放题都给出了十分详细的评分标准。在命制阅读测试题目的时候,每道题的评分标准也就初步拟定好了。这时的评分标准一般是命题者基于对题目本身的认识和对学生作答该题的预期而制定的,因此此时的评分标准只是命题人员主观的“理想构架”,还不能直接运用到具体的评分过程中。这种“理想构架”需要根据学生在试测中的实际作答情况做出进一步的修整和完善。例如,在对能够代表所有被试的小样本群体做试测时,可能会出现这样的情况:所有学生的回答都没有达到命题者预期的最高水平的答案。这时就需要对评分标准的满分要求做出相应的调整——命题者预先设定的最高水平的答案是成人对文本解读的结果,而并不是特定年龄阶段的学生所能达到的,评分标准中的满分答案应该根据学生所能达到的最高水平做出修订。此外,还要对试测中学生丰富多彩的回答情况做出归类,确定哪些是可接受的,哪些是不可接受的,可接受的又可分为几种水平……这样,根据试测所反映出来的学生的具体答题情况对预设的评分标准进行修改、丰富、完善,把题目的每一种赋分情况都配以若干学生的回答样例,这样的评分标准就非常明确而具体,评分者在给分的时候就会有据可依,评分的主观性就大大降低了。
四、三种国际阅读评价体系给我们的启示
(一)理性构建阅读测试的框架体系
上述三大国际阅读评价体系都有非常系统、明确的评价框架设计,在测试内容的确定、测试材料的选择、评分标准的制定方面的有益经验值得我们借鉴。
首先,在阅读能力测试之前明确所要考查的内容,即主要的阅读能力要素,这样就使得命题的指向性很明确,避免了命题的盲目性与随意性;也便于根据命题意图和考查目标对学生的作答情况进行有针对性的分析,并提出相应的教和学的改进策略,这是我国的阅读能力测试首先值得借鉴的。在我国的语文考试中,阅读测试题目往往是依赖命题者的经验和个人对测试材料的理解和把握而命制的,对所要考查的目标阅读能力要素没有事先做出全盘性的把握和设计,例如,未预先对目标阅读能力要素进行清晰的认定,未设计各能力要素的考查权重和题目比例,等等。这样命制出的测试题目受命题者的主观经验和测试材料本身特点的影响很大。题目可能从表述上、形式上看来是不同的,但题目背后所考查的阅读能力要素却是雷同的,即所需学生完成的智力动作是相同的,或者也可能题目本身就偏离了考查的主旨,没有围绕着所要考查的核心阅读能力要素命制试题。这样的阅读能力测试就可能会造成有些能力要素重复考查,有些能力要素却被忽略或遗漏,考查结果很难代表学生的真实阅读水平。例如,2005年某课改实验区的语文中考试卷中,有这样一组阅读题目:
阅读下文,完成16-22题。(共21分,其中2分为附加分)
华语情结(文略)
16,结合具体语境,解释文中的加点词语。(三选一,多答不加分)(2分)
(1)风干、干缩 (2)跌跌撞撞 (3)嗫嚅
17,文中为什么说华语是一座高山?请用原文句子或自己的话来回答。(2分)
18,作者在文中叙述了华语从古至今的发展状况,请用恰当的词语(自己概括也可)完成下列表格。(2分)
19,文中流露出作者怎样的“华语情结”?(2分)
20,我们每天都在学习自己的母语,你喜欢上语文课吗?说出你的理由。(2分)
21,生活中处处有语文。举一个具体事例,说说你在课外学习语文的收获。(3分)
22,综合探究(6分,见解独到、语言精彩另加2分)
请你任意组合至少两则材料(上文也可算一则),提取材料中的关键信息,从一个或多个角度思考,谈谈你对母语现状的认识。(60字以上)
从这组题目整体来看,没有充分体现出命题者对所要考查的阅读核心能力要素全盘性的把握和设计。16小题考查的是理解词语在文中的具体意思,17.18.19小题主要考查学生从文本中获取信息和初步概括的能力。这4道题共8分,仅占整组题目分值的38%;而20.21.22三道试题则相对独立于阅读材料《华语情结》之外,题干内容均与阅读选文的关系不大(只有第22题题干有“上文也可算一则”之语),脱离了阅读材料。从题目的参考答案及评分标准中,很难看到阅读文本的影子和作者在文中所抒发的华语情结,而且题目的考查目标也偏离了阅读的核心能力要素;但从分值比例上看,20.21.22三道小题赋分共13分,占这组阅读测试题目总分值的62%。这样的试题命制得显然不够合理。
如果命题者没有对所要考查的目标阅读能力要素做出清晰的认定与整体上的把握和设计,那么所命制的题目势必难以反映出学生的真实阅读水平。诚然,阅读理解过程是一个复杂的心智活动过程,从完整而连贯的阅读理解过程中准确离析出每一种阅读能力要素是很困难的,前文也提到过,我国学者对阅读能力要素的划分不下几十种,难以达成一致。例如。章熊认为阅读能力包括认知和筛选的能力、阐释的能力、组合和调整能力、扩展能力。④祝新华认为阅读能力包括认读能力、理解能力、吸收能力、速读能力、语感鉴赏能力。⑤各家有各家的道理。然而我们所关心的是,怎样的划分使得基于纸笔测验的阅读能力测试更具可操作性?显然,我们国内的划分很难作为有效的测评框架应用到实际的阅读能力测试中。因为在设计阅读测试题目时,很容易出现题目考查的能力要素不能清晰认定,有的题目考查到了几种能力要素,有的能力要素却难以通过纸笔测验来考查的状况。相比国内,上述国际上的三大评价体系对阅读能力要素趋于一致的认识则更为可取。它们在阅读能力测试之前都将其测试对象具体化、行为化,便于认定和把握,使得命题过程可操作性很强。获取信息、解释文本、反思与评价是完整的阅读心智活动中三种主要的智力动作,三者之间不可避免地有一定的相关性和依赖性,但各自也能保持相对的独立性。在命制阅读测试题目的时候,三者能够较为清晰地区分开,使得每道题目的考查点比较明确,便于测试之后的解释和反馈。
其次,相比国内主要按照文章体裁来选择阅读测试材料,根据阅读情境或阅读目的来选择测试材料更为合理。这样做主要有两方面的优点:一方面,按照这种标准划分的阅读材料覆盖面更广,不局限于课堂教学中的记叙文、说明文、议论文等,它基本上可以涵盖学生在学校内外的阅读活动中所接触到的所有阅读材料的种类,更贴近学生丰富多彩的阅读生活,更能真实地反映学生的实际阅读水平:另一方面,人们在真实的阅读活动中,很少是按照文章体裁来阅读的,更多的是根据自身的兴趣、爱好或需要来阅读。文章的体裁本来就是人为划分的,近些年来,义务教育中逐渐提出了“淡化文体”的要求,目的就是要解放学生的思想,避免其在阅读、写作中被强烈的文体意识束缚住了思维。而这种按照阅读目的对阅读材料的划分则更符合人们真实的阅读生活,也更为合理。
除了在宏观上对阅读材料进行了分类。用以指导阅读测试材料的选择之外,上述三大评价体系还都提出了选材的具体要求。例如,PISA特别强调了表格、图表、地图等类型的阅读材料应作为阅读测试材料的一部分。在我们国内以往的阅读测试中,这种类型的阅读材料往往是被忽视的,很少出现在试卷中。然而,在我们日常生活真实的阅读活动中,这些阅读材料又是很常见的,在读者的阅读活动中占有很大的比重,读者需要具备阅读这种类型文本的能力。PISA将它们作为阅读评价的一类材料提出来,是值得借鉴的。
第三,三大国际阅读评价体系在制定主观性试题评分标准方面为我们保证主观题评分信度提供了良好的思路。在我国,长期以来,由于对标准化考试的追求,人们更多地关注采用客观题,例如选择题的形式来进行测试。但是阅读能力测试本身的特点决定了单纯使用客观性试题难以很好地反映出学生的阅读水平,一定量的主观性试题是必不可少的。主观性试题对于考查学生的思维过程和某些复杂的智力动作有其独特的优势和适用性,那么如何保证主观性试题的评分信度就成了首要问题。在我们国内的语文考试中,阅读部分本来就很简单的评分标准中不难见到类似“意思对即可”“酌情给分”的语句,这无疑是将给分大权完全交给了评分者个人,在评分标准含糊不清的情况下,评分者每人拿着自己的一把“尺子”去衡量学生的作答情况,结果可想而知。教育部初中毕业考试评价组在2006年语文中考命题指导中就强调:“有些(课程改革)实验区的开放性强的主观性试题,参考答案及评分标准不明晰、模糊性强,缺乏可操作性,评卷教师很难准确把握评价的尺度。例如,有的试卷只要求言之成理即可,有的试卷只给出示例。为了避免具体评卷过程中存在的模糊性和不确定性。应当注重制定科学性、弹性和可操作性相结合的参考答案和评分标准。”⑥在合理制定阅读开放性试题评分标准、保证评分信度方面,三大国际上的阅读评价体系给了我们有益的启示。当然,我国也有我国的特殊国情。在我国,国家或者是省、市级的大规模教育考试一般都是高利害性的考试,比如高考、中考,一般不具备在正式考试前进行一定规模试测的客观环境。我们虽然不能完全仿效国外通过试测来修订评分标准的做法,但依然可以从他们的这种思路中获益。例如,我们可以在正式阅卷前抽取一定量的样本进行试评,将试评做细做精,根据试评中的学生答题样例来修订和充实评分标准,这也不失为一种好的方法。
(二)深入反思语文教学的最终指归
在我国的各级各类考试中,阅读测试一直是稳定而重要的考试内容之一。但国内现在的阅读测试多是停留在凭经验操作的层面上,往往不够清晰明确,缺乏系统化、理性化的思考与设计。上述国际三大阅读评价体系在明晰确定测试内容、理性选择测试材料、合理设计评分标准方面,确实有很多值得我们思考和借鉴的地方。虽然我国是个考试大国,自隋唐兴科举以来已有千余年的考试历史,但毋庸置疑,我们国内在测试方法和技术层面还须向国外学习借鉴。
然而,抛开具体操作层面上的方法和技术,测试的内容确定、材料选择等呈现形态直接投射出了其所承载的理念——阅读教学,甚至是语文教学,它的最终指归在哪里?杜威在批评“传统教育”时曾经说过,传统教育“最大的浪费是由于儿童在学校中不能完全、自由地运用他在校外所获得的经验:同时,另一方面,他又不能把学校所学的东西应用于日常生活。”⑦这种学校学习和社会生活互不相干、“两层皮”的现象是我们所不愿看到的。教育教学的最终目标应该是让学生掌握必要的参与社会生活的能力,应该是“为生活”的,而语文的学习更是学生将来参与生活、融入生活的基础。以此为立足点来审视国内外的母语测试或是其中的阅读能力测试,我们不难发现之间的差异。上述三大国际阅读评价体系无一例外都将阅读测试置于各种真实的生活情境中,考查学生的阅读能力是否已经满足了实际生活的需要。如PISA考查学生在生活中四种主要阅读目的下的阅读能力发展状况:为了个人应用而阅读,为了公共应用而阅读,为了教育而阅读,为了工作而阅读。这样的测试植根于生活,其取向是“为生活”的,其背后的教育教学思想也是为了学生的现实生活和未来发展的。然而反观我们国内的语文考试及语文教学,则过多地关注于僵死的字、词、句、篇、语、修、逻、文,而往往脱离了现实生活的需要。例如,在我们的语文教材中,文学型文本和信息型文本的选文比重一直以来都有所失调——这一点在阅读测试中也可反映出来:文学型文本的比重过大,小说、散文、诗歌、戏剧等等似乎永远都是语文课本的主角,语文老师总会掰开揉碎地给学生分析讲解文章的主题、立意、中心、人物、风格、背景等,而信息型文本却被忽视。然而在真实的社会生活中,信息型文本,主要包括一定的科学性文本和实用性文本等,正是我们需要经常阅读、理解和使用的,和我们的日常生活密不可分,也是我们在知识激增、信息爆炸的现代社会中不断学习、自我发展与完善所需要的:而文学知识或文学分析能力相对而言反倒不是最重要的了。这反映出我国目前语文教学在实践层面上的一个问题,即过于注重理性的解读和分析,强调所谓基本知识的掌握,而忽视了语文教学的核心和本质是对语言文字本身的理解和应用。
从这个角度来讲,上述三大国际阅读评价体系给我们最大的启示反倒不是其系统、理性的测试框架设计,而是测试背后的教育思想理念。阅读测试本身不是目的,其目的是要检查、反馈和改进阅读教学,而阅读教学的最终目标是要实现促进学生的阅读能力发展。学生阅读能力最基本的现实表现就是能够理解文本,获取所需信息,满足现实生活或未来发展的需要。我们的语文教学不能成为脱离生活实际的空中楼阁,而应该实实在在可以为生活所用,为学生在踏出学校大门后实现终身发展所用。语文教学只有找准了它的实质指归,才能为学生所喜爱,才能真正促进学生的发展。
|
|