张咏梅 等:学业水平描述的研究进展与启示
2023-07-07 19:58:41    中国考试

原文刊载于《中国考试》2023年第6期第26—33页。


(资料图片仅供参考)

作 者

张咏梅,北京教育科学研究院研究员。

田一,北京教育科学研究院副研究员。

郝懿,北京教育科学研究院副研究员。

摘 要:20世纪90年代以来,学业水平描述研究取得显著进展,从最初仅为标准设定的基础发展至今已成为分数解释与测验开发的依据,从知识、技能与认知过程的内容设计发展到与证据中心设计理念相结合,从最初的两个类型拓展到目前的四个类型,学业水平描述已成为教育测评体系中不可或缺的构成要素。目前,我国学业水平描述开发较为薄弱,可从如下四个方面加以改进:1)加强对学业水平描述多元化功能的认识;2)探索证据中心设计的开发路径;3)建构以核心素养为指向的学业水平描述框架;4)吸纳学习进阶的研究结果。

关键词:学业水平描述;标准设定;切点分数;证据中心设计;学习进阶

0 引言

学业水平描述,又称表现水平描述(performance-level descriptors)或成就水平描述(achievement-level descriptors)。在教育测评项目或体系中,学业水平描述阐明期待学生应该知道什么、能够做什么,如国际学生测评项目(Programme for International Student Assessment, PISA)素养测评框架对处于不同学业水平学生群体的特征说明。在标准参照测评体系中,学业水平描述是标准设定的前提,据其设定的切点分数是判断教育质量或学业成就高低及能否获得某种资格证书的关键。  标准参照测评的早期支持者认为,学业水平描述能够“帮助教师将教学聚焦‘为未来生活做准备的题目’”[1]。1954年,Nedelsky在标准设定中提出临界组的概念,引发关于最低能力学生典型特征的讨论及对最低能力学生必备技能的关注[2]。20世纪80年代有关标准设定的文献大多提到要界定最低能力的学生或边缘群体[3],但在标准设定过程中仅限于口头讨论。最低能力学生的提出,直接衍生了学业水平描述的概念,同时也确立了学业水平描述在标准设定中的重要地位。  随着学业水平描述被应用于PISA、国际数学和科学趋势研究项目(Trends in International Mathematics and Science Study, TIMSS)、美国教育进步评价项目(National Assessment of Educational Progress,NAEP)、澳大利亚国家评价项目(National Assessment Program,NAP)等具有国际影响力的教育测评项目,其在教育测评中的作用愈发凸显。本文拟对国际上的相关研究进行系统梳理,在此基础上剖析我国学业水平描述开发所面临的问题并提出应对之策。

1 学业水平描述的研究进展

近年来,在功能定位上,学业水平描述正从单一走向多元;在设计理念上,学业水平描述正从内容视角转向方法视角;在类型构成上,学业水平描述正从概括粗疏转为演绎精细。

1.1 功能定位:从单一走向多元

学业水平描述最初仅应用于确定切点分数,现已成为分数报告的解释依据和测验开发的直接参照。1.1.1 标准设定的重要基础NAEP在1992年首次采用书面形式的学业水平描述来指导标准设定,即为测验确定切点分数或分数线,此为教育测量实践在方法环节上的重要改进[4]。标准设定小组首先将学业水平描述作为依据,判断临界组学生在每道题目上的作答表现(可能的得分或答对概率),其后将由整卷题目作答表现而得到的切点分数与学业水平描述整体对照,进行合理性判断。在此过程中,学业水平描述为标准设定小组提供领域能力框架或结构。有研究表明,以学业水平描述为基础进行切点分数划定,能够提升标准设定小组成员间的判断一致性[5]。  美国标准和测评指南指出,学业水平描述须在标准设定前开发并用于指导整个过程[6]。尽管有学者建议学业水平描述也可在完成标准设定后编写[7],现有测评体系大多仍将其作为标准设定的基础前提或首要步骤。1.1.2 分数报告的解释参照《教育与心理测量标准》指出:“分数报告应附有清晰陈述,以说明如何解释分数。”[8]学业水平描述是为分数报告提供“清晰陈述”的重要参照。  NAEP基于分数量尺将学生能力划分为由高到低的不同水平类别时,学业水平描述为这些水平类别提供了简洁而专业的内涵解释,以说明各水平的学生具体知道什么或能够做什么,帮助家长、教师和社会较深入地了解学生的学习状况。例如,NAEP2022成绩报告将在数学学业分数量尺上高于333分的八年级学生划归“优秀”,其能力特征是:1)能够甄别正例与反例,以形成对所建模型的概括能力;2)能够运用数感和几何意识来思考答案的合理性;3)能够运用抽象思维来创造性地解决问题,并解释有关结论的推理过程[9]。1.1.3 测验开发的直接依据有学者认为,测验开发伊始就应起草学业水平描述,为规划测验的目标、结构、内容和能力要求提供直接依据,还可应用于测验蓝图设计和命题[10]。在测验开发过程中应用学业水平描述,可以增强测验和教学课程之间的一致性,确保测验内容与教学和测评目标协调一致。  有研究表明,使用学业水平描述作为命题依据,可以更好地保证测验客观公正,提高测量知识、技能和认知过程的全面性,对确保测验效度至关重要[11]

1.2 设计理念:从内容视角转向方法视角

测评体系中的学业水平描述设计经历了由知识、技能与认知过程的内容视角到结合证据中心设计(evidence-centered design)方法视角的转变。基于原则的设计思想深化了证据中心设计思想,但实践中仍较少应用。1.2.1 基于知识、技能与认知过程的设计思想基于知识、技能与认知过程的设计思想,主要从内容构成的视角来回答学业水平描述应该包括什么。具体来说,就是依据测评框架和内容标准,从知识、技能与认知过程诸方面说明各水平的学生应知道什么、能做什么。  在早期的测评体系开发中,学业水平描述是在命制题目及标准设定后开发的。命题人员最初会依据测验蓝图或相关指南来命制题目,宽泛地测量内容标准中的知识、技能与认知过程[12]。通过收集、归纳学生在多组题目上的作答表现,精细化提取知识、技能与认知过程方面的特征,汇总形成学业水平描述[13]。开发学业水平描述时,不仅要考虑同一年级不同水平间的内容差异,还要考虑不同年级间的内容差异。为此,有学者建议,首先确定所期待的中间水平的特征表现,在此基础上或提高要求,得到较高水平的描述,或降低要求,得到较低水平的描述[14]。  近年来,学习进阶、学习轨迹、学习连续体等方面的研究在数学、科学、语言学习等领域受到越来越多的关注,其将学习科学、认知科学与具体知识领域相结合,聚焦核心概念或关键能力,呈现了大量由低级至高级、由简单至复杂的连贯学习路径。为基于知识、技能与认知过程进行学业水平描述提供了更直接的理论依据[15],也将为不同年级间的学业水平差异描述提供科学依据[16]。1.2.2 基于证据中心的设计思想与基于知识、技能与认知过程的设计思想相比,证据中心设计思想不仅关注学业水平描述的内容,还关注学业水平描述的方法,为学业水平描述提供了方法论视角[17-18]。证据中心设计思想要求细化学业水平描述中的主张,并为之提供证据支持。每个主张都体现相应学业水平在知识、技能与认知过程上的具体特征要求,证据支持则来自对学生题目作答信息的分析。Plake提出,通过主张(claim)来呈现学业水平的过程,也是将主张映射到被测查的学生潜在能力连续体上的过程。通常,起初细化的主张能够完整涵盖学业水平描述,经过命题、实测、作答信息编码分析后,最终提炼出的是那些能够充分刻画学生群体特征、有效区分相邻学业水平的关键主张,而非映射到能力连续体上的所有主张。在许多情况下,上述过程在迭代中实现对学业水平愈加精准的描述[19]。可以看出,与基于知识、技能与认知过程的内容设计思想相比,证据中心设计思想不仅回答了学业水平描述应该包括什么,而且从方法学的视角阐明了该如何开发学业水平描述。  近年来,有学者提出基于原则的学业水平描述设计思想[15],从方法论视角进一步聚焦如何才能开发出有效的学业水平描述,是对证据中心设计思想的拓展。虽然二者均倡导在测验开发前就形成学业水平描述的初稿,但基于原则的设计思想更强调应以分数解释与应用为指向,在测验效度论证的框架下开发学业水平描述,更强调“学业水平描述—主张—命题—题目作答信息分析”这个逻辑论证链条要素间的映射关系。由于实践中要素间精确对应很难完全实现,以基于原则的设计思想为指导所开发的学业水平描述尚不多见。

1.3 类型构成:从概括粗疏转为演绎精细

随着对学业水平描述认识的加深和功能的拓展,其类别构成也经历着由概括到演绎、由粗疏到精细的演化过程。NAEP首次在数学标准设定中使用学业水平描述这一概念时,仅包括政策定义和内容定义两种类型,并将政策定义作为制订内容定义的起点。在制订学业水平描述时,由于未能与课程标准及教育测评体系进行缜密对接,且学业水平描述开发通常是在标准设定前完成,学业水平描述无法引导测验开发,也难与切点分数所代表的知识、技能与认知过程相对应。

为解决这些问题,Egan将学业水平描述划分为政策型、范围型、目标型及报告型,四种类型相互衔接,分别对应测验开发、命制题目、标准设定和分数解释四个环节。四种类型的划分为开发科学精准的学业水平描述提供了程序上的保障,促进了学业水平描述与政策指向和课程标准的一致性,也促进了学业水平描述与测评体系的整体协调[5]。总的来看,政策定义的学业水平描述即政策型学业水平描述,内容定义的学业水平描述则被进一步细化为范围型学业水平描述和目标型学业水平描述。下面简要介绍Egan提出的四种类型的学业水平描述。1.3.1 政策型学业水平描述政策型学业水平描述在宏观层面对各水平学生应该知道什么、如何实现目标加以说明。政策型学业水平描述措辞谨慎、言简意赅、层次分明,概略表达测评体系对学生学业水平的期待。NAEP的政策型学业水平描述界定为:优秀水平是“具有出色的学业表现”;熟练水平是“具有稳定的学业表现,可在学科知识学习及应用知识于现实情景方面、在学科所要求的分析能力方面展现出挑战力”;基础水平是“仅部分地掌握了熟练水平所要求的必备的基础知识与技能”[20]。  在为各级学业水平命名时,Beck提出应避免下列词语:1)含义模糊的词语,如”有待改进”“合理掌握”等;2)常模术语,如“平均”“典型”等;3)动态变化的词语,如“接近某群体”“接近某标准”“正在进步过程中”等,因其会在后期确定临界值和切点分数时造成困难[10]。为避免学业水平描述名称带有层次差异感,Zieky建议使用中性词汇来命名表现水平,如水平1、水平2、水平3等[21]。  政策型学业水平描述通常在测评项目确立时公布,具有跨年级、跨学科的通用特征。制订政策型学业水平描述,一方面可为建立测评体系确定基调,另一方面便于向公众简要说明体系中学业水平的内涵,有利于各学科和学段在相同名称、水平数量要求下开发相应的范围型、目标型和报告型学业水平描述。1.3.2 范围型学业水平描述范围型学业水平描述是对政策型学业水平描述的具体化与专业化,是对各水平学生群体“作答题目所需要的知识、技能和认知过程”的说明。范围型学业水平描述不仅为命题人员规定了各内容部分的权重,还呈现了测试对各水平学生的细节要求。  范围型学业水平描述通常与课程标准中的内容标准密切相关,在理想状态下,应在命题前就开发完毕。对于基础教育领域的测评体系,呈现学业水平描述时需了解学生学习特定概念的具体方式与路径,这有助于展示学生学习的可能方式。范围型学业水平描述应涵盖测评的全部内容,相较于其他类型,其描述更为详细具体。制订范围型学业水平描述,有助于明确测查目标,在命题之初就与相应的学业水平表现相呼应。1.3.3 目标型学业水平描述目标型学业水平描述聚焦范围型学业水平描述的下限或临界水平,是对刚达到某水平学生群体特征的说明。目标型学业水平描述是对范围型学业水平描述基本要求的进一步细化,具体说明需要掌握哪些标志性的知识、技能与认知过程方能恰好达到某学业水平。制订目标型学业水平描述有助于链接范围型学业水平描述和后期的报告型学业水平描述。  目标型学业水平描述在范围型学业水平描述开发后和标准设定之前完成。首先,要鉴别课程标准或测评框架中内容标准及其子维度的要求范围与层次,对内容标准进行适当标注,进而区分每个学业水平分别对应的内容要求。在每个学业水平中,可将内容要求作进一步分解描述,如“刚刚达到熟练水平(P-)”“达到熟练的平均水平(P)”“达到非常熟练水平(P+)”等。其次,在前期工作基础上,将标定好的全部内容要求整合成与各学业水平相一致的集合,用来描述范围型学业水平中的知识、技能与认知过程要求,同时将所有被标定为“刚刚达到熟练水平(P-)”的具体内容要求汇总为相应的目标型学业水平描述。最后,还要检查范围型学业水平描述和目标型学业水平描述对不同年级的适用性,并进行相应的调整。目标型学业水平描述提供对各水平特征的详尽说明,为精确设定切点分数打下坚实基础,对标准设定至关重要。1.3.4 报告型学业水平描述报告型学业水平描述是最常见的学业水平描述形式。与其他类型的学业水平描述相比,报告型学业水平描述同样针对达到某学业水平的学生应知道什么、能够做什么进行说明,但表述更加通俗易懂,有的还附有解读与指导。Luecht认为,报告型学业水平描述应具备如下特征:严谨描述各个水平所需的技能和知识;提供与实际测量内容有关的明确证据;足够详细,便于应用,易于学生、教师和家长理解[15]。  开发报告型学业水平描述及解释性指导通常是在标准设定环节确定切点分数之后。首先,要明确报告型学业水平描述是针对水平内的典型学生群体还是刚达到临界线的学生群体,后者与目标型学业水平描述密切相关。此通常体现在报告的解释性指导中,也可体现在每个报告型学业水平描述的开头,如“该水平的典型学生能够……”或“该水平的临界学生能够……”。解释性指导中还要说明,所提供的报告型学业水平描述仅来自对相应内容范围抽样测评的结果,要据此作出关于学生的某些重要决策,尚需结合其他信息。向学生、家长和社会提供报告型学业水平描述,不仅能够帮助学生和家长科学认识测验结果,还能够帮助学生明确学业提升方向。

2 我国学业水平描述开发存在的问题与改进建议

历经30年的发展,学业水平描述从最初仅为标准设定的基础到分数解释与测验开发的依据,从知识、技能与认知过程的内容设计到与证据中心设计思想相结合,从两类学业水平描述拓展至四类学业水平描述,学业水平描述已成为教育测评体系不可或缺的构成要素。尽管国际上的学业水平描述开发尚存在宽泛的描述、题目作答表现与量尺分数三者间相互脱节等问题,但其依然能为我国大规模教育测评体系建设提供重要的理论、方法与实践的借鉴。  我国基础教育领域存在多类基于课程标准的测评体系,如国家和省级教育质量监测体系、初中和高中学业水平考试、区域或省市级的学年或期末测评等,均具有鲜明的标准参照测验的特征[22]。然而,作为标准参照测评体系的重要组成部分,学业水平描述在我国尚未得到应有的重视,有关部门和人员对其开发路径、内容框架、优化策略等方面的认识尚不够充分。结合学业水平描述的国际研究进展,建议从如下四个方面加以改进。  第一,加强对学业水平描述功能的认识,为标准设定、分数解释和测验开发提供依据。我国标准参照测评体系尚未普遍应用学业水平描述。部分教育测评体系缺乏学业水平描述,对区域测评结果的解释存在很大的随意性,甚至直接采用“优秀”“良好”“合格”等标签性质的词汇对教育质量或学生学业表现作出粗略判断。在较少拥有学业水平描述的测评体系中,过于笼统的描述不仅难以指导命制题目,也极少会在标准设定环节参照其获取切点分数,应用其解释测评结果的意识也尚未形成。  考虑到学业水平描述在国内发挥的有限功能,对比国际大规模测评项目,建议在尽快补充开发论证学业水平描述时,要特别关注三个方面:1)在标准设定环节,要以提供相应学业水平描述作为基础前提;2)在发布考生分数报告环节,要提供基于学业水平描述、符合标准参照测验要求的详细解读与说明,引导学生、家长与社会理解测评分数背后的学业水平内涵特征;3)在测验开发过程中,可应用学业水平描述辅助测验蓝图设计,要关注学业水平描述与题目(或任务)细目、量尺分数之间的对应关系。需要强调的是,学业水平描述对于测验开发仅能发挥辅助作用,因为其描述较为概括,尚不能达到课程标准中内容标准的广度和深度,过于依赖学业水平描述可能会窄化课程标准内容。  第二,遵循学业水平描述的开发路径,倡导证据中心设计理念。有的学业水平描述源于对专家主观经验的总结提炼,其结构与水平的划定缺乏实证依据。依据证据中心设计思想,学业水平描述的一个关键特征就在于有证据作支撑。结合我国实际,学业水平描述开发的路径为:1)草拟初稿。依据教育测评体系的目的和课程标准的要求,结合教育教学的实际经验,由教育研究人员、学科专家就某年级或学段形成学业水平描述初稿,尽可能多地包含“应该知道什么、能做什么”的学业表现特征。2)设计取证。明确支持表现特征描述的证据类型及其获取的方法学路径,如每段学业水平描述都能得到来自测验、问卷调查、口语报告、认知访谈、临界组作品分析等具体证据的支撑,并进行对应标记。在此基础上,设计研究工具,实施相关研究。3)分析呈现。对获取的各类证据进行定量或质性分析,验证、说明并呈现其与表现水平描述的关系。4)修订完成。据分析结果对学业水平描述草稿进行删减、补充或调整,形成终稿。对某些长期实施的教育测评体系来说,学业水平描述一旦形成,即便每年有小的迭代调整,还是应保持总体稳定。只有当课程标准或测评体系发生重大变化时,才需作出相应较大变化。  第三,建构学业水平描述框架,提倡基于课程标准的核心素养指向。学业水平描述框架从测评目的出发,对学业水平描述维度构成及结构关系加以说明,是提炼学生“应该知道什么、能做什么”的基本依据。在当前为数不多的学业水平描述中,其构成维度及结构关系主要体现为知识、技能与认知过程要求,对学科能力或核心素养的描述则较为缺乏。随着新课标的发布,以核心素养为本的理念将贯穿教育教学全过程,现行标准参照测评体系将随之进行调整,相关学业水平描述框架也有必要重新开发或作较大修订。为此,应注意以下四个具体问题:1)明确测评框架的素养构成,即选择采用哪些素养维度来刻画学业表现水平并对其内涵、结构及相互关系进行说明。2)明确测评框架的知识载体,即结合素养维度的内涵、结构及相互关系,选择哪些学科知识作为载体来共同刻画学生的表现水平。3)明确描述框架的类别构成。根据精细或概略的开发应用需求,对前文所述四种类型的描述框架,既可全部采用,也可选择其中几种组合使用。4)进行效度验证,即采用哪些方法论证学业水平描述框架结构的有效性。基于新课标建立以核心素养为指向的、可操作化的学业水平描述框架,有助于提升对标准参照测评体系本质的理解,也能促进对“课程标准—测评体系—学业水平描述制订—测验工具开发—标准设定—测验分数解读”的一体化认识。  第四,设定学业水平描述的层次梯度,吸纳有关学习进阶的研究结果。以框架为基础,学业水平描述通常包括3~5个水平[21],各水平间需呈现明显层次梯度差异[11]。现有学业水平描述往往过于笼统,水平间仅呈现特征数量差异,缺乏对质量、深度或复杂性的考虑[14]。近年来基于学习与认知科学理论、围绕重要主题的学习进阶研究为学业水平描述的层次梯度设定提供了新的思路。  学习进阶是儿童学习某个主题(关键知识、能力、素养或实践领域)的合适时间段后,对其在此领域思维逐渐复杂路径的假设性描述[23]。学业水平描述大多涵盖多个重要主题,并力图在各水平的对应主题描述间建立由低到高的纵向贯通关系,而学习进阶围绕特定主题展开一系列由简单到复杂、相互关联的梯级序列,为学业水平描述的各水平层次设定提供了理论依据。因此,借鉴吸纳学习进阶研究成果,将显著提升学业水平描述开发的质量。为此,要重点考虑以下四个问题:1)在测评体系框架中,拆解和找出其中包含的学习进阶主题及内涵;2)通过文献阅读,明确每个主题的进阶结构,通常表现为由简单至复杂、由低级至高级的思维发展路径或连续体;3)根据考生群体的年龄或年级特征,定位其在进阶路径和连续体上的等级水平,注意各主题间的相互关系及在学业水平描述中的联合呈现方式;4)论证基于学习进阶所设定的学业水平描述层次梯级的合理性。

参考文献:

“《中国考试》杂志”

学习强国号

需要本期杂志可长按二维码识别购买

关键词:

上一篇:中评镜头:小暑高温热浪快中暑 骑士包紧紧
下一篇:最后一页