外国人汉字习得研究最新章节_王骏著

5.2 数据的收集与整理

课题组所在教学机构开设汉语长期教学班，按照国内惯例，初级班为零起点学生开设，历时1年，分上下两个学期，实际教学时间为32周，精读课总计约256课时。初级班采用《博雅汉语：初级起步篇》（下简称《博雅》）第1册和第2册（北京大学出版社2005年）为教材。该教材发行量较大，国内外使用较为广泛，具有一定的代表性。然而，就其本身的体例来看，它并没有提供一个明确的汉字教学大纲和计划，其对于汉字的要求基本上属于绝大部分精读教材所惯用的“随文识字”的方式，也就是说默认为学习者需要掌握生词表中所有新出现的汉字的读和写。然而从研究者的角度来看，这或许可以视为一个有利的因素，因为首先这是目前对外汉字教学的一种“常态”，其次这无形中排除了教材编写因素对数据普遍解释力的影响。

《博雅》第1册包括30课课文，第2册25课。我们手工统计了每一课的新出汉字，发现教材共要求掌握汉字1048字，因为任务设置合理性的原因剔除3字，实际统计的是其中的1045字的习得情况。从图5-1中我们可以看到这些新出汉字按课分布的情况。

《博雅》1045字

图5-1 《博雅》每课汉字数分布

从数据上分析，《博雅》平均每课要求掌握19.0个新出汉字，最多的课要求30字，最少的11字，标准差为4.40，显示每课要求掌握的汉字数波动较大。从图形上看，则显示第1册上半册（1-15课）要求掌握的汉字几乎均高于19字，而下半册（16-30课）却几乎均低于平均数。第2册第39、40课为一显著波峰，要求掌握的汉字高出平均值两个标准差。应该说，这不太符合我们一般认为的循序渐进的学习规律，也许这在“随文识字”的教材设计中是难以避免的现象，下文我们也将分析这种分布状况对习得的影响。

从教材的选字情况看，使用郭曙纶（2013）提出的方法可以统计得出，《博雅》1045字中，有1024字属于国家语言文字委员会1988年发布的2500常用字范围，重合率为97.99%。而依据汉语水平考试中心编制的《汉语水平词汇与汉字等级大纲》的划分标准，则可以统计出《博雅》1045字中汉字等级分布情况如表5-1所示：

表5-1 《博雅》1045字的等级分布

数据显示教材所要求掌握的汉字符合“初级”这一基本标准，尤其是全部800个甲级字在教材中出现了725个。以上两种统计数据保证本研究所调查的汉字习得情况具有较大的普遍意义。

对于学习者而言，《博雅》全部汉字的习得是一个历时1年的过程，适合采用纵向研究，而为了结论的普适性，我们又希望数据来源于尽可能多的学习者。因此，研究采用跟踪多名个体学习者后汇总的方式展开。我们将1学年分为4个时间段，分别在第一、第二学期期中考试后、期末考试后这4个节点，采用纸笔测试的方式进行数据收集。每个时间节点的测试分前后两天进行，第一天请学习者当堂（署名）完成一套汉字认读卷（A卷），测试该阶段全部汉字的认读掌握情况，第二天请学习者当堂完成一套汉字书写卷（B卷），测试上述汉字的书写掌握情况。每次测试限时两个小时。这个时间超出绝大部分学习者实际需要的时间，同时，因为试卷的量较大，为了防止焦虑、抵触等情绪因素的影响，该测试为自愿参加，受试在参加完第1-3次测试的情况下，仍可退出并将其数据作废。测试人员通过事先交流告知学生该测试与学期成绩无关，但应认真完成。受试在交卷后可获得一份小礼物。

属于常用字的1024字

若一名受试完成整个测试过程（4个节点共8套试卷），则该份数据生效，登记为数据01-30中的一个编号。8套试卷的代号和对应的内容如表5-2所示：

表5-2 8套试卷测试内容

试卷体例方面，认读卷（A卷）采用呈现单个汉字，请受试写出拼音并举一例（可以为生词、短语或句子）来说明其用法的方式。例如：

在计分时，由于考察的是识字能力，我们采用了适度从宽的标准，如声母、韵母正确而声调错误，举例意义正确但例词/句中存在错别字这样的情况，也记为得分。这样，以1A卷为例，受试得分在0~333分之间。同时，还记录该受试未能得分的汉字属于认读错误（如将“白”认读为“百”）还是无法认读（留空白）。

而书写卷（B卷）则采用呈现一个生词的拼音和英译，请学生写出对应汉字的方式。例如：

由于面对的是初级阶段的学习者，词素意识不强，书写卷的设计难以采用呈现单个汉字拼音+意译后请其写出该汉字的方式。在采用按词呈现的方式时，一方面依据全书汉字统计表尽量避免任一汉字在全部书写卷中的重复出现，另一方面在记分时通过手工统计剔除重复出现的汉字错误。最后，以该卷考察汉字总数减去未得分汉字数，得到该卷得分。以1B卷为例，受试得分也在0~333分之间。同时，对于未能得分的汉字，记录其究竟属于无法书写（留空白）、错字（写成不存在的字符）还是别字（如将“体”写成“休”）。

我们花费了三年多时间收集到30份完整的数据（全部来自非汉字文化圈学习者）。在手工批阅、核对后，将这30名受试的习得情况汇总输入SPSS软件，得到数据库的首批变量，包括：汉字（共1045字，即数据库包含1045项个案）、（该汉字）认读错误数、无法认读数、认读得分（=30-认读错误数-无法认读数）、空字数（无法书写）、错字数、别字数、书写得分（=30-空字数-错字数-别字数）。上述数据都是由30份完整数据中得到的，此外，对于单个汉字，可以进行多项属性的标注，这些我们将在5.3、5.4部分中具体论述。