第五届汉语中介语语料库建设与应用国际学术讨论会论文选集最新章节_赵文书著

汉字结构识别偏误与部件信息库建设构想

郭菁
（福建师范大学）

提要：汉字结构识别偏误是学习者对汉字结构的错误认知。它较为隐蔽，从认读、书写两种典型的汉字表达活动中难以观察到，通过汉字结构判定与汉字拆分等练习则可以显露出来。汉字结构识别偏误可分外部结构识别偏误与内部结构识别偏误两类。研究汉字结构识别偏误，既依托于建设专门的汉字结构识别偏误语料库，更需要建立一个基于汉字部件规范的教学导向的部件信息库。部件规范对于汉字的教学拆分所具有的指导作用并不是绝对的，因为教师必须考虑到汉字字理的变化，以及学习者的汉语水平、接受能力。

关键词：汉字结构识别偏误；内部结构；部件规范；部件信息库；汉字教学

一、汉字结构识别偏误

汉字偏误研究通常以认读和书写偏误为研究对象。认读和书写是汉字教学的两大环节，我们对学生认读的要求可以概括为知音知义、正确读字，对学生书写的要求可以概括为知形知序、规范写字。知音知义与知形知序属于汉字认知层面，是汉字信息输入并存储在人脑的活动与状态；正确读字和规范写字则从属汉字的表达层面，是汉字信息从人脑中被激发并进行汉字输出的活动。在汉字认知过程中发生的偏误是汉字认知偏误，在汉字读写过程中产生的偏误是汉字表达偏误。汉字认知偏误在人脑之中，通过一定条件显现出来，比如最常见的汉字认读、书写活动，汉字认知偏误就转化为汉字认读和书写的偏误。当然也有很多认知无误而读写出错的情况，但按照偏误分析的原则（肖奚强，2001：47），应该归为不小心偶然出现的“失误”，并非偏误研究的对象。然而，汉字认知偏误不独表现为认读与书写偏误，一部分汉字认知的问题在认读与书写的汉字表达过程中无法外化显露，只在某些特定的练习活动中展现出来。笔者从事汉字教学多年，在带领学生做汉字结构判定与汉字拆分练习时，每学期都会看到学生将“我”判定为左右结构，将“寄”首先拆分为“ ”与“可”（图1）。此类错误与学生的国别、年龄等背景无关，反映的是学生对汉字结构的错误认知，可以称为汉字结构识别偏误。

图1 “寄”的结构识别偏误例子

综上所述，我们可将汉字结构识别偏误的特性概括为：（1）是一种汉字认知偏误，是学生对汉字结构的错误认知；（2）具有较高的隐蔽性，认读、书写中难以观察到；（3）通过汉字结构判定与汉字拆分等特定的练习可以显露出来。这些特性使得汉字结构识别偏误明显区别于汉字认读、书写偏误，所以应进行专门的考察。搜集此类偏误所建的小型语料库，也是独立的专门化的汉字偏误语料库。汉字结构识别偏误的整理与研究，将会是汉字偏误研究的重要补充。

二、两种汉字结构识别偏误

前面所说的将“我”判定为左右结构、将“寄”首先拆分为“ ”与“可”，分别代表不同的汉字结构识别偏误。汉字结构可以分为外部结构和内部结构，陶晓东指出，外部结构是“纯粹的字形外观结构”（陶晓东，1996：70）。通俗领域所说的汉字结构通常指的是外部结构，首先分为独体结构和合体结构，合体结构按照构字部件间的位置关系，又有左右、上下、包围等几大类别。独体与合体判定的关键在于能否拆分——不可拆分、直接由笔画组成的是独体字，能够拆分、由部件构成的是合体字。《现代常用字部件及部件名称规范》（2009：2）有一条拆分规则是“笔画交叉重叠的，不拆分”，按照这条规则，“我”字中部一横贯穿左右，所以不做拆分。类似的还有“里”“果”“束”“串”“出”“秉”“事”等字，它们都有贯穿的笔画，也都不能拆分。将“我”误判为左右结构，就是分不清独体和合体结构，对汉字外部结构识别不清造成的偏误。对于外部结构识别偏误，一旦教师说清判定规则，指明贯穿笔画，学生注意观察并反复练习就能很快掌握，外部结构识别偏误比较容易纠正。

而将“寄”首先拆分为“ ”与“可”，则是对汉字内部结构缺乏了解导致的偏误。就“寄”来说，正确拆分得出“宀”和“奇”，其中“宀”为形旁，“奇”为声旁，这要求学生掌握“寄”与“奇”的字音，同时对形声字也有一定的了解。学生没学过“奇”而学过“可”，“ ”符合“宀”固定居上的构形规律，所以能拆分出“ ”与“可”还是一种“聪明”的偏误，应该说这种偏误是有积极意义的，将会随着学生识字量的增加而逐渐减少。对于汉字内部结构识别偏误，有两种不同的处理办法。一是进行形声字知识的简单讲解，并且给出“寄”“奇”的读音，说明这是声旁。至于“宀”作为形旁，表示有房可凭依、寄居，这“寄”的本义，与初级词语“寄信”中“寄”的义项关联不大，所以不适合讲解。一是将“寄”的部件拆分延至学习了“奇”或者“椅”“骑”以后，形成一个声旁系联的字族——奇：椅、骑、寄，然后再要求学生做“寄”的拆分练习就可以减少偏误的发生。认识汉字的内部结构虽然有一定的难度，但是“汉字的结构特别是内部结构是汉字认知的重要内容，汉字结构分析特别是内部结构分析是汉字认知的重要途径”（李大遂，2006：19）。

汉字内部结构的认知要求师生都掌握“偏旁分析”的传统文字学方法，在汉字教学进入合体字阶段之后，从合体字分析出基础部件固然是一种拆分方式，但涉及汉字表意文字本质的还是偏旁分析的拆分形式，也就是从理据功能的角度对汉字进行逐层拆分。因此，在我们的汉字课堂上，教师示范并要求学生进行汉字“偏旁分析”的练习，如“想”要首先拆分为“相”与“心”，“相”是声旁，“心”是形旁，“相”可以再分为两个基础部件“木”和“目”。如果学生一次性拆分为“木”“目”“心”，就不是偏旁分析，只是基础部件拆分，教师会要求学生更正为偏旁分析。汉字的理据拆分一开始也许会让人觉得比较烦琐，但长此以往地坚持下来，学生逐渐形成举一反三的偏旁分析能力，真正体会到汉字以形声字为主的特点，这种偏旁分析能力是自学汉字、扩大识字量的关键所在，也是系统高效、健康长远地学习汉字的根本途径。

要研究两种汉字结构识别偏误，大量搜集偏误材料、建立汉字结构识别偏误的语料库是一项很重要的预备工作。只有从大量的偏误材料中，才能总结出学生习得汉字结构时的普遍问题，对汉字教学提出相应的建议。

我们刚开始对汉字结构识别偏误进行整理，目前搜集得到的数量还很少，以下仅举图2中典型6例做简要分析。

图2 两种汉字结构识别偏误的典型例子

例1—3，主要是汉字外部结构识别偏误。例1将包围结构的“咸”判定为左右结构，拆分为“后”和“戈”，没有掌握“笔画交叉重叠的，不拆分”的规则。例2、例3没有正确辨识出一级部件，例2的“氵”“去”，例3的“⺮”“快”都是一级部件，导致外部结构识别错误——左右结构的“法”误判为包围结构，上下结构的“筷”误判为左右结构。

例4—6，主要是汉字内部结构识别偏误。例4、例5的“穿”按字理是从“穴”从“牙”的会意字，内部结构分析要分析出两个形旁“穴”“牙”，例4、例5都是因为学生没有掌握构字较少的基础部件“穴”（常用字范围构字24个），所以无法辨识出这一部件，因此拆分出更常用、更熟悉的“宀”（常用字范围构字104个）。例4和例5的不同在于例4是当作平面结构只做一次拆分，例5则按照层次结构拆分两次，例5的拆分可能是受到“寄”的影响，“寄”与“穿”形体非常接近，因此如果学生对“寄”的层次拆分印象较深，就可能负迁移影响对“穿”的拆分。例6的“爸”按字理是从“父”“巴”声的形声字，内部结构分析要分析出形旁“父”与声旁“巴”，例6没有辨识出“父”，而把基础部件“父”误拆为“八”与“ ”。

三、基于部件规范的部件信息库建设

少量的偏误材料只能得到零星的分析结果，更深入的分析解读有待更多偏误的积累，去建立一个小型的专门语料库，而作为偏误来源的学习者的具体信息，如国别、汉语背景等也需要在语料库中一一输入。比起建立专门的汉字结构识别偏误的语料库，构建一个基于部件规范的部件信息库要更为迫切，这主要有以下几方面的原因。

第一，部件规范应该成为汉字部件教学的指导，但规范出台后，因为掌握困难和查询不便，在教学领域的运用并不普遍。1997年，首个国家部件规范文件出台，拆分两万余字的GB 1300.1字符集得到560个基础部件；2009年又发布了《现代常用字部件及部件名称规范》，拆分3 500个常用字得到514个基础部件，更强调部件规范在汉字教育上的运用及字理依据在部件拆分中的重要性——“本规范适用于汉字教育、辞书编纂等方面的汉字部件分析和解说，也可供汉字信息处理等参考……本规范中部件拆分的原则是：根据字理、从形出发、尊重系统、面向应用。”（2009：1—2）两个部件规范在拆分原则、规则上都有区别，不能互补使用，显而易见的是后者更适用于汉字教学。

然而新部件规范在教学领域的运用并不普遍，主要是因为规范掌握起来难度不小，查询起来耗时耗力。部件规范是文本形式，只给出拆分原则与规则，以及每个基础部件的1—4个构字例字，具体3 500个常用字的拆分情况是看不到的。教师要知道常用字的规范拆分，首先要熟悉部件拆分原则和规则，具体到某个字的拆分时，还要先查看这个字是不是基础成字部件（独体字），是则不分，如果不是，又要看它可能拆分出的部件的构字例字中有没有它，有则可以确认，没有的话，基本上就很难确定。因此，只有全面依据部件规范拆分过3 500个常用字，核对过全部构字例字以及部件规范的构字数，建立起数字化的可直接检索的部件信息库，教学领域的普遍运用才有可能真正实现。

第二，部件信息库可以促进部件规范的普及化，尤其是推动规范在教学领域的运用。2011年，台湾学者发文讨论了在“中文部件组字与形构资料库”基础上建立的“中文部件、偏旁及整字查询与分析系统”，指出通过此系统使用者可以“获得基本属性和组字知识的形音义指标，亦可依华语词汇规范限定产出范围，便利汉字教与学”（Chen＆ Chang：292—300）。研究首次提出建立部件数据库的设想，并将部件数据库与汉字教学密切联系起来，具有深远的启发意义。而该研究以台湾繁体字及汉字拆分规范为本，无法照搬套用于大陆实际，因此应该借鉴他们的思路，建立以大陆部件规范为基础的部件信息库。通过部件信息库，师生能够查询到部件名称、笔画数、构字数等基本信息，进一步完善后，输入部件能够查询该部件的全部构字，反过来输入汉字也能够查询到该字的具体部件拆分情况。也就是说，部件信息库首先是面向运用的部件规范的数据库化，使用者不需要掌握拆分原则与规则，而只要输入部件或者具体构字，就能轻松查询有关部件的各种规范信息以及有关该构字的规范拆分情况，显然会大为促进部件规范的普及，特别是在教学领域中，部件规范的运用会成为如同查字典中汉字字音和字义那样非常自然、寻常的事情。

建立基于部件规范的部件信息库是我们目前的主要研究方向。建库的工作主要有三块内容。

一是将《现代常用字部件及部件名称规范》基础部件表的全部信息数据库化，建立“基础部件表”数据表，电子存储形式的表格，包括了部件名称、部件笔画数、部件构字例字、部件构字数等基本信息，可以实现部件基本信息的快捷查询。这一部分的内容我们现已完成。

二是严格依照《现代常用字部件及部件名称规范》，就3 500个现代常用字进行拆分。具体来说，是先掌握《现代常用字部件及部件名称规范》的拆分原则、规则，查询已建的“基础部件表”，通过部件构字数、出现次数等数据的比照核对，最终确定3 500字的具体部件拆分情况，建立“现代常用字部件拆分情况”数据表。这一部分的工作我们正在进行中。

三是将完成的“基础部件表”与“现代常用字部件拆分情况”，以及教学中常用的汉字、词汇等级大纲彼此关联，经由互联网技术，建成一个可以交互的网络部件信息库。教师和学生既可以使用网络部件信息库快捷查询，也可以将查询中出现问题或者汉字教与学中的有关问题进行反馈，还可以促进部件信息库的完善与更新，建库后期还可以增设教学使用建议模块，集中总结运用部件信息库于教学的注意点。这些都能加强部件信息库的实用价值。

还有一个进阶的工作内容有待将来完成，就是对部件理据功能进行分析，形成部件理据信息表。部件是否具有理据功能，这一理据功能现在是否依旧，即部件是否为形旁、声旁，而形旁、声旁现在还能不能表意与示音。这些信息对于汉字内部结构教学来说非常重要，也应该纳入部件信息库中去。

四、汉字的规范拆分与教学拆分

汉字部件信息库以部件规范为依据，能够为教师和学生拆分汉字提供便捷可靠的查询服务，也是判定学生汉字结构识别是否存在偏误的主要依据。然而，按照部件规范进行的汉字规范拆分，与从教学需要出发做出的汉字教学拆分并不全然相同。应当承认，部件规范具有的指导作用并不是绝对的、无条件的。

首先，部件规范并非尽善尽美，个别汉字的拆分规则并不统一。如“京”与“交”从造字法来说都属于象形字，“京”像高台建筑（李学勤，2012：476），“交”像人腿部交叉，初文均为独体而不可分割；从现代字形来看，它们都不再象形，有相离、相接的部件，具备拆分的前提条件。虽然两字情况非常接近，但按新部件规范，前者不拆分，后者则拆分为“六”“ ”，是为拆分规则不统一。又如“今”“令”与“刀”“刃”两组字，从造字法来说，“今”为指事字，像倒过来的口，口中一横，指示口有所言，是“吟”的本字；“刀”是象形字，像一把刀的样子；“令”也从倒口，下加一人表示对人发号施令。如果按字理解析，“今”“令”两字都应分出“亽”（源自倒口形），但是部件规范拆分规定“今”不可拆分，“令”拆分为“今”和“丶”；再比照“刃”，“刃”无论从字形上还是从字理上，都可以分析为象形的“刀”字上附加一个指示刀刃位置的“丶”，然而部件规范以“刃”为基础部件不做拆分，这也是让人感到十分费解的。

其次，汉字字理会发生变化，有些字的理据拆分客观上就存在难度。汉字本身具有多样性和复杂性，在漫长的历史演变中，从外部结构到内部结构，都可能经历巨大的变化，汉字的理据可能传承下来，也可能削弱、丧失，或者是重新得到构建。王宁在《说文新证·序》中说：“《说文》字义讲解的是字理，字理是发展的，每个时代的字理都有重构现象，不是与字源全然相同的。”也就是说，因为字理改变的缘故，使得一些字客观上就是难作拆分的。例如，“真”按初文字形为从“贝”“匕”声的形声字（“贝”或作“鼎”），后来“贝”讹作“目”，其下又增“丌”（李学勤，2012：723），发展至现代字形，可见的每个形体要素都是讹变的结果——“十”变化自“匕”、“目”变化自“贝”或“鼎”、“ ”变化自“丌”，“目”已经与“ ”黏合共笔而无法分开，到底“真”该怎么拆分呢？无论分作“直”与“八”，还是分作“十”与“具”，都不是理据拆分。又如“炭”，如果只从现代字形来看，相信大多人首先拆分出“山”与“灰”，因为我们拆字时习惯于先拆出最大可辨识的形体成分，这种习惯通常是没有问题的。但是“炭”真正的字理是从“火”，“岸省”声，“岸省”声写作“ ”，下部的“厂”后来讹变为“ ”，与“火”组合出“灰”字，但“灰”对于“炭”来说，并非具有理据的偏旁，因此“炭”这个现在内外结构相矛盾的字也是难以理据拆分的汉字。

再次，汉字的教学拆分要充分考虑学生的汉语水平与接受能力，理据拆分未必总是最佳选择。比如从“言”“射”声的形声字“谢”，外部结构是左中右的合体结构，字形比较复杂，但是因为构词“谢谢”为基本礼貌用语，汉字等级1级，所以是学生最早学的汉字之一，我们教这个汉字时还在笔画教学阶段，合体字与形声字知识均未讲授，按理据拆分“讠”“射”讲解费劲，“射”又不是典型的声旁，学生不容易接受理解，所以直接拆分为“讠”“身”“寸”更加直观更为合适。

综上可知，我们在构建基于部件规范的部件信息库的同时，也应该着眼教学需求，补充相应的教学拆分建议，这一项工作还有待进一步细化与深入探索。李华指出：“部件规范指导了汉字教学，同时汉字教学实践亦进一步促进汉字部件规范的完善。”（李华，2017：765）所言甚是。既然新部件规范以教学为首要运用领域，那么教学中的运用反馈也会成为改进完善部件规范的重要指标。研究汉字结构识别偏误，构建基于部件规范的部件信息库，研究部件规范在教学中的运用，以教学反馈改进部件规范，这几项工作似分实合，结合开展起来就会彼此促进，形成良性循环（参见图3），能够使得部件教学法在汉字教学中运用得更加规范科学，师生汉字教与学的效率效果都得到进一步的提升。

图3 部件规范、部件信息库、部件教学与汉字结构识别偏误的关系图

参考文献

［1］肖奚强，2001.略论偏误分析的基本原则.《语言文字应用》第1期.

［2］陶晓东，1996.现代汉字字形结构研究的三个平面，语文现代化论丛第2辑.北京：语文出版社.

［3］教育部，国家语委，2009.现代常用字部件及部件名称规范（GF 0014—2009）.北京：语文出版社.

［4］李大遂，2006.汉字的系统性与汉字认知.《暨南大学华文学院学报》第1期.

［5］李学勤，2012.字源.天津：天津古籍出版社.

［6］季旭昇，2014.说文新证（第2版）.台北：艺文印书馆.

［7］李华，2017.部件拆分与对外汉字部件教学.《海外华文教育》第6期.

［8］Hsueh-Chih Chen＆Li-Yun Chang.2011.A Query and Analysis System for Chinese Radical，Component，and Character，汉语国际传播与国际汉语教学研究.北京：中央民族大学出版社。