从20世纪60年代开始,中国的一些技术专家和高校学者便开始对汉字信息处理技术进行研究。倪光南和中科院计算所的同事们就是其中的一支重要研究力量。
最初对汉字信息处理的研究更多局限在“汉字编码”上,这是一种为汉字设计的便于输入的计算机代码。一个完整的汉字信息处理系统主要包括编码、输入、存储、编辑、输出和传输等环节,其中编码是最为关键的环节,不解决这个问题,就无法让汉字进入计算机之中。
在当时,想要完成“汉字编码”并不容易。
首先,由于汉字的总数量比较多,即使只对3000或4000个常用汉字进行编码,仍比处理由20多个字母组成的拼音文字要难。
其次,汉字的字形很复杂,既有古体今体,又有繁体简体。而且汉字笔画也相差悬殊,多的有36笔,少的只有1笔。
最后,汉字中存在着大量一字多音和一音多字的现象。汉语音节一共有416个,区分声调之后有1295个。如果按照1万个汉字来计算,每个不带音调的音节就会平均有24个汉字,而每个带调的音节也有7.7个汉字,有一些同音同调的汉字甚至多达66个。这些都为汉字编码造成了不小的困难。
也正是这些原因,当时几乎所有的“汉字编码”都是单纯的人工编码。也就是用汉字的字形和发音来作为编码的基本元素,将一个汉字用一些基本的元素来进行组合表示,一般来说,这些基本元素只有几十个,所以可以用一个普通的西文键盘来输入汉字。
看上去,“汉字编码”能够解决汉字输入的问题,但实际上,在使用“汉字编码”时,编码者需要记忆大量规则,这就为汉字输入带来了很大负担,这也决定了“汉字编码”无法成为最便捷的汉字输入方法。
在倪光南看来,想要让汉字输入变得简单便捷,就要充分利用计算机自身的处理能力,让计算机来辅助人们进行汉字输入。倪光南将这种方法比喻成人类的联想能力,这种方法就是经常被提到的“联想式汉字输入法”。
这种想法看上去很好,但当时的计算机还不能处理文字,所以也就无法实现这种“联想”的功能。想要让联想输入法成为现实,首先要让计算机能够显示汉字,然后还要让计算机知道人们所选择的究竟是哪个汉字。
为此,倪光南积极参与了当时计算所显示组进行的汉字显示技术的研究工作。
计算所六室显示组研制的最早的汉字显示器被安装在卫星监测用的717机上。此后,显示组又研发出了“111机”的汉字显示器。在“111机”上的汉字显示器,已经能够用键盘来进行人机交互了。但为了更好地实现人机交互功能,显示组又为另一台显示器增加了一种人机交互手段,也就是前面曾提到的“光笔”。
虽然当时的光笔比较大、比较重,使用起来也不方便,但至少这已经算是实现联想式汉字输入法最为理想的一种手段了。为了更好地用光笔进行输入,倪光南在“111机”上专门为联想式汉字输入方法设计了带有光笔的汉字显示器。随后,还对这一显示器进行了一些小的改进。
以前的光笔主要是用手来控制开关的,当光笔指点了屏幕上的图形和文字之后,还需要用手指再按一下笔上的触及点,才能进行选择。倪光南在光笔的头上加了一个微动开关,这样一来,只要用光笔指点到屏幕上的汉字,轻轻一压,开关就会被启动,汉字就被选择了。这一微小的改动让光笔输入变得更加方便,同时也为联想式汉字输入法的实现做好了准备工作。
到了1974年,“748工程”会议召开,“748工程”就是前面提到的“汉字信息处理系统工程”。这一工程开启了中国印刷技术的第二次革命,也让中国正式告别了铅火印刷的时代。也正是在这一工程中,汉字与计算机之间的鸿沟被逐渐抹平,计算机的文化进程也逐步加快。
倪光南是计算所参加“748工程”会议的唯一代表,并向当时的负责专家介绍了自己的汉字处理研究。到了1975年,计算所六室输入组正式开始了对汉字信息处理课题的研究。倪光南曾在计算所的阶梯教室进行过学术报告,介绍自己的联想式汉字输入法。
倪光南的“联想式汉字输入法”主要利用上下文的关联性,让计算机来辅助汉字输入。在汇报时,倪光南在黑板上画出了联想式输入方法的示意图,并表示当使用者输入一个汉字之后,计算机会在汉字显示器上面提供许多关联词,这些关联词可以由一个也可以由多个汉字组成。随后,使用者可以使用光笔或者键盘来选取某一个关联词,这样就能够方便地输入汉字了。
虽然倪光南很早便提出了联想式汉字输入的方法,但最终落地整个过程历经了近10年时间。在这些年中,除了提出联想式汉字输入方法外,倪光南用了不少时间去研制人机交互汉字显示技术。
这也就是前面提到的“111汉字信息试验系统”和“手写文字识别机”。倪光南将这两个项目放在一起进行研究,共享技术和设备。
当时,“手写文字识别机”的硬件设备基本上包含了“111汉字信息处理实验系统”的硬件设备。“手写文字识别机”主要包括“自适应飞点扫描器”和“文字识别监视器”等硬件,而“111汉字信息处理实验系统”的主要硬件则是人机交互汉字显示器。
这样,当“111汉字信息处理实验系统”在工作时可以用来显示和输入汉字,而当“手写文字识别机”在工作时,则可以作为文字识别监视器和修订手段。这两个设备可以共用控制器,这样一来,两项研究不仅可以节省设备,同时还能够缩短研制周期。
整个项目可以分为9个部分,即控制器研制、设备接口研制、机械设计研制、人机交互汉字显示器研制、汉字系统软件研制、对话输入法词典和联想词典编制、汉字打印机研制、飞点扫描器研制、识别机软件研制。
当时111机的人机交互汉字显示器的控制器逻辑基本上是“SK-1光笔图形显示器”控制器逻辑的移植,只是将“三维坐标变换器”简化成了“二维坐标变换器”,同时还修改了其与主机的接口。
在这9个部分工作中,倪光南参与了其中6个部分的工作,同时他还主持了全部硬件、软件的研制和上机实验。
倪光南最初提出的联想式汉字输入法采用的是“从字到词”的方式,就是输入一个汉字,然后计算机会提供一组联想词,供使用者去选择。比如输入“中”字后,后面会出现“国、文、心、华”等联想字,同时还会出现“华民族、华人民共和国、心思想”等联想词。
在这种情况下,选择一次就可以输入多个汉字组成的词,比如通过输入“中”,选择最后一项就可以再输入“华人民共和国”。这种联想是单词的,也就是从一个汉字到一个词,然后再输入一个汉字,再联想到一个词。
但如果按照这样的构想来进行,联想式汉字输入法就会占用较多存储空间。因此在后续研究中,倪光南和同事们又进一步完善了联想式汉字输入法。