在中国去东京大学的一批人中,不是瞎说,我是里面“最努力的一个”。我在东京真的是拼了命在干,感觉自己又当了一次学生。
(王仁华)
1982年,在王仁华离开美国回中科大之际,他的导师Melsa教授挽留未果,特地写一封信给当时的中科大校长严济慈,介绍了王仁华在美国的工作。信中对王仁华评价:
Mr.Wang is a highly motivated professional with a well developed intellectual capability and creative research sense.It has been a real pleasure to work with him.I am only sorry that he must leave at this time.
I hope that his experience here will be beneficial to your university.
(University of Notre Dame.Melsa.1982)
这封信直到今天还在王仁华的手上,他并没有把这封信交给严济慈。王仁华出国的初衷是“学习”,回国的初衷是“做事”。在美国,尽管他的身份是访问学者,但他从来没有把自己定位成一个可以和美国教授们坐在一起研讨学术的“学者”,而只是一个“学习者”。他后来说:“我在美国就是扎进去学,有一点技术或者理论提高,就回来自己做点事情。Melsa写信我很开心,但我觉得自己还达不到(信中描述的程度)。”
其实,不管王仁华交不交这封信,他回国的事业都离不开这位中国校长,而他恰逢其时,赶上了一个好时代。
1980年4月,严济慈接替郭沫若任中科大校长,开始全面掌舵中科大。
严济慈是中国现代物理学研究的开创者之一,光学仪器工业奠基者之一,研究水晶压电效应第一人。他上任后在学校干部教师大会上自问:“我对中科大的感情为什么这样深?”随后给出答案:首先是中科大的学生素质好,高考成绩全国名列前茅,很有雄心壮志,男生要做爱因斯坦,女生要做居里夫人;其次是中科大的青年教师无论在教学或者研究方面成绩都很突出,很多人都说中科大老师的工作做得好。殷切期望之情溢于言表。
后来,中科大进入国家“七五”期间重点建设高校行列,还创建了我国高校中第一个大科学工程——国家同步辐射实验室,开启了大型实验室进驻高校的新纪元,并为新校区建设争取到安徽省和合肥市的支持。
严济慈提出要办一个国际上没有的“00班”,入学不分专业,鼓励学生重视基础课学习,打牢数理基础。后来他又创办了我国第一个“少年班”,并建立起授予学士、硕士、博士学位的完整学位体系。他提倡教学和科研要结合起来,实现教学相长。后来,少年班、科技英才班和百分百自由选专业等,成为中科大人才培养的名片。
在没有托福、GRE的时代,严济慈和李政道共同发起中美联合招考赴美物理研究生计划(CUSPEA),推开了改革开放后中国学子赴美留学的那扇门。
严济慈鼓励学生参与科研,并积极支持学校与日本东京大学等国外机构的合作交流。
严济慈的一系列改革影响深远,中科大在国内外声名鹊起,被誉为“科大现象”。学校大刀阔斧的改革令师生精神一振。39岁的王仁华终于得以真正开始自己的事业,他则将改革聚焦在实验室层面。
日后,鼎鼎大名的中科大语音实验室的很多做法都是在这时候奠定的。
当年,中科大科研活动并不以实验室为单位,而主要由教研室(教研组)组长主导。
王仁华回忆,当年科研项目的分派方式颇有“生产队”架势。组长只知道自己能做什么,但并不知道教研室其他老师的强项,起不到统筹协调作用;任务分配靠论资排辈,老师们也完全调动不起积极性。
教书之余,王仁华想搞点科研项目,项目接回来组长也不管。王仁华认为这套分配制绝对行不通。他的想法是每位老师都应有自己的研究方向,在这个方向上去实现自己的想法;在整体结构上应该有一个“组”(Group);而每个组的“头儿”要去接任务、申请基金、带研究生,有了这个带头人,整个实验室才能向前发展。
回国后的前两年,王仁华一直给学生上课,他教授的数字信号处理是整个六系最受欢迎的课之一。当年中科大从美国回来的老师不多,很多78级学生都上过那门数字信号处理,几位78级本科生甚至直接申请跟随王仁华做本科毕业论文。其中,令王仁华印象最深的有两个学生,一个叫梅昕,一个叫何良。
何良当时主攻语音识别,非常用功,非常努力。王仁华给他俩出一个题目,他们很快做完,根本不需要手把手教。中科大本科生的天赋令王仁华大为惊讶。这让他突然领悟到一件事:中科大有这么多优秀的学生,本科念五年,三年级可以学完基础课。这时候让他们进入实验室里,做很好的题目,一定会有好结果。
后来,中科大本科生大三进语音实验室的传统就是这样来的。
带完78级学生之后,我就正式提出要成立语音实验室,或者说成立一个“组”,这个“组”要有实验室,实验室的“头儿”要负责找钱,买仪器,定研究方向。说是找钱,其实就是争取国家项目。这样实验室才会发展起来。
这样的一种机制,也是从美国搬过来的。美国的一个组,只有一个教授、一个副教授,再加上一个管实验的人。当时中国还做不到这样分工,但我决心往这个方向做。
(王仁华)
美国实验室一般包括实验室主任、教授、副教授、博士生等成员,以一个有梯度的研究团队开展相关科研工作。教授是实验室的核心人物,招收学生,制订研究计划,把控研究方向;博士生是得力助手、骨干力量;学生有硕士研究生,也有本科生,一起承担实验室的研究工作;主任负责实验室的管理。这套成建制的打法,还涉及经费、场地、设备、文化氛围建设等多个方面。
在20世纪80年代的中国,王仁华说自己的做法是“冒天下之大不韪”,在六系乃至中科大历史上从来没有过。
教研室有老师闻之色变:“王老师,你这样搞,把最厉害的人都招过去了,我们怎么办?”王仁华的态度是不为所动。四十多年后,他回顾那段经历时说:“大环境在变,世界在变,中国在变,学校也在变。如果不适应这种变化,绝对不会有出息。”
又过了一年,中科大留学回来的人慢慢多了,“实验室模式”渐渐成为主流,议论的声音终于偃旗息鼓。
1985年,中国科学技术大学语音实验室(当年名为“语言通信实验室”)正式成立。实验室位于中科大东区图书馆对面的一栋楼内,楼是早先合肥师范学院留下的,总共约六十平方米。王仁华走进实验室,里面空空荡荡,他既高兴又发愁。高兴的是他终于有了一块“根据地”,可以按照自己的想法做语音研究了;忧愁的则是白手起家,实验室路在何方,并不清晰。
实验室成立时没有牌子,没有文件,什么都没有。学校只给了一块地方。我那时总共只有三个学生。教研室有几个房间,分配给我们一个。任务是什么?设备怎么办?钱在哪?做什么研究?一概不知道。
(王仁华)
中科大语言通信实验室最早的牌子
后来,实验室正式挂牌——一个小小的白底银框的牌子孤零零地挂在办公室门口,“语言通信实验室”是红色,“SPEECH COMMUNICATION LABORATORY”则是黑色。
王仁华慢慢走进东区的老实验室,白色的墙壁配着淡蓝色墙裙,尽管空空如也,但这里是理想开始的地方。
中科大语音实验室开张的时候,王仁华手上只有一些单板机(又称“单板电脑”,将计算机的各个部分都组装在一块印制电路板上,包括微处理器/存储器/输入输出接口),还有简单的七段发光二极管(显示器、小键盘、插座等其他外部设备)和从美国带回来的几个DSP芯片。
王仁华决定先靠这些设备,加上在美国学的技术,先做一些东西出来,这样大家也才有兴趣做下去。
与此同时,王仁华也清醒地认识到:语音实验室在中科大是个新生事物,不管面临什么样的困难,必须真正做成几件事情,才能站稳脚跟,才可能谈到将来。“否则没等长大,我们就死掉了。”
实验室实景
王仁华所在教研组为“线路教研组”。原教研组的徐金树和刘必成两位老师加入了实验室。1978年招的研究生里有一位叫周勇的学生,1965年进入中科大读本科,比王仁华小四岁。王仁华在美国做访问学者时,周勇在美国读博士,两人前后脚回国。周勇是中科大六系第一个留美博士。王仁华找到周勇,和他谈了一起搞语音实验室的想法。周勇一口答应。
周勇加入语音实验室让王仁华有了左膀右臂。两人配合默契,王仁华在做研究的同时,可以抽出时间“跑项目”;周勇则将更多时间放在技术研究上。
中科大语音实验室建立之初,我和周勇合作了两年。周勇是六系第一个留美博士,水平很高。两年后他去了美国贝尔实验室。
我们一起做了几件事,结果都很不错,我总结为“四个成功”。
第一个成功叫“117报时系统”。这个系统为安徽省邮电局服务。用户只要拨打电话,电话就能自动播报时间,涵盖无线电自动校时和语音报时等功能。这个系统用LPC(线性预测编码)工具来做,在单片机上完成。
第二个成功是安徽电信的“微机市话查号系统——114查号台”(以下简称“114查号台”)项目,用语音合成的方式做号码自动播报。实际上就是做一个检索,用户打电话过去后,说出一个单位名称,系统要把这个单位检索出来,再语音合成播报出来。
语音合成,这个我很拿手;周勇在美国读博士一直搞检索,所以我说我捡到“宝”了。他的检索水平很高,在使用单板机和微机的情况下,能够使很大的、计算很落后的系统依旧检索得很快——你话还没讲完,(结果)立马就出来了。
第三个成功是在1989年,叫“语音口令系统”。这个做好以后,项目方告诉我,它填补了技术空白。
第四个成功是在1990年,叫“语声身份确认系统”。那个时候周勇已经去美国了。它跟语音设备还不一样,完全根据声音特征来判断身份,因此,要求非常高,要对比精度。
实际上第四个项目造成的轰动最大,当年好多媒体都报道过这个项目。
(王仁华)
当年,语音身份确认技术在国内是首创。1991年1月,“语声身份确认系统”通过安徽省科委技术成果鉴定,鉴定委员会一致认为:该系统是我国首次研制成功的语声身份确认系统。这个系统也填补了国内在该领域的空白,其正识别率等主要技术性能已接近20世纪80年代末期国际先进水平,在军用和民用领域都有广泛的应用前景。当年,中央人民广播电台、《中国科学报》《文汇报》等都对其做了深入报道,将其称为“芝麻开门”。
另外,四个项目都是从理论到实践,整个语音实验室为此都很有成就感,更坚信语音技术大有可为。“微机市话查号系统——114查号台”后来应用到了全国很多城市。有一次,王仁华的学生杨鉴(PB8106,现任云南大学教授)回昆明,偶然听到昆明114查号台的声音,越听越觉得熟悉,很快反应过来:“这个声音,就是我们实验室合成的声音。”
语声身份确认系统研制成功“芝麻开门”不再是天方夜谭
本报合肥专讯(特约通讯员朱光华)阿里巴巴说:“芝麻开门”,藏着宝石窟的大门洞开了。纯属神话的这一传说,如今在此间成为事实。最近,中国科学技术大学研制成我国第一套语声身份确认系统。该系统使用说话人的语声来鉴别身份,使用者只要报一下自己的姓名,或者说几个数字,系统就能够对说话人的语声信号进行分析,自动确认说话人同它的语声登录是否一致,对真正的“阿里巴巴”开门相迎而将冒充者拒之门外。专家们认为,这套语声身份确认系统填补了国内该领域的空白,其正识别率等主要技术指标已接近20世纪80年代末国际先进水平。
(《文汇报》4版1991年3月11日)
万事开头难。这些项目凝聚着王仁华和实验室同仁的心血。实验室的工作特别辛苦,徐金树开发DSP芯片,疲劳异常,直接找王仁华哭诉:“王老师,你不要再逼我了。”
王仁华的学生罗小强(PB8507,现任领英纽约办公室高级工程经理)当年在实验室搞语音压缩,至今仍记得实验室围绕“四个成功”进行的攻关,“连续四个周末都在加班”。
在实验室学到的不只硬知识,还有应对困难的方法。
我刚进实验室没多久就开始录音,50条录下来有几百k(一种计算单位,常用来衡量文件的大小或者存储硬件的可用存储空间)。现在几百k的录音,我们眼睛都不眨一下,但在当时的硬件条件下是个难题。
当年的办法是引入一块开发板来搞语音压缩。把板子插到微机上,然后写控制程序。问题来了:放头几条录音没问题,放到第四条、第五条的时候就彻底乱套了,全是噪声。
一开始以为程序有bug,但是我反复查程序怎么都找不到bug。这个事情前前后后持续了两个月都没有结果。我确定不是我的程序有问题,一定是硬件有问题,但硬件开机自检也没有问题。我束手无策,就把王老师拉进来了。那时候一周只休息一天。礼拜天王老师就放弃休息,跟我约在实验室见面。
王老师拎着一个包,八点钟进实验室,我们一起调试,这样调试了四个周末。
王老师解决问题的方法是,把系统分成一节一节,挨个去看。先看第一节有没有问题,这一节如果没问题,再往前走一小步,看看有没有问题。用这个方法,就把原因一点一点逼出来了。不是程序bug,而是数据空间和程序空间是分开的,数据空间的地址超出了,读回的数据当然乱套了。
问题找到之后,解决就变得很简单了。
这事已经过去四十年了,王老师解决问题的方法我从未忘记,令我受益终身。现在我在工作中,也把这一套方法教给年轻人。
(罗小强)
杨鉴则认为:王仁华在语音实验室成立初期就显露出不同于其他大学老师的“产品思维”。
我进语音实验室时,刚好“114查号台”系统要升级,王老师就交给我一个任务:把报号的声音弄得“更好听一点”。
怎么把它弄好听呢?总共有三个步骤。
第一步是录音,普通话要录得更标准。我当时跟郭老师去北京中央人民广播电台,找一位著名播音员重新录音。我们让他读一堆混乱的数字,7788442255776644,类似这样的。反反复复录各种数据。
第二步,在这些录音里面挑。挑一个1,再挑一个1,挑一个3,再挑一个4。标准是什么?要让这些数字连起来放在整个语言环境当中,听着像是一个人一次连续发出来的。
比如5599,两个5发音是不一样的,就要存两个版本的5。这样查号台读到55的时候,才会变调。
第三步,王老师要求把语音编码压缩,即把12比特用一个编码方式压缩到8比特。
后来我才发现,这实际上就是产品思维。因为语音编码压缩能节省储存空间,就可以少用一些存储器。“114查号台”是要做到一个硬件上的。不仅在合肥卖,还要卖到全国。压缩前,要用两片存储器,压缩后,就省一片。如果存储器比别人少一片,产品在市场上成本就低一点,竞争力就大一些。
我们做研究、做开发,技术相近,算法相近,最后就比能不能把成本降下来。
但当时我并不懂这些,王老师让我做我就做。后来有一次我在昆明听到“114查号台”的声音,觉得很熟悉,一听就是我们实验室合成的声音。我这才慢慢想通一些事情:原来当年这个东西是要卖到全国的,我做的工作语音编码压缩对一个产品来说非常有意义,就是压低成本。想明白这一点,我就很兴奋。
怎么搞这个语音编码压缩呢?这又能看出王老师的产品思维。用8086(Intel一款微处理器)成本太高,只能用Z80(单板机)汇编语言。但是用Z80要解压缩,运算量又上去了,不能实时处理。
后来王老师给我出一个点子,他说可以用“查表”的方法。我就用计算机做一张表格,压缩过程和解压缩过程,调用那张表就可以了。因为表格的存储量比数据本身的存储量小得多。
当年实验室的工作,大多从计算机底层开始。最底层到底怎么运转,我们搞得非常清楚。好处是,不管什么新的技术出现,我们理解起来都会非常深入——我们马上就会联想,这个新东西到底是怎样运作的。
(杨鉴)
王仁华自1980年出国,1982年回国,1985年创建中科大语音实验室,他自我总结做对了三件事。第一件事,选择了学习语音信号处理;第二件事,没有读博士而是直接回国;第三件事,着手建立新的实验室机制,思考如何筹划资金、引进实验室设备、争取项目、构建团队。
通过这些项目,王仁华的实验室开始有了经费,添置了一些设备,但还远远不够。“四个成功”让语音实验室有了更大的影响力,让大家知道语音技术用处颇多。但是在硬件上,真正令实验室提档升级的标志性事件发生在1986年,那就是和藤崎教授的相遇。
二十世纪八十年代,王仁华在中科大建立语音实验室,是以通信为切入口的。这和中国实验语音学注重的“本体研究”(如围绕汉语开展声韵调的声学特性分析)有所区分。虽然同为“语音”,后者偏重基础研究,强调掌握语音规律;前者则偏重应用,属于以语音合成和语音识别为代表的“言语工程”范畴,天然与人机交互等人工智能领域联系紧密。
尽管当年,中科大语音实验室在国内名不见经传,但在世界范围内,语音学正在迅速地计算机化,高效的新仪器和先进的言语处理方法正在冲击原有的语音学体系。一些杰出的语音学部门里,成批的工程人员成为助手,研究预算之大,是过去所没有的,不管它之前是属于语言学、心理学还是医学部门。
1977年,国家经委批准中国社会科学院语言研究所的语音研究室,花费8万美元进口了丹麦B.K仪器公司生产的Warrn 77计算机和实时声谱分析器(即3348分析器),后又得到国家专项经费支持,继续进口全数字化各类语音分析仪,如美国KAY公司的7800语图仪和4800分析仪等。中国的实验语音学研究逐渐走上了数字化道路。
在国家的大力支持下,中国的语音学事业蓬勃发展,中国社会科学院语言研究所语音研究室取得了一批重要成果,引起了国内外的关注,不少国外著名学者前来中国访问交流。1979年瑞典著名言语工程师兼语音学家方特教授首次来访,并在语音研究室度过了他的60岁生日。1982年,赵元任来访,在实验室录制了国际音标。1983年美国著名语音学家彼得·赖福吉(Peter Ladefoged),来语音研究室进行了为期一个月的访问研究,对普通话合成技术和语音室的研究工作表示了肯定,并且推荐相关研究成果在国际学术期刊 Journal of Phonetics 上发表。1985年,世界知名学者、日本著名言语工程学家、东京大学教授藤崎博也首次来访,从此与中国的联系不断,交流切磋一直延续至其退休之后。
1986年,王仁华在南京大学的一个报告会上遇到了藤崎博也。联合国开发计划署组织的这个报告会,主旨是邀请各行业日本专家在中国大学进行为期一个月的授课和讨论。南京大学的演讲内容其实就是藤崎博也在东京大学研究院的一部分讲座内容。
当年,王仁华43岁,藤崎博也56岁。
当报告会快要结束时,王仁华举手向藤崎博也提问,两人用英语讨论了一些语音专业问题。1986年,能够用英语流利和外国人交流专业问题的中国人并不多,王仁华让藤崎博也印象深刻。在交流即将结束时,藤崎博也问王仁华:“你是中国哪所大学的?”王仁华答:“中国科学技术大学。”
藤崎博也意识到,这并不是一所南京的高校。
三十七年之后,藤崎博也在聊起他和王仁华的第一次见面时,仍然记得王仁华很认真地告诉他,为了听他的报告,自己特地花了五个小时从合肥坐车到南京。“那让我非常感激。”
两人跨越世纪的合作自此开始。1982年,中国科学技术大学与东京大学工学部在北京签署“学术合作的规定”,内容包括以东京大学作为据点大学,承担帮助中科大建立和加强工科的任务,并确定在物理、化学等5个学科领域间开展合作研究项目。
王仁华和藤崎博也相遇的第二年(1987年),在中国科学技术大学各级领导的支持及藤崎博也的积极合作下,“人机语音通信”开始列入中国科学技术大学与日本东京大学的第二个“五年计划”。藤崎博也和王仁华分别担任东京大学和中国科学技术大学的负责人。
王仁华认为,在那个年代,与东京大学的合作让中科大受益良多:“东京大学在世界上是领先的,当然,藤崎博也本身也很厉害。”
藤崎博也教授1930年10月出生于日本千叶县。他于1954年、1956年和1962年分别得到东京大学电机工程的学士、硕士和博士学位。1958至1961年,他在富布赖特奖学金支持下,在美国麻省理工学院学习,在此期间,他还是斯德哥尔摩皇家理工学院的客座研究者。
1962年,他进入东京大学工程学院,为助理教授,1973年晋升为电机工程教授。在东京大学,他在文科研究生院语言学系获得了一个合作职务。1974至1977年,他在医学部音声言语医学研究设施得到了言语科学教授头衔。他曾是得克萨斯大学奥斯汀分校、斯德哥尔摩皇家理工学院、哥廷根大学和南京大学的访问教授,也是中国科学技术大学的客座教授。
1991年3月他从东京大学退休,任该校名誉教授。从1991年4月起,他为东京科学大学电子应用学系教授。
藤崎博也教授在语音和语言方面的研究领域很宽,包括声音的产生、感知、习得,听力损伤,声音的分析、合成、编码、识别等,发表了多篇学术论文和多部专著。
除此之外,他还在数字通信网络和道路交通控制领域开展研究。1987至1991年,他是由日本文部省发起的“全日本先进的人—机口语通讯课题”的主要研究者和课题负责人。
(《日本语音学家藤崎博也》林茂灿)
王仁华则称藤崎博也为“人机语音处理的国际知名学者,口语语言处理这一科学领域的世界知名领导者和创始人”。相比于林茂灿翻译的那段介绍,这个评价更简洁,却更富意蕴。
“口语语言处理(spoken language processing)”是我第一次在世界上提出的。
在那之前,英语世界里用speech processing(语音处理)和language processing(自然语言处理)这两个词。其中,“language processing”是把文字用机器处理;“speech processing”是把发出的声音信息用机器处理。language是抽象语言,speech则是声音上的、声学的。
但我认为这样是不行的。我们平时说的口语也是一种语言,而不仅仅是声音。口语也是语言的一种,它和书面语言是不同的语言。我应该是世界上第一个来追究“口头语言”的人。
我提出的“口语语言处理”,意思就是如果我们把口头语言记录下来,就必须同时在两个层面进行处理:一是声学层面,二是抽象语言层面。这就是所谓的“人机交互(man-machine communication)”的基础。
即便如此,英语圈的学者还是说“speech and language(语音和自然语言处理)”,因为很久以前,speech就是声学层面的,language就是抽象语言层面的,至今人们还被这样的概念束缚着。但是,实际上“speech and language”并不准确,speech本身就是一种language,我称为“spoken language”,它同时具有声学和语言两个层面的意义,这就是我的主张。
我在日本提出了“口语语言处理”的想法,中国的学者也表示赞同。与此相比,欧美注意到spoken language是很久以后了。当时,DARPA(Defense Advanced Research Projects Agency,国防高级研究计划局)一直在使用国防预算进行基础研究,DARPA就一直在说“speech and language”,我则认为这完全是两码事。所以说从那时候起,DARPA的想法已经跟不上时代了。
(藤崎博也)
将“口语”当成一种人机交互语言来研究,既追究它在抽象语言层面的含义,也追究它的发音中蕴含的含义,这在当时是一个开创性的思考。王仁华显然从很早就开始了类似的思考,这也为他后来和中国老一辈语言学家吴宗济的交往埋下了伏笔。
藤崎博也在中国埋下的另一处伏笔,日后也深深影响了王仁华和他的语音实验室,这可能是藤崎博也当年根本没有想到的。
藤崎先生是很有活动能力的。开始合作以后,他每年都到中科大讲学,帮我带研究生,还跟我们上课。五年时间他每年都来,这一点我是蛮佩服他的。
据说他在1987年访问北京期间,特地去拜访了胡启恒教授(1985年至1988年担任中国科学院副秘书长、秘书长;1988年至1996年担任中国科学院副院长;1994年当选中国工程院院士),并向她深入阐述了“人机语音通信”的重要性,世界范围内在该领域的建树,以及他所领导的日本国家项目。
藤崎博也很直接地说:“中国应该搞‘人机语音通信’,否则肯定要落后。”
这后来催生了中国“863计划”下由国家自然科学基金所资助的人机语声通讯类项目的研究,研究人员后来扩展到包括来自语言学和语音学的学者们。
所以我一直说(语音)这事不太容易,牵涉很多学科,一般人不敢在这上面瞎折腾。
(王仁华)
1987年9月到1988年2月,王仁华在日本度过。在那五个月里,王仁华住在日本千叶县西部船桥的一间出租屋里。
他早出晚归。早上六点醒来,搭一个小时地铁至东京大学;晚上工作到六七点,再返回宿舍;午饭在东京大学食堂解决,晚上自己做饭;饭后再研读论文,常常深夜入睡。
1994年,王仁华在东京大学作报告
彼时,日本经济已经进入了最繁盛的时期。20世纪80年代中期,日本“一夜暴富”,在科学领域,日本遥遥领先于中国。
整个20世纪80年代,日本科技战略和政策从“吸收型”向“自主研究和创造型”转换,取得了很大成果。根据《论80年代以来日本科技战略和政策的变革》记载:1990年,按照由科技研究能力、科技应用能力、科技贸易能力所组成的综合的“科技力”概念及其计算结果,在主要发达国家中,日本的科技指标的指数(以美国为100)增长最快。当时各国科技力指数的顺序是:美国100,日本52.7,德国39.1,法国20.6,英国19.7。日本的科技力在西方国家中仅次于美国,居第二位,其指数约为美国的1/2,德国的1.3倍,法国的2.6倍,英国的2.7倍。
王仁华在藤崎实验室
因此,尽管参与的是东京大学和中国科学技术大学的合作计划,但王仁华怀抱学习心态。东京大学也是王仁华最早开始着手语音合成相关工作的地方。在1987年的那三个月里,王仁华跟随藤崎博也研究一种“基于伽马(GARMA)模型的语音分析方法”。除了学习基本算法原理,王仁华还要熟悉东京大学的计算机编程和设备,利用上述分析方法去分析连续语音。
我是作为合作伙伴去东京大学的,费用由藤崎先生提供。那三个月我就跟着藤崎先生学习。他非常严格,但他后来对我非常好,因为我是去东京大学的这批中国人中,最努力的一个。
我们当时的津贴是十八万日元一个月。那时候为了省钱,地铁我只坐到东京大学附近,再绕道到实验室,要费不少时间。我总是早出晚归,早晨八点以前必到,晚上六七点离开,八点才回到船桥。
东京地铁我算是领教了,上下班的时候,车厢外面一群人,大家拢着手、喊口号一样挤进去。但是那几年我坐东京地铁,从来没见人吵过架,这点我印象很深。
我们同去东京大学的人中,不少人都是每天下午四点在实验室晃一下就走了。当时有个说法,研究生“晚上是神仙”。但我在东京没有任何空闲时间。“晚上是神仙”,怎么可能!我回宿舍就已经八点了,还要做饭。
因为我的勤奋,藤崎先生对我印象很好,一直很关照我。那是一个很好的科研环境,我做一点东西立刻就可以跟他讨论。他又会出一大堆主意,我又必须继续去做。
(王仁华)
王老师并不是我的学生,虽然在一起聊了很多,也讨论了很多。但是,我并没有向王老师建议必须做这个,或者应该做那个。我是很有礼貌的。王老师就做他想做的事情,并不是“我是老师,王老师是学生”这样的立场。我们平等地进行了讨论。当时是这样的心情,现在也是这样。
(藤崎博也)
此前,王仁华在美国和中科大的工作主要集中在语音编码,是要把这个世界上已经存在的声音“记录”成计算机里的一串数字,如果在这个过程中能利用人发声中存在的冗余度和人的听觉特性来降低编码率,那就更好了;反过来,现在他开始尝试用计算机里的一串数字来“合成”出人的声音。
在王仁华看来,东京大学的经历使他开始有机会深入研究“基于声门波模型的语音合成方法”,对语音合成有了新认识——这相当于让他在新领域“重新入了门”!
我在美国主要是搞语音编码的,而东京大学是我搞语音合成的起点。
藤崎先生当时在做一个语音合成器。语音合成器是语音合成中最基本的功能单元,它相当于“人工嘴巴”——接受控制参数,输出自然语音。藤崎先生当时做的语音合成器实际上是一个简单的算法:人类的发声过程被看作一个源(相当于“气流和声门”),去激励一个滤波器(代表“声道谐振特征”),简单讲就是这样。
理论上来说,只要正确输入源和滤波器参数,合成器就能合成出各种语句。
但是这个滤波器的各种参数怎么设计?激励源怎么设计最好?藤崎先生就搞了一个模型,叫伽马模型。他特别希望伽马模型用在汉语上也能比较成功。当时那个模型只能一个单词一个单词地合成语音,都是单音。
我去就学他这套东西,他当然很开心,因为这是他的发明。后来我们一块儿写文章都在用这个模型。我做的合成语音——汉语、日语听起来都比较自然,各方面都很好。他非常开心,对我的工作很满意。
我那三个月真的是拼了老命在干,感觉自己又当了一次学生。从1986年开始后的四五年,我几乎每年都要去东京大学做研究。刚刚从美国回来时,我曾经认为自己有两下子了。这会儿我又重新学,跟我后面的发展完全不一样,等于重新“入了门”。
(王仁华)
东京大学实验室有一个很有趣的事。
藤崎对我是很客气的。但他的学生看到他,就像老鼠见到猫一样,一个个都害怕得不得了。我后来才知道,他在实验室有一个绰号,叫作“藤崎morning call”。
每天早晨八点,藤崎是不去实验室的,但是他的电话八点之前一定会打到实验室。看看实验室这几个研究生到了没有,有没有偷懒。那些学生被这个“morning call”弄得叫苦不迭。
但是,他打这个电话从来不会问王仁华在不在,他知道我一定会准时到。
(王仁华)
1989年11月,王仁华又受邀去东京大学做了三个月访问学者,相关成果也在日本全国数字信号处理学术会议上发表。在伽马模型的基础上,藤崎博也在二十世纪末又提出“藤崎模型”。这是一种韵律模型,主要面向工程应用,后来被用来更好地逼近汉语语音的基频轮廓(指基频随时间变化的曲线,刻画出声调和语调的变化趋势)。
在1987年之后的几年内,王仁华每年都去东京大学做访问学者。中国科学技术大学语音实验室在人机语音通信领域与东京大学的合作,绵延二十年。在科研工作之外,王仁华认为有三件事令他受益颇多。这些经历也令他拥有了宝贵的国际视野。
第一件事情,藤崎先生在日本是绝对权威,他是1987至1991年日本国家项目高级人机语声接口的领导者和1996至2001年日本科学振兴会(ASJ)资助的项目人机语声对话系统的领导者。
两个国家项目都由他领导。因此他给我介绍的日本名流,都是这个圈子里最厉害的人物。
记得我总共是参加了两次日本声学学会和数字信号处理学术会议,很快就认识了那些日本学者。中国科学技术大学和东京大学的五年合作,后来扩展到中日两个国家大学群的合作。在两个大学群的合作中,我知道日本哪些人比较厉害,就会邀请他们来中国。这个关系很简单——因为他们认识我,我也认识他们。
第二件事情,我在东京开始参加一些国际学术会议。那个年代,国内的吸引力还差一点,要吸引国际上比较厉害的头面人物来中国开会还比较困难。但是日本和美国关系不错,所以在日本召开的国际学术会议,世界上知名的科学家都会来。
这样一来,那些国际上的专家教授我也开始认识几个了。因为藤崎先生跟他们比较熟,他会给我推荐。相对来说我就上到一个更高的台阶,跟这些学术圈里面的头面人物交流,我也认识了一些人,很多事就会比较方便。
第三件事情,日本有好几个非常有名的实验室,藤崎先生介绍我去参观,也算是打下了一个关系基础。那几个实验室都很厉害。记得我当时访问的都是日本顶级大学和研究所,如东京的NTT研发实验室,大阪的ATR(先进通信研究研究室)、东京工业大学、早稻田大学、名古屋大学等。后来我们实验室就和他们有很多合作,我们语音实验室的学生可以很方便地去这些研究所。
(王仁华)
藤崎先生帮我联系好ATR让我去参观,他跟那边的负责人都讲好了。但是那一天是中国的大年三十,大使馆为我们组织了除夕夜活动。我就跟藤崎先生商量说:“我今天实在有事去不了,能不能改个时间。”
但藤崎先生是不管这些的。他说:“不行,你一定要去。”他希望我去参观。我只好大年三十前往神户参观ATR。
(王仁华)
学术交流能力,是衡量一个科研工作者综合素质的重要指标之一。王仁华日后的纵横捭阖并非天生。他身上有一种直爽坦率的魅力,这大概源自他年轻时在体校的生活学习经历;他在上海长大,上海人的细心、开放、社交意识和理智决策在他身上也都能清楚地看到影子;辗转多地坎坷的经历让他极富生活经验,早已能把握人和人之间交往的微妙之处。
另外,王仁华又是一个一丝不苟、十分靠谱的科学工作者。他的学生霍强(PB8206,现任微软亚洲研究院全球合伙人研究员),形容他“答应别人的事就一定要做到”。这让王仁华在东京做访问学者时,广泛得到各界人士的青睐。他的学生常常惊讶于老师拥有的一种能力:在20世纪90年代世界人工智能的漫长低谷里,王老师总能找到机会把学生们送出国,让他们学习。这和王仁华在整个语音领域积累的广泛人脉不无关系,也是他苦心经营的结果。
一个科学家需要具备什么能力呢?科学研究的能力固然必不可少,但是如果重回20世纪80年代中科大语音实验室的历史环境,就会明白,科学家还必须拥有面对现实的能力。搞研究的经费、设备和人员到底从哪里来?肯定不会从天上掉下来。身处那个时代,百废俱兴,一个实验室的领头人必须是一个脚踏实地的创业者。
有一点可以肯定,王仁华在东京大学学习语音合成的时候,心系更广阔的天地。这也是王仁华和其他人不一样的地方。
从1986年起,通过国外合作研究及纵向和横向的科研经费渠道,我全力投入了“语音通信实验室”的建设。
通过与东京大学的合作,为实验室争取到了两百万日元以上的赠送设备,包括NEC386微机和IBM-PS/2微机各一台,DAT数字记录设备两套,DAT也是国内科研教学单位首次引进的一种高技术装备。
除了东京大学工学部赠送的装备,只要合作研究需要,藤崎先生都在可能的范围内给予经费支持,例如购买DAT磁带、ADPCM集成电路芯片等。日方赠送的设备价值一般都超过了东京大学工学部的预算。
此外,我还通过与香港大学的合作研究为实验室争取到对方赠送的价值约十万港币的COMPAQ 300MB硬盘超级微机系统,当时是中科大唯一一台。
再加上从其他经费渠道添加的各种设备,语音通信实验室初步具备了进行高技术人机语声通信研究条件,成为培养信号处理领域优秀人才的基地,为我们后来争取国家863高技术项目、中国科学院“八五”重大应用项目和国家自然科学基金项目等奠定了基础。
(王仁华)
1995年,藤崎博也参观语音实验室合影
1991年,藤崎博也从东京大学退休后,广濑启吉教授接替了他的位置。广濑启吉1988年第一次到中国时,就肩负着帮语音实验室置办电脑的重任。他和另一个同事硬是把在日本购买的一台新电脑托运到上海,再运到合肥。“行李特别大,如果不那样(把台式电脑当行李带到合肥)的话,好像要花几个月的时间才能到中科大。所以,他就是抱着协助研究人员的心情带着那些电脑去中国的。”
1993年,东京大学和中国科学技术大学的合作项目发展为“中日大学群合作交流项目”,拓展至中日近十所著名理工科大学。王仁华和广濑启吉分别担任中方和日方的电子信息领域首席教授,合作一直延续到21世纪。广濑启吉教授后来在采访中回忆起了早期的中科大语音实验室。
1990年,王仁华与广濑启吉在东京大学实验室合影
最开始那个时候,从东京去合肥是不能当天直接到的。要先去中国科学院所在的北京,或者先去上海也可以,再坐飞机飞到合肥。
那个飞机很厉害,是苏联制造的螺旋桨飞机。记得还有上飞机的人扛着蔬菜,我当时在想这个飞机真的能飞吗?这是让我感到害怕的地方。刚开始去中国,上午出发,就不能制订下午的计划,因为是到不了的。
然后去中国科学技术大学,住那里的宿舍。那时候学校里没有网络,如果想和日本联系,只能打国际电话。
宿舍里不能洗衣服,因为出来的是热水,如果用热水洗衣服的话,衣服都会变黄,因为有铁锈。
我被邀请去了王老师在大学里的宿舍,我去那里拜访的时候是冬天,很冷,当时宿舍里好像在烧炭,就是那样的时代。
当时实验室物资匮乏,投入研究是很辛苦的。那时候即使要研究也真的是没有器材。还有论文什么的也拿不到。虽然现在可以在网上找到,那时候因为还不是网络时代,必须去图书馆里找。文献也没有,机器也没有,是一个很艰难的时代。有的只有学生、椅子和桌子,一开始基本上都是这样。
(广濑启吉)
万丈高楼平地起。王仁华和他的实验室是在一无所有中成长起来的。根据王仁华的看法,到了“中日大学群合作交流项目”阶段,中国科学技术大学跟东京大学差距已经不大了。“不论是研究也好,应用也好,不敢说平起平坐,但已经比较接近了。”
藤崎博也认为,在2000年左右,中科大语音实验室就已经超过日本了。“日本从2000年左右开始就停滞不前了,也没有退步,发展是很慢的。”
在二十世纪八十年代,主流语音学和言语工程学的合流趋势已无可避免。但这并不意味着,计算机技术就可以搞定一切。相反,语音学反而在言语工程的促进下得到了更大充实。
计算机在处理言语代码的技巧上并无困难,最困难的还是人们对语音规律的认识问题。到底语音中的有效参量是什么?哪些是变量?哪些是不变量?为什么人在环境干扰下,对语音的感知能力还能这样高?因此,语音学固然应该技术化,但言语工程学家也应该掌握语音、语言的知识,才能达到实用的程度。这两者是相辅相成的。
因此,美国著名语音学家彼得·赖福吉有一句名言:“我们需要的是第五代的言语科学家,而不是第五代的计算机。”
王仁华深谙此理。中科大语音实验室,是从言语工程切入语音领域的。但他深知:再想向前走一步,就要回归到汉语的本体上,回归到这门伟大语言的历史传统上,寻找本质规律。
中国语音学研究始于1919年五四运动前后,但蓬勃兴起的势头因1937年抗日战争的全面爆发而被打断。
1924年,留学法国的刘半农,采用浪纹计等先进设备完成实验,写成博士论文《汉语字声实验录》(法文),随后改写为《四声实验录》在中国出版,这是中国人写的第一本实验语音学论著。
1925年秋,刘半农携仪器设备回国,在北京大学文科研究所建立“语音乐律实验室”。其后,北京大学由罗常培领导文科研究所与“语音乐律实验室”,提出用“实验以补听官之缺”的主张,致力于推进国语发音学向现代语音学转变,发表了诸如《音标的派别和国标音标的来源》(1937)、《语音学的功用》(1940)、《耶稣会士在音韵上的贡献》(1930)、《中国音韵学的外来影响》(1934)等系列文章。新中国成立以后,罗常培、王均编著的《普通语音学纲要》(1957),以中国语音事实阐明语音学原理,至今仍是语音学最有价值的读本之一。
同一时期,1927年,王力也在法国完成了实验语音学博士论文《博白方音实验录》。另外,1928年,赵元任以调查汉语方言和建立语音实验室为工作重点,把语音学的发展放在了重要地位。1930年,赵元任创制了五度标记法。
1935年,赵元任建立语音实验室,吴宗济任助理,跟随赵元任进行语音学研究,后因抗日战争爆发而停顿。
20世纪50年代中国科学院哲学社会科学部语言研究所的成立标志着中国现代语音学研究的创立。发展历程可以分为两个阶段:二十世纪五六十年代的草创阶段与二十世纪七八十年代的正式创立。
到1978年,历经沧桑的中国哲学社会科学事业迎来了繁荣发展的新时期,语音学研究从此开始了新进程。
1990年,日本召开的第一届口语处理国际会议(ICSLP1990),大会主席是藤崎博也,他同时邀请了中国现代汉语语音学界实验语音学的创始人、泰斗吴宗济先生。
王仁华参加了那次会议。经藤崎博也介绍,王仁华认识了吴宗济。不仅如此,藤崎博也还把王仁华和吴宗济安排在同一个酒店房间里。
藤崎博也的本意是希望王仁华能照顾一下吴先生。因为当时吴先生已经是81岁高龄,王仁华只有47岁。但是没有想到,吴宗济第一次见到王仁华,就喊王仁华“仁华兄”,毫不见外,着实让王仁华吓了一跳。
王仁华后来说:“吴宗济是前辈、大师,他是一个睿智的学者,个子不高但非常精神,谈吐风趣,思维敏捷。他在语音学上的造诣,深不可测。然而他一点也没有大牌的架子。那是我们第一次见面。别说是第一次见面,就是后面我们建立了合作关系,关系很密切了,我也不认为我们是可以同辈之间一起做事情的关系。”
1990年,王仁华与吴宗济先生在日本东京大学合影
但是吴宗济却不这样认为。后来吴宗济跟王仁华通信,开头必以“仁华兄”称呼。“他从来没有那种好像很厉害,要教训人的样子。”
交往下去,王仁华才感受到吴宗济的独特风范:那是一种虚怀若谷的为人之道。
吴宗济很喜欢禅宗的诗句:菩提本无树,明镜亦非台;本来无一物,何处惹尘埃。20世纪90年代末,科大讯飞送了吴宗济一台PC,吴宗济在接近90岁高龄时开始学习使用电脑,后来,他关心时事,上网看新闻、收发邮件,应付自如。他写文章用汉语拼音打字,说是练“二指禅”。当吴宗济得知自己的名字在电脑上用拼音输入法打出来是“无踪迹”时,连呼“这好玩,这好玩”。
少年时代,他从书上读到了田单的火牛阵,牛尾巴上绑把刀,一冲,就赢了,有意思。他想试,可惜没火牛,但有猫。于是,他来了个吴氏“火猫阵”:在猫尾巴上系上一串鞭炮,一点着,猫就拼命地乱窜,钻到保姆的床底下,保姆吓得直哭,父亲则一顿棒喝。
小狗会不会游泳呢?一想到这种事情,吴宗济的方法就是先做实验,结果一缸水浪费了,小狗也被整得够呛。
“我喜欢玩,而且不是一般的玩,有自己独门的玩法。”
1928年,他考入清华大学,就读于市政工程系。一年后该系停办,全班都要转到上海交大,吴宗济不愿离京,因想学照相感光材料的研制,就转到了化学系。但吴宗济自幼读的是私塾,背诵四书五经,还是对古汉语有兴趣,最终转入中国文学系。当时的清华有文、理、法、工四学院。按规定,本科生读完一年级后,可申请转院转系,最多两次。在本系的应修学分修满后,还可选修其他系的课。吴宗济在清华转了两次系,待了六年,除了中文系必修学分,还上了物理、化学、数学等课程。
吴宗济后来盘点学术生涯,常自称“由理转文”,皆出于此。
1950年6月,中国科学院成立后不久,应周恩来总理的要求,由著名语言学家、北京大学文科研究所原所长罗常培负责组建语言研究所,并主持语言所的工作。他发来公函向上海市政府调吴宗济归队。吴宗济重新回到语言学研究领域。
吴宗济发现,和其他语言相比,汉语的声调尤为复杂,值得深究,因此他便开始专攻声调研究,在声学实验的基础上发表了一批论著,一方面着重从语言学角度来分析语音,揭示语音——特别是普通话语音的生理、物理特性,另一方面为言语工程提供了必要的数据和规则。在研究中,吴宗济提出了普通话语音变量的理论和规则,着力探索中国自己的实验语音学理论。
1975年底,语言研究所由原来临时蜷缩的国家文改会门厅搬到原地质学院主楼办公。语音实验室分配在四楼西侧,有办公室、仪器室,以及待建的录音室、审音室、计算机房。1977年,中国社会科学院成立,原中国科学院语言所三组分为语音研究室和应用语言学研究室,吴宗济任语音研究室主任。
吴宗济在语音学方面的研究,是随世界语音学的发展,以及实用上的需要而改变其航向的。
解放前,最初是以传统的语音学的知识和方言调查的练习为基础的。这一阶段,我有幸先后从业的四位导师:罗常培、王力、赵元任和李方桂先生,现在他们都已被公认为划时代的语言学和语音学的大师了。
随后到了解放,我在罗常培、吕叔湘先生的指导下,就集中于以实验语音学为手段,来分析普通话的语音特点,为全国推广普通话和语言学现代化提供科学基础。这一阶段,面临国际上语音学的新发展和国内的新形势,只有外出取经,才能赶上时代。于是差不多就得一切从头学起,边学边干。
最后根据国内言语工程(“人-机对话”中的语音处理)的迫切需要与语音学界合作,就迅速转变航向,参加了院校的语音处理课题,这就还要再学习新的知识,才能配合工作,这又使我的研究进入一个语音学的新领域。
这三个阶段同一般治学的方法相似,可分为三个境界。正如王国维先生在《人间词话》中论治学境界所引的三句宋词。
最初是“昨夜西风凋碧树。独上高楼,望尽天涯路”,东看西摸去“寻寻觅觅”,选择的目标难以决定;然后是“衣带渐宽终不悔,为伊消得人憔悴”,有了目标了,去求师访道,面向目标,自行探索,要做许多传统语音学中从未涉及的工作;最后到达了“众里寻他千百度,蓦然回首,那人却在,灯火阑珊处”的境界,如同俗话所说:“踏破铁鞋无觅处,得来全不费工夫”,目标找到了,也就可以走上这条路了吧。但事情没有这样简单,何况我们这里所找的“那人”不是文章,而是千变万化的动态语音。
(吴宗济)
吴宗济和王仁华相遇,对王仁华而言是苦苦追索,“独上高楼,望尽天涯路”,而吴宗济已经到了“众里寻他千百度,蓦然回首,那人却在,灯火阑珊处”的阶段。
20世纪80年代以来,由于“人—机对话”系统的研制与发展,言语工程和语音学的结合在国内已提到日程上来,而传统的语音学文献还无法跟上信息时代的需要,所以要按照言语工程所需的内容重新调整研究方向。吴宗济专心致力于普通话语音信息处理及语音合成自然度的实验研究,由于汉语的特征与印欧语系的不同,有许多规则不能照搬。在不断探索中,吴宗济正着力完成一系列的汉语语音音段和超音段的处理规则和模型,同时还对传统的中国音韵学中某些内容做出新的分析和继承。
1990年,吴宗济遇到王仁华已经81岁高龄,他自称“在学问上离自由王国还很远”,但是如果他潜心研究的成果,能被应用到真实的语音合成系统中,对一个学者而言,将是莫大的欣慰。
因此,两人相见恨晚。除了开会,两个人还住在一起。王仁华跟吴宗济说:“中科大正在做汉语语音合成方面的工作,但是感觉到语音学方面的知识非常缺乏。”
吴宗济就把自己在汉语声调领域的研究讲给王仁华听。吴宗济很直率地说:“只要你们觉得有用,我就会把我知道的所有知识都传授给你们。”
王仁华回忆,吴宗济说这些话的时候很高兴。“由此我非常荣幸,从20世纪90年代初起,和吴教授在汉语的声调和语调方面进行初步的接触。吴教授渊博的语音学知识,研究和实验一丝不苟的学风,对汉语语音事业发展的不懈追求,在后来都给了我和我的学生们深刻的影响。”
历史的轮盘正在转动,王仁华在美国学语音编码技术,在日本搞言语工程,又赓续中国现代语音学的血脉,逐渐被推到了一个交汇点。创新来自科学和人文的交流,而最有可能产生重大科学突破的地方,通常就在学科的交界处。
1990年左右,王仁华非常忙碌,除了在日本学习,也在国内多方拜访同行,建立关系。他非常看重的一个途径是参加学术会议。
我们搞学术研究,搞项目开发,参加学术会议是很重要的。实验室要站稳脚跟,闷着头做也不行,也要获得别人的认同。参加学术会议,多交朋友,既展示自己的研究成果,扩大影响力,又跟踪最新技术,互相交流。”
(王仁华)
最先参加的是中国仪器仪表学会信号处理分会主办的全国信号处理会议(CCSP学会年会),第一届举办的时间是1984年。
那时,王仁华刚回国没多久,在行业内还是“无名之辈”,也还没有完全确定智能语音的方向。从1984年到1992年,王仁华一共参与了4届全国信号处理会议,成为中国仪器仪表学会信号处理分会的委员。
这期间,中科大语言实验室开始起步,王仁华果断迈入人机语音通讯的圈子,在这个领域参加的第一个学术会议是1990年的第一届全国人机语音通讯学术会议(NCMMSC1990)。这个会议由中国中文信息学会语音信息专业委员会,中国声学学会语言、听觉和音乐声学分会,中国语言学会语音学分会联合主办,第一届的承办方是清华大学。这时候的王仁华在智能语音领域崭露头角,第一次见到语音界的头面人物,有清华大学的方棣堂、王作英,中国科学院声学所的俞惕生、张家
,中国科学院自动化所的黄泰翼等人。
对于王仁华来说,参加这样的会议收获还是很多的。
那个时候是1990年,我们实验室也有一点名气了,不过影响力确实还很小。我去参加这个会议,感受是跟这些头面人物见了个面,让别人知道我们了。他们有一个学术委员会,我也算加入了他们的委员会。
(王仁华)
那时候的王仁华,可能万万没有想到,后来他能和清华大学的王作英合称中国智能语音界的“南北二王”。
唐涤飞那时候在实验室做语音合成,跟着王仁华参加这样的学术会议。站在学生视角,他的感受则很现实。
去开会,我印象特别深、感觉很明显:当时我们中科大,还有王老师,在智能语音领域的知名度是很小的。有几家名望很大,中国客源自动化所、中国科学院声学所、清华大学。我看着那些老师,其实都是很骄傲的样子,王老师显得很低调。当时我们已经在接863的项目了,大家都在抢语音合成,经费多,是亮点,但王老师接的是语音识别的数据评测。我当时感受不到,现在深深体会到了王老师当年的智慧。
我也看到当时一些老师为了一城一池争得不可开交,我也能理解,为实验室争取一些好的研究条件、好的资源,就能够研究发展得更好,但是王老师在里面其实争得并不厉害。可是二三十年之后,中科大语音实验室超过了其他所有实验室。这印证了我后来听到的业界著名人物说的话:决定一个人最终成就的不是他的聪明才智,而是他的胸怀。
(唐涤飞)
会议每两年一届。到了2007年,中国科学技术大学成为第九届全国人机语音通讯学术会议的承办方,时间是10月21至23日,会议地点在黄山。
当时,科大讯飞全程策划了此次会议,不仅邀请了中国科学院、清华大学、北京大学、中国科技大学等语音界的专家、学者,还邀请了Nokia、IBM、微软、摩托罗拉、科大讯飞等众多知名企业的研究人员。美国佐治亚理工学院李锦辉教授、微软亚洲研究院宋歌平博士、日本ATR Satoshi Nakamura博士、Google吴军博士、韩国庆南大学Sung-Ill Kim教授、中国科学院计算语言工程中心黄河燕主任、加拿大约克大学江辉教授等国内外著名专家做了8场专题学术报告,报告的内容覆盖了语音识别、语音合成、说话人识别、语言翻译、信息搜索、多媒体信息处理等诸多研究领域。
多年后的2013年,再次提起此事,王仁华的骄傲溢于言表。
这次大会是我们举办的,那时候科大讯飞全程参与了。公司的人比做学术的人更知道会怎么开才能吸引人。科大讯飞那时候都搞了好几年了,产品发布会都不在话下。当时,我们把地点选在黄山,除了搞会议,还搞了一些展示,又做了一些很吸引人的宣传,所以那次参加会议的人特别多、特别全。那些专家都说,这是会议从举办以来,规模最大、参与人数最多、举办水平最高、反响最强烈的会议。
科大讯飞当时在应用方面已经做得很不错了,联合业内企业做了展示和报告,学术圈的人看了也很兴奋。本来学术圈的很多人也很关注应用,但是应用能力不强,看到科大讯飞等企业做的这些东西,觉得智能语音还是很有希望的。
其他的学术会议,大多是说研究、说文章,这次会议还说了应用,说了落地,我觉得无论对提升当时学术圈的士气,还是对国家的语音通信事业的发展都是有帮助的。
(王仁华)
那届会议还有一个趣事,吴宗济先生已经98岁高龄,很想来参加,找到王仁华说,又跑去跟中国语言所申请,所里为了他的安全着想坚决不同意。遗憾之下,吴宗济亲手写了一个贺词,并谦虚地署名“后学 吴宗济敬贺”。
《第九届全国人机语音通讯学术会议召开致庆》
这个会议有后续:2022年,第十七届全国人机语音通讯学术会议在合肥举办,由中国计算机学会和中国中文信息学会联合主办,科大讯飞、中国科学技术大学和语音及语言信息处理国家工程研究中心联合承办。当年实验室的学生、现在的中国科学技术大学教授和语音及语言信息处理国家工程研究中心副主任凌震华任学术委员会委员,王仁华看到新闻,很惊讶,也很欣慰:“时隔32年,这个会议还这么热闹,可见人机语音通信的魅力。”
这背后是他对智能语音事业的热爱,也是看到中科大智能语音实验室开花结果的欣慰吧。
另一个影响深远的会议,是国际汉语口语处理学术研讨会(ISCSLP)。第一届于1998年12月6日在新加坡举行,王仁华带着刘庆峰等人参加,展示了“天音话王”汉语语音合成系统,刘庆峰的论文 The design and realization of a Chinese speech platform——TianYin HuaWang 获得最佳学生论文奖。(见第七章第一节)
当时,会上成立了一个国际性的汉语语音技术研究联合会,选出9人的委员会,分别是:当时贝尔实验室语音研究部主任李锦辉当选委员会主席,中国科学院自动化所的黄泰翼和王仁华,中国台湾大学的李琳山,时任苹果公司新加坡研究中心语音处理实验室研究主任李海洲(2022年当选新加坡工程院院士),以及当时在国际电气通信基础技术研究所(ATR)的邓力和霍强当选委员。
王仁华说:“9个委员,中科大出身的就占了3个。”
科大讯飞和这个会议渊源颇深,胡郁(PB9506,安徽聆思智能科技有限公司董事长,曾任科大讯飞轮值总裁、消费者事业群总裁、讯飞研究院院长)2006年也获得了最佳论文奖。
2006年,胡国平(PB9511,科大讯飞高级副总裁、认知智能全国重点实验室主任)、鄢志杰(PB9906,现任阿里巴巴达摩院语音实验室负责人)等参加了在新加坡举行的ISCSLP。中国科技大学争取到了2008年会议的举办权,地点在昆明,李锦辉、王仁华、黄泰翼,还有郑秋豫等悉数到场。
我为什么要特别强调ISCSLP?一是因为这个会议水平很高,二是因为这个会议很权威。博士毕业要发论文对吧,论文分为期刊论文和会议论文。很多会议论文,是不符合博士毕业条件的,但是ISCSLP的会议论文符合条件。
我也想和年轻人说,像这样的会,都应该争取参加,而且要重视,带着最高水平参加。这不仅是为了发论文,而是能真正学到很多东西。
(王仁华)