购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

13
贝尔实验室的岁月

在多伦多,我只能利用一个很小的手工数字集来测试我的第一个卷积网络,这些数字全是我用鼠标画出来的。但是在贝尔实验室,我们通过美国邮政收集到了信封上的手写邮政编码,共计9298张“真实”的手写数字图像。因此,我制作的SN卷积网络模块也可以直接发挥作用了。我计划建造一个具有16×16像素的输入信号和4个层级的大型卷积网络(见图2-2)。完成后,它一共有1256个单元、64660个连接和9760个可调节参数(在一个卷积网络中,多个连接可以共享同一个参数)。这真是激动人心。我花了三天时间,用7291张图像作为学习实例,在Sun 4计算机上训练这个网络。剩下的2007张图像被拿来作为测试案例,最终的错误率仅有5%,这创造了新的纪录。

这些成果是在我入职后仅两个月内取得的,拉里对此十分高兴,他将我的网络命名为LeNet(源自我的名字Le Cun)。紧接着,我们在一张很小的加速卡上成功运行了它,并取得了每秒识别30个字符的好成绩。研究快速推进,我们又开发了一个新的卷积网络架构:LeNet 1,这个架构拥有4600多个单元,接近10万个连接,错误率进一步下降。

图2-2 第一个用于识别手写字符的卷积网络

我在1988年下半年到贝尔实验室时构造了第一个卷积网络。这是一个神经网络,其结构受视觉皮层的启发。它包括4层,前两层的神经元连接到前一层的小区域,即所谓的感受野(参见第六章关于卷积网络的内容)。各层连续地从图像中提取出越来越抽象和全局的特征。

不久,拉里找到贝尔实验室工程部的合作伙伴来推进技术和研发产品。我们跟一组感兴趣的工程师合作,很快就开发出了一个可以读取银行支票上的金额的系统。

该系统使用一个带有34万个连接的LeNet 5大型卷积网络,能够处理20×20像素的输入信号(见图2-3)。在我的同事和朋友莱昂·博图、约书亚·本吉奥和帕特里克·哈夫纳(Patrick Haffner)的帮助下,系统成功读取了收集到的大约一半的支票,错误率不到1%。另一半支票因为机器无法识别,只能人工处理。一个系统可以精确到真正投入实际应用,这还是第一次。

图2-3 LeNet 5是一个用于识别手写字符的商业化卷积网络

LeNet的结构包括7层。它比之前的版本大得多,并且使用了分离的层用于卷积和池化(参见第六章的相关内容)。它能辨识出奇怪的数字。

CCR是AT&T的一家子公司,这是一家向银行销售支票扫描器和自动取款机的企业,他们的产品配备了我们开发的自动阅读系统,能够自动读取存入机器的支票上的金额。1994年,法国布列塔尼的互助信贷银行开始使用NCR的自动取款机。

1995年,快速读取系统首次全面上市,我们在一家意大利餐厅庆祝了这个特殊的日子。餐厅位于距实验室几公里外的一个美丽的小城市雷德班克(Red Bank),这里也是贝西伯爵(美国爵士音乐家、钢琴家)和电影导演凯文·史密斯(Kevin Smith)的家乡。

但是,我们回去时获悉,AT&T公司的管理层决定将公司进行拆分,成立几家独立运营的新公司。几个月以后,NCR带着开发和销售读取系统的研究团队离开了。新成立的朗讯科技公司随后也独立了出去,带走了“贝尔实验室”这块招牌和实验室的一大部分工程师,之前与我们合作的工程师小组也包括在内。我们的研究小组则留在了AT&T公司,隶属于一个新成立的实验室:AT&T研究实验室。更加令我难过的是,项目的后续开发工作也停摆了。至于已经研发出来的产品商业化工作,则由NCR和朗讯科技继续开展。

20世纪90年代末,我们的系统读取了由美国发行的所有支票的10%~20%,这是那10年来神经网络最引人注目的成就之一。可惜的是,AT&T新成立的电信服务公司对这项技术并不感兴趣。那是1996年,当时互联网刚刚兴起。我那时被提拔为部门负责人,首先要做的就是为团队寻找一个新的项目。经过讨论,我们决定研究图像压缩技术,扫描高分辨率的纸质文件并通过互联网进行传播。我们希望可以通过适当的技术手段,帮助世界各地的图书馆扫描它们的藏书并发布在互联网上。我们打算在1998年推出这项技术,并将其命名为DjVu(DjVu的法语发音和“似曾相识”的法语发音相近)。DjVu可以将高分辨率的彩色扫描页压缩至约50 kB,是JPEG或PDF的1/10。

不幸的是,AT&T错过了DjVu的商业化。大型公司在将其内部实验室的创新技术进行商业化时出岔子,也是老生常谈的话题了,比如施乐公司史诗级的错失良机的先例——施乐公司错过了他们在加利福尼亚帕克研究中心实验室发明的现代办公自动化系统的商业化,这个系统几乎囊括了所有现在办公需要的模块:个人工作站、计算机网络、多窗口图形显示系统、鼠标和激光打印机。但施乐没能及时卖掉这些产品,才使得史蒂夫·乔布斯(Steve Jobs)和苹果公司有时间用LISA(苹果发布的世界第一台图形用户界面计算机)和麦金塔(继LISA之后的第二台图形用户界面计算机)复制这个概念,抢占了先机。

事实上,AT&T之前也发生过类似的事情。贝尔实验室的很多发明都曾在公司内部引起了不错的反响,但AT&T忙于像其他公司一样通过晶体管、太阳能电池、CCD(电荷耦合器件)摄像机、UNIX操作系统、程序设计语言C和C++等手段赚钱,并不在乎某些新技术的商业化,而这些新技术的命运也跟DjVu一样。公司最终以约1200万美元的价格,将DjVu的使用许可证出售给了西雅图一家已经占有图像技术市场的公司LizardTech。让人啼笑皆非的是,后者也错过了DjVu的商业化机会。我们曾建议LizardTech以开放源代码的方式分发基础代码,因为只有让所有人使用,才能让他们接受新格式。但出于对控制权和利润的担忧,LizardTech并没有听从我们的建议。再后来LizardTech也想过做改变,可惜为时已晚。LizardTech的选择决定了结局,当然这是另外一个故事了。 JPRh74e+gQ6PgwNtnpl5QwkATMa1+5WL6NnuR3r7AZ9WsDmBYNOelOAnJtrDCOM2

点击中间区域
呼出菜单
上一章
目录
下一章
×