交互设计：思维与方法最新章节_王军锋著

1.4 人机交互发展简史

1.4.1 计算机的出现

第一台电子计算机——ENIAC（The Electronic Numerical Integrator And Computer）诞生于宾夕法尼亚大学，1946年在费城公之于世，这个庞然大物占地面积达170平方米，重达30吨，如图1-7所示。它通过不同部分之间的重新接线编程，拥有并行计算能力，但功能受限制，速度也慢。ENIAC的问世标志现代计算机的诞生，是计算机发展史上的里程碑。此时，计算机的存储单元仅仅用来存放数据，它们利用配线或开关进行外部编程。计算机操作人员（operator）的工作是为计算机的不同部件之间连线，也就是负责连线插头的插接。

图1-7 第一台电子计算机——ENIAC

约翰·冯·诺依曼（John von Neumann）提出了程序和数据应该存储在存储器中，按照这种方法每次使用计算机来完成一项新的任务，只需要改变程序。而不用重新布线或者调节成百上千的开关。第一台现代意义的通用计算机EDVAC于1951年正式运行，和ENIAC的不同之处在于，EDVAC首次使用二进制而不是十进制。整台计算机共使用大约6000个电子管和大约12000个二极管，功率为56千瓦，占地面积45.5平方米，重7850千克，使用时需要30个技术人员同时操作。它由五个基本部分组成：①运算器；②控制器；③存储器；④输入装置；⑤输出装置。这种体系结构一直延续至今，现在使用的计算机，其基本工作原理仍然是存储程序和控制程序，所以现在大部分计算机都被称为冯·诺依曼结构计算机。鉴于冯·诺依曼在发明计算机中所起到的关键性作用，他被西方人誉为“计算机之父”。

现代计算机的发展大致可以分为5代，每一代的改进主要体现在硬件或软件方面。

第一代计算机（1950—1959年）：以商用计算机的出现为主要特征，在这个时期计算机被锁在房子里，只有操作者和计算机专家可以使用。计算机体积庞大，且使用真空管作为电子开关，此时的计算机只有财力雄厚的大企业和科研机构才能负担得起。

第二代计算机（1959—1965年）：使用晶体管代替真空管既减小了计算机的体积也节省了开支，这使中小型企业也可以负担得起计算机的费用。FORTRAN和COBOL两种高级计算机程序设计语言的发明使编程更加容易，这两种语言将编程任务和计算机运算任务剥离开来，使其他领域的工程师能够跳过计算机具体的电子信号处理细节，直接编写程序来解决特定工程问题。

第三代计算机（1965—1975年）：集成电路（晶体管、导线以及其他部件做在一块单芯片上）的发明进一步降低了计算机的成本，减小了计算机的尺寸，小型计算机出现在市场上。封装好的程序，也就是通常所说的软件包开始销售。一个新的产业形态——软件工业就此诞生。一些中小型公司可以直接购买所需的软件包（如会计程序）而不必自己开发。

第四代计算机（1975—1985年）：出现了微型计算机。Altair 8800出现在1975年，被广泛认为是世界上第一台个人计算机（Personal Computer）。电子工业的发展使整个计算机系统可以集成在一块电路板上。这一时代还出现了计算机网络。

第五代计算机（1985年至今）：这个到目前还未终止的时代始于1985年，见证了掌上计算机和台式计算机的诞生、第二代存储媒体（CD-ROM、DVD等）的改进、多媒体的应用以及虚拟现实现象。

1.4.2 键盘和鼠标

键盘的历史非常悠久，1714年就相继有英国、美国、法国、意大利、瑞士等国家的人发明了各种形式的打字机，最早的键盘就用在技术还不成熟的打字机上。直到1868年，“打字机之父”——美国人克里斯托夫·拉森·肖尔斯（Christopher Latham Sholes）获得了打字机专利，并取得经营权经营，又于几年后设计出现代打字机的雏形，并首次规范了键盘的按键布局，即现在的“QWERTY”键盘。

为什么要将键盘规范成QWERTY键盘按键布局呢？最初，打字机的键盘是按照字母顺序排列的，各个字母按键通过机械结构与打字机其他部件相连接。如果打字速度过快，某些键的组合很容易出现卡键问题。克里斯托夫·拉森·肖尔斯发明的QWERTY键盘布局将最常用的几个字母安置在相反方向，最大限度放慢敲键速度以避免卡键。1873年，使用这种按键布局的第一台商用打字机成功投放市场。

其实，使用QWERTY键盘的工作效率并不高。比如，大多数打字员惯用右手，但使用QWERTY键盘，左手却负担了大约57%的工作。两个小拇指及左无名指是最没力气的指头，却要频频使用它们。排在中列的字母，其使用率仅占整个打字工作的30%左右。因此，时常要为了打一个字而频繁移动手指。

1888年，美国举行了打字公开赛，法院速记员马加林展示了按照明确指法分工的盲打技术，错误只有万分之三，使在场人惊讶不已。据记载马加林的奖金是500美元，从这以后，很多人开始效仿、学习这种盲打技术，美国也开始有了专门培养打字员的学校。

由于盲打技术的出现，使击键速度足以满足日常工作的需要，然而1934年，美国华盛顿一个叫德沃拉克（Dvorak）的人为使左右手能交替击打更多的单词又发明了Dvorak键位布局的键盘的排列方法（图1-8）。这个键盘可缩短一半的训练周期，平均速度提高35%。Dvorak键位布局的键盘布局原则是：①尽量左右手交替击打，避免单手连击；②越排击键平均移动距离最小；③排在导键位置应是最常用的字母。然而Dvorak键盘诞生的时候恰逢二战，还没大批量生产就夭折了。此外，当时的人们似乎也并不乐意去记忆一种全新的键盘布局，它所能提高的打字速度也没有被普遍证实，因此在市场上没有获得足够的用户和关注。

比Dvorak键盘更加合理、高效的是理连·莫尔特（Lillian Malt）发明的MALT键盘（图1-9）。它改变了原本交错排列的字母按键，为拇指分配了更多按键，也使“后退键”（Backspace）及其他原本远离键盘中心的键更容易触到。但MALT键盘需要专用的附件才能安装到计算机上，所以也没有得到广泛应用。

图1-8 Dvorak键盘布局（上）和QWERTY键盘布局（下）

图1-9 MALT键盘布局

1976年，美国DIGITAL RESEARCH软件公司研制出8位操作系统CP/M（Control Program/Monitor），其主要功能是对文件信息进行管理，以实现硬盘文件或其他设备文件的自动存取。该系统支持用户通过控制台的键盘对系统进行控制和管理，键盘的主要作用是输入内容，移动光标，定位用户所要操作的位置，从此之后，键盘才成为计算机的标配输入硬件。

1964年，加州斯坦福研究所的道格拉斯·恩格尔巴特（Douglas Engelbart）博士研究出了“显示系统X—Y位置指示器”，这是一个顶部设计有按键，拖着一条电线的小木盒子，非常像一只老鼠，道格拉斯和他的同事就称其为“Mouse”，该设备由此得名（图1-10）。在当时DOS操作系统中，鼠标并没有如今这样重要。受限于当时的硬件环境和操作系统，这一可以更改历史的发明并没有很快得到广泛应用。直到微软公司的Windows操作系统和各种版本的UNIX操作系统出现后，鼠标才逐渐应用于计算机的控制，这为计算机的操作带来了空前的便利。直到1973年，施乐（Xerox）推出了首款采用图形界面的操作系统——Xerox Star之后，鼠标才成为计算机的标配附件。

图1-10 第一款鼠标

1983年，苹果公司受到仙童公司著名STAR计算机的启发，在当年推出的Lisa计算机上使用鼠标作为GUI界面的控制器。这款计算机虽然不成功，但它为次年推出的Macintosh以及macOS操作系统提供了经验，从而开启了鼠标技术的黄金时代。这时候的鼠标还是老式的机械式鼠标，但已经有所改进。鼠标球取代了不灵活的单滚球，单键设计被更加灵活的双键/三键所取代，可供电的标准RS232串行口取代了早期的独立接口，现代鼠标的基本结构已经成型，如图1-11所示。

图1-11 Apple Lisa计算机的鼠标

1995年，台湾KYE Systems（昆盈企业）开发了第一款现在意义上的滚轮鼠标——Genius EasyScroll。它在两个标准鼠标按键间加了一个胶化塑料滚轮，滚动它就能够轻易地滚动窗口页面，这个滚轮也可以当作按键使用。1999年，微软发布带滚轮的光学鼠标IntelliMouse Explorer（图1-12）配合Office 97使用，才将滚轮推广开来。此后，滚轮成为鼠标的标准配置零件。

图1-12 微软发布的IntelliMouse Explorer

1.4.3 从命令行到图形化用户界面

1.命令行用户界面

在图形化用户界面出现之前，计算机采用DOS（Disk Operating System，磁盘操作系统）系统管理文件。DOS主要是一种面向磁盘的系统软件，简单来说，DOS就是人给机器下达命令的集合，是存储在操作系统中的命令集，有了DOS，我们就可以更容易理解怎么给机器下命令，不必去深入了解机器的硬件结构，也不必去死记硬背那些枯燥的二进制数字机器命令，只需通过一些接近英语词汇的DOS命令，我们就可以轻松地完成绝大多数的日常操作。典型的DOS系统操作界面如图1-13所示。

图1-13 DOS系统操作界面

DOS操作系统界面被称为命令行界面（Command Line Interface，CLI），其交互方式建立在预先定义的一系列文本命令上。用户需要清晰、一字不差地记住所要使用的命令及其输入格式，才能流畅地使用该操作系统。这种交互界面的记忆负担重，用户容易出错。

2.图形化用户界面

计算机操作系统历史上的第一款图形界面是Xerox Star，如图1-14所示，它由施乐公司的帕洛阿尔托研究中心（Palo Alto Research Center，PARC）于1973年设计。自此以后，计算机操作系统开启了图形化用户界面（Graphical User Interface，GUI）的新纪元。

1983年1月，苹果公司结合硬件、操作系统、办公软件，设计出了强大的文件处理工作站Lisa。1984年苹果公司乘胜追击，发布了Macintosh I，如图1-15所示，它已经有了现代操作系统的一些特点，当插入磁盘时可以直接在桌面上看到，方便存取文件。双击磁盘图标，打开一个文件窗口，同时伴随着缩放效果。文件和文件夹都可以被拖曳到桌面上，也可以通过拖曳来复制或移动文件。默认状态下，文件夹以图标方式查看，还可以根据文件大小、名字、类型或日期来排序，通过单击图标下面的名字可以输入新名称来对文件重命名。到1987年，苹果发布Macintosh II，即第一代彩色操作系统，支持24位颜色显示。

图1-14 Xerox Star操作系统

图1-15 Macintosh I操作系统

1985年，微软发布了它的第一款操作系统——Windows 1.0，如图1-16所示。该系统可以在一个窗口中同时运行多个DOS程序，在一个对话框中呈现选项按钮、复选框、文本框和命令按钮，记事本上甚至可以显示文本缓存中还有多少剩余空间。

图1-16 Windows 1.0操作系统

图形化用户界面包含的主要交互元素有“窗口”（Window）、“图标”（Icon）、“菜单”（Menu）以及“指示器”（Pointer），这一沿用至今的界面模式被称为WIMP范式。WIMP界面的设计思想被称为桌面隐喻（Desktop Metaphor），是指以现实世界中已经存在的、人们熟知的事物为蓝本，设计用户界面中的图形化交互元素。相比于命令行界面，图形化用户界面基于隐喻向用户呈现可以执行的交互操作，用户基于对图形化界面的理解展开交互行为，不必再精确记忆操作指令。因此，GUI的隐喻设计非常关键，它决定了用户是否能正确、及时地理解界面的含义。

1.4.4 从多点触摸到自然交互

1.触摸交互技术

图形化用户界面使计算机从科研机构和大学走向寻常百姓家，但鼠标和键盘依然需要经过学习之后才能使用。触摸屏技术使用户可以用笔或手指直接操纵计算机屏幕所显示的对象，大大降低了学习成本。在大部分消费者记忆中，使触摸屏技术真正走入大众视野的产品应是苹果公司在2007年发布的iPhone手机。然而，在此之前，其他计算机厂商和手机企业已在很多产品中有过尝试。

最早的触摸屏技术研究可以追溯到20世纪40年代，但直到1965年，约翰逊（E.A.Johnson）才发明了第一个真正可用的手指式电容触摸屏。1970年，塞缪尔（G. Samuel）博士发明了首个电阻触摸屏，在触摸屏的早期阶段，电阻触摸屏因其成本低廉且耐用很快占领了市场。第一个多点触摸屏出现于1984年，贝尔实验室在CRT上叠加了触摸传感器透明电容组，使用户能够用手指操作图形对象，并且时间响应很快。这一发明正是我们今天在平板及智能手机上所应用的多点触摸技术的雏形。

1993年，IBM和贝尔南方共同开发了Simon通信设备（图1-17），这很可能是世界上第一款智能手机（尽管当时还没有这个名词）。它不仅能翻页，还集成了收发E-mail、日历管理、预约计划、电话簿、计算器以及笔写式画板等多种实用功能。它还有一个电阻性触摸屏，支持用户利用手写笔操作菜单并输入数据。

图1-17 IBM和贝尔南方共同开发的Simon

同一年，苹果公司发布了它的个人数字助理——Newton PDA（Personal Digital Assistant）。尽管Newton平台开始于1987年，但MessagePad 100（图1-18）才是首个搭载该系统的苹果设备。正如《时代杂志》所说，当时苹果公司的CEO事实上创造了“PDA”这一专门术语。MessagePad 100带有手写识别软件，通过手写笔来进行操作。

图1-18 苹果公司的Newton PDA MessagePad 100

三年后，Palm Computing公司推出了他们的PDA，称为Pilot（图1-19）。正如在它之前的触摸屏装置，Pilot 1000和Pilot 5000也需要用手写笔进行操作。Palm Computing公司的PDA设备比IBM及苹果公司的产品更成功一些，很快就成为“商务”的代名词，这很大程度归功于其手写识别软件的良好工作性能。

图1-19 Palm Computing公司的Pilot

真正引爆触摸屏手机市场的是苹果公司在2007年推出的具有高分辨率、多点触控功能的第一台iPhone（图1-20），它真正确立了触摸屏的标准。

图1-20 苹果公司发布的第一代iPhone

今天，触摸屏产品的应用已由小尺寸触控产品（如手机、数码相机等）渐渐扩大到中大尺寸，如POS机、工控计算机、触摸一体机等（图1-21）。

图1-21 大尺寸触摸屏产品

触摸屏技术使人使用计算机的技能要求大大降低。下至蹒跚学步的孩童，上至皓首苍颜的老人，都能很快学会触摸屏的操作指令。加之移动互联网和智能手机的普及，现代化的信息技术很快普及大众，为所有人的生活带来了便利。各种移动应用程序应需而生，这也进一步扩大了人才市场对用户界面设计、用户体验设计、交互设计人才的需求。

2.自然交互

自然交互（Natural Interaction）是相对于传统人机交互方式提出的概念，其“自然”之处在于，用户不再需要花费时间学习使用传统的人机交互设备（如鼠标和键盘），而是基于自身与生俱来的能力与计算机进行交互（如说话、做手势、变化身体姿态、转动眼睛等）。从这一角度来讲，触摸交互技术也属于自然交互的一种。当然，触摸屏界面设计也存在一些需要用户学习或仔细探索之后才能发现的操作方式，如长按、双击、双指/三指滑动等。

与自然交互相伴随的概念是自然用户界面（Natural User Interface，NUI）。它指帮助用户实现自然交互的人机交互媒介。与CLI和GUI的差异之处在于，NUI更多地指帮助用户输入指令（如语音、手势、姿态、眼动、表情、脑电波等）到计算机的界面。用户基本上不需要经过专业的训练就可以利用这些界面控制计算机，但更多的工作交给了人机界面设计与开发工程师，例如编写语音识别与分析软件、设计人机对话流程、制作合成语音、编写手势识别程序、将手势转化为控制指令等。

近年来发展最为迅速，商业运用较为成功的自然交互技术当数语音交互。语音交互系统发展的历史并不短，早在1952年，贝尔实验室就开发了能够识别阿拉伯数字的系统Audrey。1962年，IBM发明了第一台可以用语音进行简单数学计算的机器Shoebox（图1-22）。在发展了半个多世纪后，语音交互仍没有达到成熟应用的水平，语音的识别和理解的正确率和准确率依然有待提升，文本生成语音的自然度和流畅性也影响着用户的听觉体验。

图1-22 IBM发明的Shoebox

如图1-23所示，一套完整的语音交互系统有三个典型模块：语音识别（Automatic Speech Recognition，ASR）将声音转换成文字；自然语言处理（Natural Language Processing，NLP）及对话管理将文字的含义解读出来，并给出反馈；最后通过文本-语音转换（Text to Speech，TTS）将反馈内容转换成声音，最终播放出来。

图1-23 语音交互的典型模块

直到20世纪90年代，语音交互技术才得以商业化应用——交互式语音应答系统（Interactive Voice Response，IVR）。它可以通过电话线路理解人们所说的话并执行相应的任务，广泛应用于运营客服方面。目前，大部分商业化的客服还是采用了这种语音应答系统。但是通过电话拨号的方式与语音问答系统进行交互还存在很多缺点，例如只能应用于单轮任务的问答、交互方式比较单一、不能中途打断等。

随着技术的发展，各种操作系统服务商都研发出了自己的语音助手，例如微软的Cortana、谷歌的Google Assistant和苹果的Siri。这些语音助手集成了视觉和语音信息的应用，可以同时使用语音和屏幕交互，是一种多模态用户界面。这些系统都支持多轮对话，但是对用户语音理解的准确性和效率依然是技术瓶颈。

近几年，各大公司都研究出了自己的智能家居音响产品，例如Amazon Echo、Google Home、Apple Homepod、阿里巴巴集团的天猫精灵等纯语音设备（图1-24）。作为新的入口，语音交互提供了更灵活的交互方式。终有一天，人们会放弃屏幕和手势操作，通过语音技术远距离控制设备，这也是各大公司抢占语音交互系统市场的原因之一。

图1-24 智能语音音响（从左至右：Amazon Echo、Google Home、天猫精灵、Apple Homepod）

语音交互有其独特的优势：解放双手，无接触空间限制，远场（有限距离）可交互；指向明确，语义直达目标，使用路径简短；自然、简单、人性化，学习成本低；可以一对一，也可以一对多交互；对设备要求低。但也存在有一些劣势：不适用于选项多、流程长、需要大量信息辅助用户制定决策的交互任务；远场语音交互对距离、噪声、混响、声源数量等有一系列要求；一般不适用于公共场所，尤其需要保持安静的场所（图书馆、会议室）；需要用户有清晰的表达能力和正常的听力以及对语音内容的理解，需要针对特定语言语种单独开发系统、识别效率受用户的发音和地方语言的影响；输出信号单一，表现力有限等。未来对于语音交互在软件系统设计中的应用，还应该考虑用户隐私保护、避免强制推送等问题。