人机共协计算最新章节_任向实著

2.2　人机交互发展中的重要思考

人机交互的范式迁移呈现了学术与工业界对于宏观计算机领域与交互发展的理解方式。本节将从一些人机交互领域的先驱者及其理念中探寻其对于人机交互的思考基础和研究动机，及这些思考有怎样的指导意义，并简要说明其与人机共协计算理念之间的关系。

2.2.1　人机共生

20世纪60年代，计算机技术的主流交互方式还处于“批处理”阶段，大量的输入输出操作都需要通过打孔卡或纸带完成，不仅耗时极长，而且只要出现任何小错误，都可能前功尽弃。而在当时的冷战背景下，这种低效操作无疑会对实时判断造成极大影响。针对这个问题，心理学家、计算机科学家约瑟夫·里克莱德（J.C.R．Licklider）首先采用了分时系统设计允许多终端与同一主机相连接，多个用户能够直接输入指令，通过利用处理器与输入输出（IO）设备的处理时间差，用户能够无等待感得到结果。分时系统为用户提供了高效的可用性与流畅体验，使计算机在大众普及上得到了进一步发展。

以分时系统为代表的交互实践为基础，里克莱德构建了以“人机共生”（Man-Computer Symbiosis）概念为核心的理论（Licklider，1960），希望人和计算机根据各自的优势、属性并考虑人类的主体地位来共同工作。“计算机处理问题的方式可以帮助促进人的形式化思维，人与计算机能够在决策和控制复杂情况方面进行合作，而又不会僵化地依赖于预先确定的流程”，里克莱德认为：“……人的角色在于制定目标、拟定假设、确定标准并进行评估，而计算机则是执行例行工作，为技术和科学思考中的洞见与决策做必要的准备……” 。里克莱德并没有期望“人机共生”的实现是一项短期任务，从今天的视角看，他预测人机关系的发展将分为三个阶段（Grudin，2017）：第一阶段是人机交互（Human-computer interaction），第二阶段是人机共生（Human-computer symbiosis），第三阶段是超智能机器（Ultra-intelligent machines）。而他对第二阶段的开发和使用给出了5—500年的范围。在后来的工作中，里克莱德领导的部门又从分时系统中衍生出了互联网的雏形阿帕网（Arpanet），贯彻了“人机共生”理念的交互式计算机、直观界面和网络连接让人与计算机在一种协作关系中共事成为可能。

实际上，关于智能和“人机共生”的洞察可追溯至诺伯特·维纳（Norbert Wiener）。作为控制论（Cybernetics）的提出者，维纳认为人应该参与到整个控制系统中：“许多人认为（机器）是智能的替代品，便减少了对原始思想的渴求……，但情况并非如此……”。里克莱德赞同维纳建立在人机密切合作基础上的控制论理念，而非像马文·明斯基（MarVin Minsky）和约翰·麦卡锡（John McCarthy）那样积极寻找人工智能，以求其能够学习并模仿人类的认知机制。

“人机共生”的概念在人机交互领域始终是里程碑式的思考。即使今天，仍然有许多新的理念以“共生”为基础对人与计算机的关系进行思考，其中一个例子是“人机统合”（Human-Computer Integration）（Farooq & Grudin，2016）。人机统合认为传统的交互可以被描述为刺激与响应之间的关系，而人与计算机的统合则意味着相互依存的伙伴关系（Partnership），合作伙伴可以围绕彼此的存在活动提供帮助。从交互到统合的发展是一个连续的过程，也就是说，人机统合可以扩展人机交互，但不能代替交互。设计师、开发人员、研究人员、产品经理、企业家或用户，可以通过理解进一步的人机统合语境来设计或改善人机交互。

无论是术语“共生”还是“统合”，都与提倡“人和计算机／数字设备之间的‘共协’或‘共生’交互”的人机共协计算密切相关，即人和计算机需要根据各自的优势、属性、意义，并以人类为主体共同工作。但对比“人机共生”“人机统合”等概念，人机共协计算引入了东方哲学里的中庸思考，强调人和计算机之间的有机平衡，更突出两者应进一步互相提升，纠正了过去“共生”表达中潜在的对削弱人类能力和损害人类意义的忽视。传统人机交互思维中的共生如“阴”与“阳”彼此联系却分隔，而在更加平衡的系统中，对于“共生”的理解不仅应适当考虑人机关系的积极潜力，还要考虑其交互中的消极影响。鉴于此，人机共协计算引入“相克”（Antibiosis）概念作为人机交互发展、研究、评估和设计的重要考量因素。通过将“相克”纳入人和计算机关系的研究领域，研究与开发人员的意识范围将从传统人机交互的二元关系扩展到更加实际的人类社会视角。

2.2.2　增强人类智能

1945年，万内瓦尔·布什（Vannevar Bush）在《大西洋月刊》（ Atlantic ）上发表了《诚如所思》（ As We May Think ）一文。作为“曼哈顿计划”的组织者及日后美国自然科学基金会的创立者，他发现随着科学研究的不断扩大与深入，自然的知识交流方式已经无法让科学家成为跨领域的通才，大规模的科研合作不可避免；但面对科学家背景之间的差异，如何促进其合作成为问题的关键。这一切表明，生产力的发展不再是仅依靠有形的资源，而更重要的是如何管理科研与知识这些无形资产。在世界上第一台真正意义的计算机ENIAC诞生前几个月，他在这篇文章中提出了“记忆拓展机”（Memex）的概念。

Memex以办公室桌面为原型，设想了一整套有关于输入、存储、处理和输出知识的流程，并期待这台机器能够集中存储全人类的知识成果，同时也支持为个人建立数据库，存储其所有的私人材料和通信记录，并提供高速而灵活的检索方式，故名“记忆拓展机”（Bush, 1945）。由于时代局限，布什所设想的技术细节更倾向于当时成熟技术的组合。例如，通过微缩照相机来对资料拍摄存储，以小份的胶片拷贝进行流通。尽管后来的计算机发展方向并不如此，甚至大幅超越了布什的想象，但Memex的构想对于后来的许多计算机科学家都产生了深刻影响，其动机与架构都成为了现代计算机的原型起点之一，如桌面隐喻（Desktop Metaphor）。Memex将知识的管理方式映射到机器上，而这本身已超越了传统范式下的机器概念，它传递了一种理解方式，更体现了一个新的时代的到来。

道格拉斯·恩格尔巴特正是Memex的关注者之一，他意识到处理信息的本质在于如何支持人类更好地合作处理复杂问题。立志于此，恩格尔巴特将一个初始但系统的想法写在了他的论文《提升人类智能：一个概念性框架》（ Augmenting Human Intellect: A Conceptual Framework ）中，并一直进行后续实践。恩格尔巴特表明其不会寻求以人工智能取代人类思维，而是通过将人类的直觉思维与计算机的抽象和处理能力结合起来，形成一个统一的场使人与计算机共存。他在文章中列举了许多案例来说明提升人类智能的潜在应用，例如，设计师如何通过计算机辅助构思建筑设计，或专业人士如何灵活撰写图文并茂的报告等（Engelbart, 1962；Isaacson，2014）。

恩格尔巴特的工作获得了里克莱德所领导部门的认可和资助。随后在1968年，恩格尔巴特发布了他的在线系统（oNLine System），这场发布会日后被称为“所有演示之母”（The mother of all demos）。在这场发布中，恩格尔巴特与同事展示了包括鼠标、远程控制、版本控制、超文本等在内的一系列概念。相对于人工智能（Artificial intelligence，AI），其揭示了计算机的另一条发展道路：智能增强（Intelligence Augmentation，IA）。如今，我们可以在任何一台计算机上看到恩格尔巴特理念的影子，虽然他的理念全貌仍难以窥见。例如，恩格尔巴特希望充分开发人的能力，为鼠标设计尽可能多的按键从而调动人的所有手指，同时希望促进尽可能多的合作来作为增强人类智能的关键，包括而不限于人类之间的合作、感官之间的合作、人机之间的合作；在恩格尔巴特的远程控制中存在两个鼠标指针，允许双方可以同时对计算机进行控制。至今仍有研究团队在继续着恩格尔巴特的理想，Dynamicland项目便是其中之一，其创始人布雷特·维克多（Bret Victor）曾评价：“恩格尔巴特的愿景，从一开始便是合作。他憧憬人们能够在共享的智能空间中一起工作，他的整个系统正是围绕此而设计” 。

演示之母发布会深刻影响了当时还是学生的艾伦·凯（Alan Kay）。若干年后，凯就职于Xerox Prac研究中心，开始真正意义上设计他理想中的个人平板电脑Dynabook，就此发表了一篇题为《一款适合各年龄儿童的个人电脑》（ A personal computer for children of all ages ）的宣言性文章（Kay，1972）。凯认为相比于为某种任务而生的工具，计算机这种可编程的“媒介”更应作为增强个人创造力和验证经验的工具。基于教育学家西摩·佩珀特（Seymour Papert，LOGO编程语言的设计者）对他的影响，凯意识到通过个人电脑改变儿童思考方式的巨大潜力。其所预想的Dynabook在硬件形态层面为触屏平板电脑；而理想的图形界面作为软件操作系统层面的人机接口，实际上包括了一整套包括视觉图形展示——窗口、图标、菜单、指针（WIMP）——的桌面隐喻（Desktop Metaphor）、“所见即所得”且支持“面向对象编程”（OOP）的直观交互在内的理念，归结在一起成为了后来的HCI里程碑之作“图形用户界面”（Graphical User Interface，GUI），以另一种方式实现了布什所设想的MEMEX原型，为个人计算的兴起做了铺垫。

而在谈论这些具体的成就之外，可能有4个方面的思想来源影响了凯。第一是认知理论的发展，从皮亚杰的认知发展理论的提出、布鲁纳的学习理论、麦克卢汉的媒介理论到上述提到佩珀特的LOGO原型的实现等，凯理解到了人类得以进步的认知和教育基础，以及使其具象化的可能方向；第二是恩格尔巴特所演示的在线系统（其思想又延自人机共生和记忆拓展机），向凯展示了计算机作为一种人类智能提升工具的强大潜力，以及图形界面的早期设计思路；第三是来自于其导师伊凡·苏泽兰（Ivan Sutherland）的“Sketchpad”，此设计不仅提出了光笔交互对于图形的操作方式，更通过图形学理论层面不同基础形状的继承关系体现了面向对象的思想萌芽；第四是凯本科的生物学背景，例如，细胞之间的递质通信可能促成了编程交互的机制设计（凯所设计的Smalltalk的本质在于面向消息而非面向对象）。以上思想脉络交织在一起很可能塑造了凯对于个人计算、面向对象编程等具体实现的设计思考，甚至可以说这些成果是同一思想基础下的不同体现，也展示了——至少作为一名人机交互研究者——思想指导实践的力量所在。

此外，艾伦·凯的思想并非只是关于技术的，而是更多关于人和人类进步的。艾伦·凯曾分享过他对于所谓“人类普遍性”（Human Universal）的理解：是所有人类文明都可以自然进化出的能力，如语言、讲故事或制造基本工具等能力，而“非普遍性”（Non Universal）却并非如此，如写作、推理或基于模型的科学建构等能力。作为评估一项设计是否代表进步的标准，一种工具应有助于提升人类的“非普遍性”能力。凯举例说明了他对于电报为何优于电话的看法。他认为电话的发明只是延续了人类通用的口语能力，而电报却促进了“非普遍性”的人类写作技术。另一个例子是关于印刷术在用来传播知识之前，主要被用作印制《圣经》，而本质则是如何转换思考方式来看待工具的存在。这种观点实际上并没有忽略新工具诞生的意义，而是更多地关注一种新视角的产生可能会更大程度地帮助人类自身。50年前的Dynabook作为艾伦·凯的主要思想，意在成为一种支持“边做边学”“所见即所得”的思想工具，同时帮助儿童在编程实践的过程中验证真相，成为能够识别优质信息的“媒介游击队员”，而不仅仅是发明另一台物理上的新计算机。时至今日，凯也仍然在宣传他对于未来的理念（Kay, 2019）。

从布什到恩格尔巴特，再到凯，他们为我们展示了一条人类智能增强之路，即机器对于人不仅是一种简单的工具性使用（Instrumental Use），更可以作为提升人类能力的媒介。他们的思想、模型、应用具有很强的传承性，这种传承性不仅体现在时代的推动上，更是他们工作中的关键词，如对“智能”的发展和理解，以及其对人类进步评价标准的把握。如今，他们所构想的许多概念已成现实，但对于计算系统的设计，推出一种新的硬件设备、抑或一种新的使用体验、满足一方需求等，可能都不能直接算作“进步”的评价标准；而是当造物本身承载作为一种思想工具、为世界提供一种看待视角，作为整体的结果才可能会促进计算机的进一步发展。当然，作为一个整体，那段历史时期背后可能存在的思想和文化浪潮也对上述先驱的思想和实践产生了影响。另外，计算机之所以能成为先驱一致选择提升人类智能的工具，相比于传统机器，从人机交互的角度看，可以归结为三个基本特性。

（1）可积分性：计算机允许构建一个平行世界的各种可能性，不管是图形界面在每一个像素点上的渲染，还是关于元宇宙的种种畅想，实则是基于计算／计算机运作机制（如比特）的这一前提。

（2）可编程性：编程的出现允许计算作为通用机器取代了传统的专用机器，而硬件上无论是个人计算机还是触屏的出现都支持了计算的这一特性，这同样也是计算机无限潜力的一部分。

（3）可编码性：如果说计算理论支撑了上述两个特性，那么信息论下的可编码性则支持了信息之间的转译与流通。编码不仅促进了联机层面上信息的流转，更打破了人类语言和机器语言的壁垒，使二者互相理解，而无论是文字、图形界面还是手势交互都是编码这一特性的延伸。

增强人类智能的整体思想放在今天依然有很强的指导意义，可以从其思想脉络中看到机会。人类当前的主流操作系统图形界面设计范式（如iOS、Windows、macOS，甚至空间操作系统）可以说都基于凯和同事所贡献的桌面隐喻，尽管这一设计又已经发展了数十年，但桌面隐喻之所以作为范式的成功本质体现在三个方面：①桌面隐喻建模贴近生活经验，足够简单、直观、易学；②桌面隐喻作为底层抽象，拥有足够的符号接纳能力，作为操作系统级别的基础，能够兼容顶层复杂应用的表现；③桌面隐喻之后（或在整个HCI历史上），几乎没有更强大的范式竞争者。

然而，桌面隐喻也存在三个方面的问题：①其将世界抽象局限于二维平面，表达能力可以说仍然有限。一方面，世界并不只是桌面，对此马克·维瑟（Mark Weiser）提出了Ubicomp进行反驳，将在2.2.3节展开解释；另一方面，人也不是桌面，当将人对世界的感受完全抽象在二维的图形概念上时，人的异化便潜移默化开始了。②其深入的理论意义有限。桌面隐喻背后的思想基础，一方面来自恩格尔巴特所展示的在线系统，另一方面则来自认知、教育及心理学相关理论。然而这些理论背景并没有呈现一个更加系统的哲学性质的人类语境，提升人类智能可以作为目标，但没有触及人的本质和真正问题。③由于桌面隐喻作为系统级设计“人工物”的极大成功，导致研发者很难意识到对于概念的不断向外探索对人会产生的微妙影响与问题，从而无法突破范式本身。这些问题会在第3章继续探讨。

设计软件系统，尤其是用户界面，实际上反映了理解人与世界的一种方式。单从技术的角度看，人机交互作为输入输出方式的研究并未有什么特殊之处；技术的功能面及信息架构的背后传递的思考方式才是最重要的。随着时代发展，需要重新理解人和智能分别是什么，提升人类智能的方式是怎样的，是否有比智能更重要、更根本的东西。相比于人类智能增强的概念，人机共协计算将人的心智，而非智能作为最为更本质的层面进行讨论，因为对于长期任务来说，人的心智发展才是支撑其外部表现的基础。

2.2.3　Ubicomp、社会计算和具身交互

20世纪90年代初，Xerox PARC研究院的马克·维瑟（Mark Weiser）认为基于传统桌面隐喻的交互系统已不足以支撑计算机的发展，未来的计算形式不应局限于具体的外在形式，计算机也不同于单一功能的工具，计算应无处不在。维瑟写道：“未来计算机应当如何？是智能代理吗？多媒体还是虚拟现实？……我认为“以上皆非”，因为这些概念有一个共同缺陷：它们让计算机变得可见”（Weiser，1994）。Ubiquitous Computing（Ubicomp）的概念应运而生。Ubicomp的中文翻译更多见为“普适计算”，但维瑟更想强调的是隐形计算（Invisible Computing），希望将计算机嵌入任何对象和设备中，从而最低限度地减少技术对于人的注意力的分散，使人真正聚焦在任务上。今天，各种用途的移动计算设备、物联网和传感器等无处不在，这些都离不开业界对于Ubicomp概念的理解和发展。Ubicomp的概念也影响了后续一批人机交互理念的产生、发展和融合，如移动计算（Mobile Computing）等。

相比桌面隐喻作为一种设计范式，Ubicomp所展示出的形态隐喻可以说并无固定形态，而今天所看到的移动互联网实际上也仍延续着桌面隐喻的设计思想，但Ubicomp之所以成功，其原因在于：①补充了个人计算机的定位缺失部分，如作为传感器、附件和基础设施等；②硬件形态和功能体量不受约束，因此有更大的自由空间。然而，它的局限性也因此产生：因其需求而异的表现形式，这意味着Ubicomp很难向更有深度的系统级设计理念推进。这种深度不在于支持多少功能，而在于如何体现出一种面向人类本性和人类能力的思想表达，这种表达可能暂时仍无法离开以系统级软件为核心的用户界面参与。换句话说，Ubicomp的核心理念更强调不分散人的注意力的计算设备和基础设施，而非人。桌面隐喻和Ubicomp需要找到统一点，并共同寻求以更深层次的人类本质作为其建构基础。

Ubicomp之外，如2.1节所述，第二次HCI范式变革始于认知心理学对其产生影响，但人机交互在壮大过程中也逐步吸引了社会学家的加入，并引入了大量社会学和人类学方法。在这些因素的共同作用下，社会计算（Social Computing）概念应运而生。正因为用户使用计算机的方式不仅源自自身，同样受到所在关系网络与环境因素的影响，社会计算试图将社会学和人类学中的技巧和设定引入到系统设计和现象分析中，例如通过民族志、田野调查等方式确定系统设计和特定群体的必要需求和特点等。在社会计算中，最有影响力的分支是计算机支持协同工作（Computer-Supported Cooperative Work，CSCW）。相对于针对个体的研究，CSCW更倾向于研究计算技术如何支持团体、组织和社区，自然而然地，转向对社会学方法中的协作和组织行为研究的兴趣（Grudin & Poltrock，2012）。

20世纪90年代末，保罗·道里什（Paul Dourish，2001）认为包括Ubicomp在内的可触控计算理念所展示出的人类身心协调性对直观交互的启示，以及社会计算理念所透露出的交互行为及其社会意义等，这些线索需要一个更大的框架进行概括。受到知觉现象学研究方法的启发，他进而在2000年初提出了具身交互（Embodied Interaction）框架，着眼于一种“身心合一”的交互感知与意义之间的连接及延伸出的现象整体性。具身交互主张技术、实践和环境是不可分的，这些作为现象的一部分共同延伸和发展，并将其中所有涉及因素看作一个整体。而在这个框架下，自然交互、示能（Affordance）、用户体验等人机交互概念的理论基础得到了进一步完善。

总体看来，这些观点旨在帮助研究者拓展对于人机交互的进一步理解，并试图通过大场景下获取人与社会对于计算机的需求与使用习惯，将计算融入生活中的每一处细节。这些观点，尤其是具身交互和人机共协计算有相似之处，但其并未明确表示对于人的能力，尤其是心智能力的理解和发展。

2.2.4　以人为中心的计算、用户体验和积极计算

如2.1节所述，第三次和第四次人机交互浪潮主要推动了以人为中心的核心设计理念，并衍生出多个类似概念。

在以人为中心的计算（Human-Centered Computing）视角的相关研究中，存在许多概念性主题。例如，罗布·克林（Rob Kling）和苏珊·利·斯塔尔（Susan Leigh Star）所倡导的人本系统（Human-Centered Systems），其关注于开发更好的支持用户活动的技术，引领了人机交互思考的第三次范式迁移；阿伦·博宁（Alan Borning）的价值敏感设计（Value Sensitive Design），其重点是通过了解用户价值来开发改进技术等。而近些年来，关注构建以人为中心的人工智能也逐渐进入了人机交互视野（Xu，2019；Shneiderman，2023），尽管学者对于该主题的理解不尽相同，但以人为中心的理念用于AI上，普遍关注三个主题：AI的潜在用处、负责任的监管、不可替代人类的伦理问题。

另一个重要概念是用户体验。用户体验概念在Technology as Experience一书中被系统性地提出（McCarthy & Wright，2004），其理论根源之一来自于美国哲学家杜威在Art as Experience中对于体验（或经验）的理解。他认为随着人对于某一日常活动在身体或认识层面的不断积累，其所对应形成的体验在充分融入当下活动时达到顶峰，从而最终形成人对于美的认识，也被称为一种完满体验。而此书则倡导技术也可以通过完善其用户体验成为这样一种载体和环境。作为人机交互第三次和第四次范式变革中的重要组成部分，用户体验旨在帮助用户在交互过程中，满足其可用性、情感和满意度等整体体验方面的需求（Hassenzahl & Tractinsky, 2006），同时也成为了当下工业界最为流行的评价体系之一。

此外，以积极心理学为理论基础，拉斐尔·卡尔沃（Rafael Calvo）和多里安·彼得斯（Dorian Peters）提倡的积极计算（Positive Computing）旨在开发技术以提升人类福祉和发展人类潜力（Calvo & Peters，2014）。在这一点上，积极计算和人机共协计算有着相似的观点。

以上三个概念都是在当下浪潮中以人的角度出发思考技术设计，但回溯这些概念的思想根源，仍需要对人有更进一步的理解：①当谈论以人为中心时，就不得不提到马斯洛的需求层次理论——生理需求、安全需求、社会需求、尊重需求和自我实现需求，然而尤其是最后一层，关于自我实现或超越的去向何如，仍需更明确的理论和方法论来应用至人机交互；②积极心理学和积极计算讲求通过建构“意义”来使人获得幸福，然而这可以作为一种手段，但对外在意义的不断追求很可能会让人越来越找不到其根本，简而言之，意义重要，但并非一切，也容易进入误区；③用户体验的本质实际上很难用语言表达，有时在实践中容易被扭曲（例如，被窄化理解为情绪），进而导致用户成瘾或不合理的欲望越来越大。需要强调的是，这些设计理念的初衷有其先前的时代背景，然而面对一个越来越“产能过剩”的年代和越来越饱和的市场，概念中对人的理解需要进一步说明或规范，否则就存在被滥用的风险。

2.2 人机交互发展中的重要思考

2.2.1 人机共生

2.2.2 增强人类智能

2.2.3 Ubicomp、社会计算和具身交互

2.2.4 以人为中心的计算、用户体验和积极计算

2.2　人机交互发展中的重要思考

2.2.1　人机共生

2.2.2　增强人类智能

2.2.3　Ubicomp、社会计算和具身交互

2.2.4　以人为中心的计算、用户体验和积极计算