



近年来,随着图形用户界面技术与大语言模型的快速演进,人机交互的范式正在经历深刻变革。传统的GUI系统在易用性与可访问性方面具有重要价值,成功吸引了大量非专业用户 [1,2] 。但在多步骤、高度重复性或跨平台操作等场景中,GUI往往在效率与灵活性方面暴露出局限性 [3] 。早期的自动化方案大多依赖固定脚本或规则 [4] ,只能适用于特定界面或预先定义的任务,难以顺应当今应用环境的多变与复杂 [5] 。然而,具有多模态感知能力的大语言模型 [6,7] 能够在理解自然语言的同时识别视觉信息,从而为克服上述局限性提供了新思路,并深刻重塑了GUI的自动化与交互模式。
GUI智能体(GUI Agent)是指能够在图形化界面环境中进行感知、决策与操作的人工智能系统。传统的GUI自动化工具虽能模拟鼠标单击、键盘输入等交互动作,却主要局限在针对固定规则或流程的自动化,缺乏更高层次的语义理解与决策能力,无法很好地应对界面动态变化或满足用户的多样化需求。以大语言模型为“中枢大脑”(brain)的GUI智能体则不同,它将自然语言理解、视觉识别与实时决策执行紧密融合,实现所谓的“ 大语言模型驱动的GUI智能体”(LLM-powered GUI Agent) 。此类智能体无须烦琐的脚本或平台特定API支持,便能基于自然语言请求理解用户意图,并结合对屏幕、软件、系统状态的实时感知,灵活地规划与执行操作,从而实现“懂语言、会操作、能适应”的新一代交互模式。例如,文献[8]指出:
“在GUI环境中运行,并以大语言模型作为核心推理和认知引擎,能够灵活生成、规划并执行动作的智能体。”
如图1-2所示,GUI智能体可以接收用户的自然语言请求,并在多个应用之间无缝协同操作:从Word文档中提取信息、查看图片中的内容、总结浏览器中的网页、阅读PDF文档、在PowerPoint中创建演示文稿,并通过聊天软件发送。在这种新范式下,用户的自然语言指令可以直接转化为对GUI组件的识别、单击、输入和拖曳等操作,大幅提高了图形交互的智能化与自动化水平。与近年流行的API型智能体相比,GUI智能体无须依赖内部或私有的API,而是利用广泛、通用的图形界面实现跨平台操作,因而在广度与适配性上具有极大的优势。实际上,GUI智能体提供了更通用的机制,能在不同软件和操作系统上进行非侵入式控制,为广大开发者提供了在现有应用之上构建增量功能的可能性,也为未来的智能自动化应用奠定了坚实的基础。由此可见,大语言模型驱动的GUI智能体在任务自动化、用户体验与软件生态扩展方面具有重要意义,极有可能成为下一代智能自动化与人机交互的中坚力量。
图1-2 大语言模型驱动的GUI智能体高层概念示意图
GUI智能体的兴起并非偶然,而是多重技术发展的合力结果,包括大语言模型与多模态技术的成熟、自然语言驱动的决策机制,以及传统GUI自动化工具的演进和积淀。
1.大语言模型与多模态融合
早期的语言模型多基于统计方法或小规模神经网络架构 [9] ,受限于数据与模型容量,难以展现出强大的泛化能力。直至基于Transformer [10] 的大语言模型(如GPT系列 [11,12] 、BERT [13] 等)的出现,才让语言理解与生成能力迎来质的飞跃。近年来,ChatGPT [14] 、GPT-4 [15] 等大型模型的成功进一步佐证了规模化预训练与指令微调 [16,17] 的有效性,使模型在自然语言理解、代码生成和推理规划等方面的表现得到大幅提升。此外,越来越多的模型开始支持多模态输入,将视觉信息纳入模型中 [6] ,使其具备“语言+视觉”双向感知能力,这为GUI智能体在复杂界面场景中进行信息解析和精准操作提供了必要的技术支撑。
具体而言,当大语言模型在面对GUI自动化任务时,往往具备以下突出特征。
(1)少样本学习 [18] 。 大语言模型在推理时不需要全面的重训练,只需在上下文提示中给出少量的示例,就能学习并适配新的任务。
(2)指令追随能力 [17] 。 大语言模型经过指令微调后,能够准确地理解和执行用户给定的任务,有助于处理多变的GUI交互场景。
(3)长程推理与规划 [19] 。 面对复杂的多步骤操作,大语言模型可以通过思维链(Chain-of-Thought,CoT)等方式逐步分解问题,进行较为全面的任务规划。
(4)代码生成与工具调用 [20] 。 大语言模型不仅具备语言理解能力,还可以生成代码脚本并调用特定工具,为GUI智能体提供高灵活度的技术实现方案。
(5)多模态信息处理 [6] 。 具备视觉理解能力的大语言模型可以对GUI截屏等图像进行解析,大幅提高对界面布局、元素位置等视觉线索的感知能力。
这些特性使大语言模型能够在GUI环境中适应各种动态变化与复杂的场景,为构建更通用、更智能的GUI自动化方案奠定重要的基础。
2.自然语言驱动的操作与决策
与以往专注于特定领域或规则推理的AI系统不同,以大语言模型为核心的智能体通过自然语言接口来理解用户需求,依此做出决策并执行操作。对GUI智能体而言,其“脑”是大语言模型,用于理解自然语言指令、历史上下文及环境信息;“眼”和“手”则由视觉识别模块、脚本生成器或自动化执行模块构成,帮助智能体读取界面状态、实施鼠标单击或键盘输入等动作 [21,22] 。正因为有了自然语言驱动的操作机制,大语言模型GUI智能体在与用户的沟通与交互方面才更加灵活,也能根据不同任务需求动态调整行为策略,从而解决了GUI自动化的流程固化、上下文理解不足等问题。此外,通过在推理过程中进行链式思考 [19] 或借助长期记忆组件 [23] ,智能体可以更好地分解复杂任务、处理上下文依赖,从而在更广泛的业务场景中实现高水平的自动化。
3.GUI自动化技术
GUI自动化研究自GUI诞生之初便已活跃,最初多用来提高软件的测试效率,通过模拟用户操作(单击、输入、导航)验证应用的功能正确性 [24] 。早期工具多依赖固定界面布局,以脚本或规则等形式模拟交互,有效降低了人工测试的工作量 [25] 。随着应用场景的不断拓展,GUI自动化逐渐在机器人流程自动化(Robotic Process Automation,RPA) [5] 、可用性测试 [26] 等领域得到应用。在此过程中,计算机视觉(Computer Vision,CV)技术得到了广泛应用,以识别界面元素(按钮、图标、文本框等)并确定它们的相对位置 [27,28] ,同时借助光学字符识别(Optical Character Recognition,OCR)读取文本信息 [29] 。然而,传统方法常依赖预先配置的脚本或基于界面坐标、颜色特征的规则,导致适应性、稳健性不足,对界面变动较敏感 [30] 。
随着大语言模型的崛起,GUI自动化面临的最大问题——动态性与上下文理解不足——迎刃而解。通过结合大语言模型强大的语言与上下文推理能力,GUI智能体无须大量硬编码脚本或复杂规则,即可实时生成适应当下界面状态的操作方案 [31] 。当界面布局或元素改变时,智能体可以利用视觉识别模块获取新的GUI截图,并借助大语言模型推断最佳的操作方式,使自动化更具弹性与稳健性。在此基础上,大语言模型还可以支持更高级的功能,如自动编排跨应用流程、根据用户意图进行复杂数据处理或分析等,从而极大地拓展了GUI自动化的应用边界。
如图1-3所示,自2023年起,大语言模型驱动的GUI智能体在学术界与工业界均呈现爆发式增长态势,研究平台涵盖网页端、移动端、桌面操作系统等多种环境,相关论文已超过500篇。代表性工作包括SeeAct [32] 、AppAgent [33] 及UFO [34] ,分别在网页端浏览器、智能手机和Windows系统场景中展示了大语言模型识别界面元素并执行跨页面、多应用操作的强大能力。这些系统让用户仅凭自然语言指令便可完成复杂的GUI交互,堪比影片《钢铁侠》中的“贾维斯”,不仅能理解意图,还能合理规划任务并执行操作,令跨应用自动化成为可能 [35,36] 。
图1-3 近年来大语言模型驱动的GUI智能体演进概览
在工业界,Microsoft Power Automate借助大语言模型技术,进一步提高了低代码或零代码自动化的易用性,使用户可以更轻松地将示例操作转换为自动化脚本。在移动端,荣耀的MagicOS系统也出现了类似的大语言模型驱动GUI智能体,如YOYO Agent [37] ,通过内置的MagicLM实现对多应用的理解与跨应用协同,为移动平台上的虚拟助理提供了新的智能化能力。此外,对企业而言,引入GUI智能体意味着在无须修改源代码或API的情况下,便可对既有软件进行自动化改造和功能扩展,对那些以GUI为主要交互途径的软件生态而言极具吸引力。
总体来说,“大语言模型+GUI”的结合在提高自动化效率、拓展应用范畴及降低技术门槛方面均展现出了巨大潜能。从学术前沿到企业落地,相关研究与实践已经迸发出活力与创新力,促使人机交互从“以人为中心的操作界面”走向“以任务与意图为中心的智能协作”。随着研究人员在可解释性、安全性、价值观对齐和模型可移植性等维度不断深入探索,GUI智能体有望成为推动下一代人机交互模式与软件自动化升级的重要动力。