



本章首先回顾了人机交互从命令行到GUI的演进,分析了二者在易用性与效率之间的取舍,并指出了GUI在批量操作和动态场景中的局限性。随后,聚焦大语言模型的核心特性——海量参数与数据、丰富的知识库、上下文学习、复杂推理、指令遵循与工具调用——阐述了它们如何推动模型从被动的文本生成迈向主动的环境操作,并催生了办公自动化、软件辅助、跨平台操作等多种智能体应用。
在此基础上,本章重点介绍了“大语言模型驱动的GUI智能体”这一新兴范式。它摒弃了固定脚本和专有API,通过将对界面视觉信息的感知能力与自然语言理解能力深度结合,实现了跨应用、跨平台的指令执行。与纯API驱动的智能体相比,GUI智能体适用范围更广、操作流程更直观,但需要应对界面变动敏感和执行效率有瓶颈的挑战。
接下来的章节将从底层技术原理到典型应用案例,循序渐进地阐述如何将“大语言模型+可视化交互”融入智能自动化解决方案。本书旨在为读者提供翔实的指导,帮助读者深入理解并掌握GUI智能体的核心技术与实践。本章的回顾与分析,也为后续对该领域的设计原理、技术实现和案例研究的探讨奠定了坚实的理论与历史基础。