
内容简介:随着大语言模型(LLM)技术的突破,人工智能正从"语言专家”演变为具备行动能力的智能体。大语言模型驱动的图形用户界面(GUI)智能体革新了传统 GUI 的自动化方式,不 再依赖脚本或规则,而是通过自然语言理解、屏幕解析和自主决策,高效、灵活地执行任务。 本书系统介绍这一新兴领域的发展背景、核心技术与应用场景,涵盖 GUI 智能体的架构设计、 数据采集,以及大行动模型(LAM)构建、关键评估指标和应用,帮助读者掌握 GUI 智能体 的完整方法论,并深入探讨 GUI 智能体当前面临的挑战与未来发展趋势。 全书配有丰富的图示与实践案例,涵盖多种真实场景下的智能 GUI 自动化方案,帮助读 者轻松上手。针对研究人员与开发者,本书提供了示例代码与实践指南,从系统搭建到核心算 法调参,都配有注释。对于希望提高企业自动化能力的工程师,也可借鉴书中切实可行的落地 经验。针对复杂的跨平台操作或大规模界面测试,本书给出了行之有效的思路与实现路径,使 GUI 智能体自动化不再是遥不可及的概念。






