



随着大语言模型(LLM)技术的突破,人工智能正从“语言专家”演变为具备行动能力的智能体。大语言模型驱动的图形用户界面(GUI)智能体革新了传统GUI的自动化方式,不再依赖脚本或规则,而是通过自然语言理解、屏幕解析和自主决策,高效、灵活地执行任务。本书系统介绍这一新兴领域的发展背景、核心技术与应用场景,涵盖GUI智能体的架构设计、数据采集,以及大行动模型(LAM)的构建、关键评估指标和应用,帮助读者掌握GUI智能体的完整方法论,并深入探讨GUI智能体当前面临的挑战与未来的发展趋势。
全书配有丰富的图示与实践案例,涵盖多种真实场景下的GUI智能体自动化方案,帮助读者轻松上手。针对研究人员与开发者,本书提供了示例代码与实践指南,从系统搭建到核心算法调参,都配有注释。对于希望提高企业自动化能力的工程师,也可借鉴书中切实可行的落地经验。针对复杂的跨平台操作或大规模界面测试,本书给出了行之有效的思路与实现路径,使GUI智能体自动化不再是遥不可及的概念。