购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

02 弯道极限超车、击败人类顶级玩家,索尼AI赛车手称霸赛车游戏

图1-4 AI进入赛车游戏领域

许多潜在应用中,人工智能(AI)需要实时做出决策。比如在赛车游戏中,车手必须在挑战车辆极限性能的同时,进行复杂的战术操作。2022年,《自然》杂志以封面论文的形式介绍了AI赛车手GT Sophy,研究人员使用深度强化学习训练GT Sophy,在赛车游戏GT Sport中击败了四名世界冠军级别的人类玩家。研究人员表示,这项研究结果可以改进模拟驾驶系统(用于培训司机),也可以应用于无人机和自动驾驶等系统。

AI击败人类顶级玩家

在宫园拓真(Takuma Miyazono)4岁时,父亲把当时非常逼真的赛车游戏GT Sport 4带回家,宫园拓真从此迷上赛车游戏。16年后的2020年,他成为GT Sport游戏的世界冠军并赢得“三冠王”。在此之前,宫园拓真从未遇到过GT Sophy这样实力强劲的赛车手,因此对它赞叹有加:“Sophy的速度非常快,圈速比最佳人类车手的预期都要好,有些操作简直不可思议。”

近年来,电子游戏成为AI研究的重要沙盒。对AI来说,GT Sport是一项新挑战。与象棋和围棋等棋类游戏不同,GT Sport需要玩家保持持续判断和快速反应,甚至比“星际争霸”或“刀塔”(Dota)等即时战略游戏更复杂,需要玩家具备更具挑战性的驾驶技巧。GT Sport王牌玩家必须将虚拟汽车的性能发挥到极致,在汽车性能、空气动力学、精确的驾驶路线,以及在游戏规则下是否需要犯规之间取得平衡。

超现实模拟器

GT Sophy由索尼AI、Polyphony Digital(PDI)和索尼互动娱乐(SIE)合作开发,设计初衷是与顶级游戏玩家竞争,提高他们的游戏体验。GT Sport是PDI为PlayStation®4(PS4)开发的驾驶模拟器,其尽可能逼真地再现真实世界的赛车环境,包括赛车、赛道,甚至空气阻力和轮胎摩擦等物理现象。PDI提供了对必要应用程序接口(API)的访问,以便在终极模拟环境中训练GT Sophy。

GT Sport配备了现实赛车比赛中获得的车辆动力学数据,汽车的性能在很多方面都得到了逼真的再现,比如空气阻力、轮胎摩擦、悬挂运动引起的方向变化等。在汽车制造商的指导下,精确再现了汽车的细节,从车身曲线到车身面板之间的间隙宽度,再到转向灯和前灯的形状。GT Sport与国际汽车联合会(FIA)合作设计,在全球拥有超过400 000人的电子竞技社区,有相对公平的比赛环境,以及明确的规则和评判标准。

强化学习技术

强化学习(RL)是一种机器学习,用于训练AI如何采取行动,根据导致的结果奖励或惩罚这些行动。AI如何与其环境进行交互呢?AI在游戏世界中采取行动得到奖励或惩罚,并收到更新的世界状态描述,以决定它的下一个行动(图1-5)。

图1-5 AI与环境进行交互的原理示意图

Sony AI的研究人员研发强化学习技术,包括新训练算法Quantile Regression Soft Actor-Critic(QR-SAC),即可被AI理解的赛车规则编码。RL特别适合训练AI游戏选手,RL开发的AI游戏选手会考虑其行为的长期影响,并且可以在学习期间独立收集数据,避免研究人员手动编码复杂的行为规则。处理类似GT Sport的复杂赛车游戏需要更加先进的技术——深度强化学习(deep RL)。近年来,deep RL训练的AI在围棋、街机游戏、国际象棋、日本将棋等复杂策略游戏以及实时多人策略游戏中的表现令人印象深刻。deep RL已经成为人工智能领域的流行算法。通过deep RL的训练,GT Sophy掌握了赛车控制、赛车战术和赛车礼仪等重要技能。

(1)赛车控制。QR-SAC的新算法推理GT Sophy高速动作后的各种可能结果,例如GT Sophy在极限转弯时,需要考虑各种可能出现的复杂情况。

(2)赛车战术。虽然GT Sophy可以独立收集数据,但在训练特定技能时,需要对手处于特定位置。为解决这个问题,GT Sophy的教学包括混合情景训练,训练中专门引入专业的人类玩家陪练。这些技能培养场景帮助GT Sophy获得专业赛车技术,包括如何处理拥挤的起步、超车甚至是防守动作。

(3)赛车礼仪。为帮助GT Sophy学习体育礼仪,Sony AI的研究人员找到了将书面和不成文的赛车规则编码成复杂奖励函数的方法。研究发现,有必要平衡对手的数量,以确保GT Sophy进行有竞争力的训练比赛,同时不会变得过于激进或胆怯。

分布式训练平台

分布式、异步部署和训练(DART)是基于Web的自定义平台,能使研究人员在SIE的云游戏平台的PS4控制台上训练GT Sophy,该平台由Sony AI开发。

DART允许研究人员轻松实验,在云资源可用时自动运行,并收集可在浏览器中查看的数据。此外,它还管理PS4控制台、AI计算资源和用于跨数据中心训练的GPU。该系统使Sony AI的研究团队同时运行数百个实验,探索将GT Sophy提升到新水平的技术。

图1-6 分布式训练平台

DART平台可以访问1000多个PS4控制台,每个都用于收集数据以训练GT Sophy或评估训练后的版本。该平台由必要的计算组件组成,可与大量PS4交互并支持长时间的大规模训练。 4fmM62IaD3xWcr/9CLxX5Eh8lXYZwHNXAEdNheiMTeZ1O0aQ2ccjE9DsebdNT3iS

点击中间区域
呼出菜单
上一章
目录
下一章
×