购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

CHAPTER 2
第2章
多臂老虎机

当你登录最喜欢的社交媒体应用程序时,你可能会看到当时测试过的众多应用程序版本之一。当你访问网站时,向你展示的广告是根据你的个人资料量身定制的。在许多在线购物平台上,价格是动态确定的。你知道所有这些有什么共同点吗?它们通常被建模为 多臂老虎机 (Multi-Armed Bandit, MAB)问题,以确定最优决策。多臂老虎机问题是强化学习的一种形式,其中智能体在由单个步骤组成的问题范围内做出决策。因此,目标是仅最大化即时奖励,且不考虑任何后续步骤的后果。虽然这是对多步强化学习的简化,但智能体仍然必须处理强化学习的基本权衡问题:探索可能导致更高奖励的新行动与利用已知的好行动。广泛的交易问题,例如前面提过的那些,都涉及优化这种 探索-利用 (exploration-exploitation)权衡。在接下来的两章,你将了解这种权衡的含义——这将是几乎所有强化学习方法中反复出现的主题——并学习如何有效地解决它。

本章我们通过解决未考虑采取行动的“上下文”的多臂老虎机问题来打下基础,例如,访问感兴趣的网站/应用程序的用户的个人资料、一天中的时间等。为此,我们涵盖了四种基本的探索策略。在下一章,我们将扩展这些策略以解决 上下文多臂老虎机 (contextual MAB)问题。在这两章中,我们都使用在线广告作为我们的运行案例研究,这是老虎机问题的一个重要应用。 Qaoh3RTJrvxxb4UxAbgxjBTK297WWGAHh34mnlLN2FNlvHukqb25aZcXyhkvuh6+

点击中间区域
呼出菜单
上一章
目录
下一章
×