Python机器学习：基于PyTorch和Scikit-Learn最新章节_塞巴斯蒂安·拉施卡著

1.2.2 解决交互问题的强化学习

机器学习的另一种类型是强化学习。强化学习是一个可以与环境交互提高系统性能的智能体。由于环境状态信息通常包括奖励信号，所以可以将强化学习视为一个与监督学习相关的领域。但是在强化学习中环境提供的反馈信号往往不是正确的标签，而是奖励函数对智能体动作的奖励，用于衡量动作的正确程度。智能体通过与环境交互，使用动作规划方法或探索性的试错方法学习到一系列的动作，来最大化环境提供的奖励。强化学习过程如图1.5所示。

图1.4 一个线性回归例子

一个典型的强化学习的例子是国际象棋。这里，智能体根据棋盘状态（环境）决定一系列动作。游戏结束时的赢或输可以被定义为环境提供的奖励。

强化学习有许多不同的子类型。然而，一般模式是智能体通过与环境的一系列交互来最大化环境提供的奖励。每种状态都与正或负的奖励相关。奖励可以定义为完成一个总体目标，例如赢棋或输棋。例如，在国际象棋中，每走一步棋的结果都可以被认为是环境的一个状态。

图1.5 强化学习过程

为了进一步探索国际象棋，需要考虑与赢棋相关的棋局，例如，吃掉对手的棋子或威胁对方的皇后；也需要考虑与输棋相关的棋局，例如，在下一回合中输给对手一个棋子。在国际象棋比赛中，奖励（赢时为正，输时为负）将在比赛结束时得到。此外，最终的奖励还将取决于对手的水平。例如，有的对手可能会牺牲皇后棋子以换取最终的胜利。

总之，强化学习是指学习一系列使总奖励最大化的动作。奖励可以在采取动作之后立即获得，也可能延迟获得。