强化学习 (reinforcement learning)不再强调规划方法中模型已知的这一假设。相反,智能体是在与环境交互的过程中学习相关的决策策略的。设计者只需提供性能指标,由学习算法负责优化智能体的行为。强化学习中出现的一个有趣的复杂性是,行为的选择不仅直接影响智能体在实现其目标方面是否成功,而且还影响智能体对环境的了解以及识别其可以利用的问题特征的能力。 mXBpzzu66SDkgSDdWup02CJJaKQayKFcF1UoO8zKpUOKGstR+oq+5ZL6z573fGwz