决策算法最新章节_米凯尔·J.科申德弗著

1.4.2 心理学

同样，心理学家通常从人类行为的角度来研究人类如何进行决策。自19世纪以来，通过研究动物对刺激的反应，心理学家致力于研发试误式学习（trial-and-error learning，或称为选择学习或联结学习）理论。研究人员注意到，动物倾向于根据它们在之前类似情况下所经历的动机满足或行为不适来做出决策。俄罗斯心理学家伊万·巴甫洛夫在观察狗被喂食时的唾液分泌模式之后，将这一想法与强化的概念结合起来。心理学家发现，通过对特定刺激的持续强化，一种行为模式可以得到加强或削弱。在20世纪中叶，数学家和计算机科学家艾伦·图灵阐述了允许机器以同样的方式进行学习的可能性：

对于包含干扰事项的事务安排，如果涉及很少的输入，那么将机器组织成一台通用的机器将是一件最令人印象深刻的事情。人类对儿童的训练在很大程度上取决于奖励和惩罚系统，这表明，在事务的组织安排过程中，应该可以只使用两个干扰输入，一个用于“快乐”（pleasure）或“奖励”（reward）（R），另一个用于“痛苦”（pain）或“惩罚”（pun ishment）（P）。

心理学家的研究工作为强化学习领域奠定了基础。强化学习是一种用于教导智能体在不确定的环境中做出决策的关键技术 ^[15] 。