另一种方法是由设计者指定可能存在的决策策略空间以及需要最大化的性能度量。评估决策策略的性能通常需要运行一系列的模拟行为。然后,优化算法在该决策策略空间中搜索最优策略。如果决策策略空间相对较小,并且性能度量并没有很多的局部最优值,那么各种局部或全局搜索方法可能是适用的。虽然通常假设动态模型的知识会用于运行模拟,但却不会用于指导搜索,这一点对于复杂问题非常重要。 v2Y/sMTR9COEAIKxq8s6Conrcd1Rqj4WeaxGFDnPvo/TB78ggWU7lh/zxrQfXkOz