IT亚文化

  最近更新

  您现在的位置: 首页 > 新疆中亚商品交易中心 最核⼼的部分

  新疆中亚商品交易中心 最核⼼的部分

  作者:  来源:  时间:2021-10-14 10:44:04  阅读:
  新疆中亚商品交易中心 最核⼼的部分

  在逆强化学习中,最核⼼的部分就是根据示例数据集求解得出的奖励函数 ,我们通常要求其满⾜这个性质:当使⽤这个奖励函数时,使⽤⼈类策略获得的累积期望奖赏,⽐使⽤其他任意策略所能获得的累积期望奖赏都要多。换句话说,我们认为⼈类策略是在使⽤这个奖励函数时的最优策略,也就是:
  得到⼈类策略使⽤的奖励函数后,我们就可以使⽤这个奖励函数构建⼀个新的任务:
  并在这个新的任务上⽤强化学习来求解最优的⾏动策略pi*。根据我们之前对性质的描述,在这个任务上表现最好的⾏为策略就是⼈类策略。