IT亚文化

    最近更新

    您现在的位置: 首页 > 新疆中亚商品交易中心 最核⼼的部分

    新疆中亚商品交易中心 最核⼼的部分

    作者:  来源:  时间:2021-10-14 10:44:04  阅读:
    新疆中亚商品交易中心 最核⼼的部分

    在逆强化学习中,最核⼼的部分就是根据示例数据集求解得出的奖励函数 ,我们通常要求其满⾜这个性质:当使⽤这个奖励函数时,使⽤⼈类策略获得的累积期望奖赏,⽐使⽤其他任意策略所能获得的累积期望奖赏都要多。换句话说,我们认为⼈类策略是在使⽤这个奖励函数时的最优策略,也就是:
    得到⼈类策略使⽤的奖励函数后,我们就可以使⽤这个奖励函数构建⼀个新的任务:
    并在这个新的任务上⽤强化学习来求解最优的⾏动策略pi*。根据我们之前对性质的描述,在这个任务上表现最好的⾏为策略就是⼈类策略。