IT亚文化

    最近更新

    您现在的位置: 首页 > 汇通盛世商品交易中心 ⼀种基于⽣成对抗式⽹络的⽅法

    汇通盛世商品交易中心 ⼀种基于⽣成对抗式⽹络的⽅法

    作者:  来源:  时间:2021-10-14 14:07:42  阅读:
    汇通盛世商品交易中心 ⼀种基于⽣成对抗式⽹络的⽅法

    GAIL中的⽣成器G则是智能体的⾏为策略,训练中需要与环境不断交互⽣成轨迹,它会使⽤强化学习⽅法进⾏更新,使⽤判别器的输出作为强化学习任务中的奖励函数。这就意味着,被判别器D认为更像⼈类的⾏为会得到更多的奖赏,因此随着训练的推进会逐渐向⼈类⾏为策略逼近。
    ⼆者经过多轮迭代最终收敛后,判别器D⽆法区分出真实轨迹与⽣成器⽣成的轨迹,此时我们的⽣成器G 就是⼀个能够有效模仿⼈类⾏为策略的AI策略。
    当然,作为⼀种基于⽣成对抗式⽹络的⽅法,GAIL也有与GAN相似的缺点:实际应⽤时需要⼤量经验性的trick,某些情景下很难训练到理想的收敛结果。但由于GAIL能给模型带来的更强的泛化性,以及更少的示例数据需求仍然使它成为了⼀个优秀的模仿学习⽅法。