强化学习中广义策略迭代的应用研究