强化学习中的探索与利用

- 强化学习中的探索与利用 - - 探索-利用困境的本质贪婪策略与ε-贪婪策略上置信界（UCB）算法汤普森采样算法适应性探索算法多臂老

腾讯文库

强化学习中的探索与利用