强化学习中的探索与利用
- 强化学习中的探索与利用 - - 探索-利用困境的本质 贪婪策略与ε-贪婪策略 上置信界(UCB)算法 汤普森采样算法 适应性探索算法 多臂老