Multi-arm-bandit学习笔记 Written by Zhang, Zijian in 释卷有怀 on 五 16 十二月 2022. Tags: 学习笔记, 论文阅读, Reinforcement Learning, 用于Anchors的KL-LUCB算法笔记 与其说KL-LUCB算法是用来解决K-臂老虎机,不如说它是用来解决抛K个不均匀硬币问题,因 … Continue reading »