机器学习 十一月 04, 2019

K摇臂赌博机

文章字数 2.3k 阅读约需 2 mins. 阅读次数 1000000

  1. 探索与利用

    强化学习与监督学习的不同:

    没有训练数据告诉机器应当做哪个动作,需通过尝试得出各个动作产生的结果,从而得到最终奖赏。

    最大化单步奖赏:

    • 需要知道每个动作带来的奖赏
    • 执行奖赏最大的动作
    • ...
查看全文
0%