Tag: 强化学习 - Justin的博客

© 2020 Justin Han. Powered by Hexo Theme Obsidian

「机器学习」十一月 04, 2019

K摇臂赌博机

文章字数 2.3k 阅读约需 2 mins. 阅读次数 1000000

探索与利用

强化学习与监督学习的不同：

没有训练数据告诉机器应当做哪个动作，需通过尝试得出各个动作产生的结果，从而得到最终奖赏。

最大化单步奖赏：
- 需要知道每个动作带来的奖赏
- 执行奖赏最大的动作

查看全文

0%