《强化学习导论》经典课程10讲，DeepMind大神David Silver主讲

来源：专知　发布时间： 2021-01-12 15:32:34　编辑：夕歌

导读：这门课程由DeepMind首席科学家、伦敦大学学院教授、AlphaZero的共同创始人David Silver教授共同向学生们介绍RL中使用的主要方法和技术。学生们还会发现萨顿和巴托的经典著作《强化学习:入门》(Reinforcement Learning: an Introduction)是一个很有帮助的书籍。

https://deepmind.com/learning-resources/-introduction-reinforcement-learning-david-silver

这个经典的10部分课程，由强化学习(RL)的驱David Silver教授，虽然录制于2015年，但仍然是任何想要学习RL基础的同学所必需的资源。

强化学习已经成为现代机器学习中一项强大的技术，它允许系统通过反复试验进行学习。它已成功应用于许多领域，包括AlphaZero等系统，学会了掌握国际象棋、围棋和Shogi游戏。

这门课程由DeepMind首席科学家、伦敦大学学院教授、AlphaZero的共同创始人David Silver教授共同向学生们介绍RL中使用的主要方法和技术。学生们还会发现萨顿和巴托的经典著作《强化学习:入门》(Reinforcement Learning: an Introduction)是一个很有帮助的书籍。

经典书《强化学习导论》

强化学习教父 Richard Sutton 的经典教材《Reinforcement Learning：An Introduction》第二版公布啦。本书分为三大部分，共十七章，机器之心对其简介和框架做了扼要介绍，并附上了全书目录、课程代码与资料。下载《强化学习》PDF 请点击文末「阅读原文」。

原书籍地址：http://incompleteideas.net/sutton/book/bookdraft2017nov5.pdf

课程代码地址：https://github.com/ShangtongZhang/reinforcement-learning-an-introduction

课程资料地址：http://incompleteideas.net/sutton/book/the-book-2nd.html

当我们思考学习的本质时，首先映入脑海的想法很可能是通过与环境的交互进行学习。当一个婴儿玩耍时，挥舞手臂，左顾右盼，旁边没有老师指导他，他与环境却有着一种直接的感知连接。通过这种连接，他懂得了因果关系，行动带来的结果，以及为了达成目标所需做的一切。人的一生中，这样的交互成了我们关于环境和自身知识的主要来源。不管学习驾驶汽车，还是进行一场交谈，实际上我们自始至终观察着环境如何回应我们的所为，并通过自身行为影响当下情景。交互式学习几乎是所有学习与智能理论的基石。

本书中我们提出了一种通过计算实现交互式学习的方法。我们没有直接理论化人类或动物的学习方式，而是探索理想的学习环境，评估不同学习方法的有效性。即，我们站在人工智能研究者或工程师的角度来解决问题。我们探讨了在解决科学或经济问题方面表现突出的机器的设计，通过数学分析或计算实验评估其设计。我们提出的这一方法称之为强化学习。相较于其他机器学习方法，它更专注于交互之中的目标导向性学习。

标签：强化学习导论经典课程