米兰·(milan)中国官方网站-上海交大ACM班俞勇团队推出强化学习入门宝典!附作者对话
上海交通年夜学ACM班又出新品,人邮“动手学”又一力作《动手学强化进修》来了!作者 | Ailleurs
编纂 | 陈彩娴于已往十多年的成长中,基在呆板进修的智能检测及智能猜测类的人工智能技能快速成长。例如,于门禁体系中运用的人脸活体检测、于个性化信息流保举中运用的用 户兴致猜测已经成为人们一样平常糊口中不成或者缺的技能。如今,于这些成熟的人工智能技能基础上, 办事在决议计划智能的技能变患上愈来愈主要,这暗地里对于应呆板进修范畴下的一个分支——强化进修。
今朝强化进修技能已经经于呆板人节制、游戏智能、聪明都会、保举体系、能源优化等范畴获得广泛运用,成长远景广漠,业界对于强化进修人材的需求量也与日俱增。
可是,强化进修的普和教诲较为滞后,不少高校仍未开设强化进修课程,学生火急需要一条体系进修强化进修技能的专业路径。
近日,上海交年夜ACM班的俞勇团队联合多年研究与讲授,推出了一本强化进修入门书——《动手学强化进修》,号称理论能讲透、代码能跑通、试验可复现,当即于社区内引起了广泛存眷。

针对于该杰作,AI科技评论也专程接洽了该书的作者之1、上海交年夜副传授、青橙奖及吴文俊优青得到者张伟楠,向他相识了此书暗地里的故事(见文末)。
假如你想“入坑”强化进修,那这本书绝对于不成错过~
1作者简介
张伟楠,上海交通年夜学副传授,博士生导师,ACM班呆板进修、强化进修课程讲课教员,吴文俊人工智能优异青年奖、达摩院青橙奖患上主,得到中国科协“青年人材托举工程”撑持。他的科研范畴包括强化进修、数据挖掘、常识图谱、深度进修以和这些技能于保举体系、搜刮引擎、文天职析等场景中的运用。他于国际一流集会及期刊上发表了100余篇相干范畴的学术论文,在2016年于英国伦敦年夜学学院(UCL)计较机系得到博士学位。

沈键,上海交通年夜学APEX试验室博士生,师从俞勇传授,研究标的目的为深度进修、强化进修及教诲数据挖掘。于攻读博士时期,他以第一作者身份发表呆板进修国际顶级集会NeurIPS、AAAI论文,介入发表多篇呆板进修及数据挖掘国际顶级集会(包括ICML、IJCAI、SIGIR、KDD、AISTATS等)论文,并担当多个国际顶级集会及SCI学术期刊的审稿人。

俞勇,享受国务院非凡津贴专家,国度级讲授名师,上海交通年夜学特聘传授,APEX试验室主任,上海交通年夜学ACM班开创人。俞勇传授曾经得到首批“国度高条理人材非凡撑持规划”讲授名师、“上海市讲授名师奖”“天下师德斥候”“上海交通年夜黉舍长奖”及“最受学生接待西席”等声誉。他在2018年开办了伯禹人工智能学院,于上海交通年夜学ACM班人工智能专业课程系统的基础上,对于AI课程系统举行立异,致力在造就卓着的AI算法工程师及研究员。
2内容先容本书体系地先容了强化进修的道理及实现,理论扎实且落地性强。对于在初探强化进修的读者来讲,本书不仅可以或许帮忙你理解强化进修的算法道理,提高代码实践能力,更能让你相识本身是否喜欢决议计划智能这个标的目的,从而更好地决议计划将来是否从事人工智能方面的研究及实践事情。
这本书的内容一共包括3个部门:
第一部门为强化进修基础,解说强化进修的基础观点及表格型强化进修要领;
第二部门为强化进修进阶,会商深度强化进修的思维方式、深度价值函数及深度计谋进修要领;
第三部门为强化进修前沿,先容学术界于深度强化进修范畴的重要存眷标的目的及前沿算法。
同时,本书理论与实践并重,于先容强化进修理论的同时,还有提供了配套的线上代码实践平台,展示源码的编写及运行历程,可以或许让读者进一步把握强化进修算法的运行机制。
本书合适各种对于强化进修感兴致的人群。假如你是学生,你可以经由过程这本书中提供的一条自学捷径,乐成入门强化进修范畴。假如你是高校西席,你也能够将这本书作为教材,开设强化进修课程。假如你是步伐员,那末你可以经由过程这本书中的理论及实战,落地强化进修。
本书目次以下:






那末这本书的重要亮点有哪些呢?
第一,这本书看重理论基础,统筹公式推导。做好公式推导,才能纯熟编写代码及理解算法,本书提供了超清楚的公式推导历程,让新手不消再履历“公式不知道用于哪里,公式不知道怎么推导出”的抓狂体验。

第二,这本书中解释清楚,代码实战的落地性极强,“动手学”的思维很清楚。书中提供的代码都是基在 Python 3 编写的,并且代码于触及主动求导时皆利用今朝比力受接待的 PyTorch 框架实现。每一一章的内容都提供了Jupyter Notebook链接,可以于线直接运行。

第三,本书配套资源富厚。作者团队为这本书录制了于线视频,使患上学员可以统筹教材及网课来举行体系地进修,课后训练及于线答疑也能够帮忙同窗巩固所学常识,提高进修效率。

如许一本强化进修入门佳作也得到了图灵奖患上主John Hopcroft、李沐、俞扬、张志华、汪军、李航等多位业内年夜咖的强烈保举:

AI科技评论就本书的编写启事、编写历程、内容亮点、进修建议等方面,对于本书的编者之一张伟楠副传授举行了采访,收拾以下。
AI科技评论:你们最初是怎么有编写这本书的设法的?从最先编写到脱稿花了多永劫间?
张伟楠:我本人持久做强化进修方面的研究,也于上海交通年夜学教学强化进修课程。本书三位作者地点的上海交通年夜学APEX数据及常识治理试验室(简称APEX试验室)有一个30人的强化进修研究组。强化进修的研究实在门坎比力高,一方面它对于数理统计基础要求高,另外一方面它的试验老是比力难做乐成,许多时辰需要支付许多努力才能复现论文试验成果或者者做出新的试验冲破。是以我也常常恶作剧说:要做好强化进修研究,你需要数学好,编程好,还有要风致好。末了的“风致好”是指需要具有脚踏实地的立场及始终如一的韧性,于强化进修试验调不出来时还有能仔细查抄bug,于试验跑了一周还有没转机时,愿意再对峙几天,于终极意想到本身要领确凿不work时,能坦然面临,从头设计较法。
强化进修组的师生们彼此帮忙,促成研究效率晋升,也为带方才进组的新同窗“避坑”,就逐步沉淀出了一份强化进修算法的代码。而真正想到把强化进修代码收拾宣布出来,是有一名外校的研究生跟我会商时说,他们试验室只有2位同窗做强化进修的研究课题,问我怎样才能做好强化进修的研究及试验。我其时想了想,感觉他的环境可能确凿比力难一点,由于没有充足的同窗一路研究强化进修,许多强化进修的理论可能会理解不敷深切,许多试验方面的“坑”没有被趟过,在是就比力难以入门,进入研究深水区。是以,假如能有一本质料,能把强化进修的理论讲透,而且把相干的实现代码就穿插于理论算法解说中,那末进修起来可能就会越发轻易领会强化进修的道理。更主要的是,这些代码要可以或许直接跑通,试验成果可以复现,如许就能领会到强化进修算法是怎样work的。
其时正好ACM班学长李沐的《动手学深度进修》方才出书,每个章节对于应的Jupyter Notebook很合适边学理论边跑代码,遭到了业界广泛的好评,我也就决议测验考试收拾APEX试验室的强化进修代码及相干的解说质料,写出这本《动手学强化进修》。
第一稿完成花了靠近一年的时间,可是仍旧比力粗拙。部门内容对于在初学者还有是比力坚苦。我将部门章节的Jupyter Notebook作为教辅内容以和代码小功课发放给我教学的强化进修课程的学生们,并请他们反馈相干的改善建议,进一步迭代代码及文字质料。于迭代了2020及2021两年的强化进修课以后,咱们认为此刻的版本差未几可以出书了。固然本书可能还有是会有不少可以改良的点,还有请列位读者多多反馈修改定见,咱们十分感谢!
AI科技评论:你以前曾经于RLChina夏令营及上海交年夜教学强化进修课程,从你的经验看,差别类型的学生们会比力存眷哪些内容?你们怎样为初学者设计一个渐进式的学术及项目的进修线路,又怎样按照反馈来完美这本教材的?
张伟楠:我于上海交通年夜学给致远学院ACM班及电院AI试点班的同窗教学强化进修,因为学生的专业及本课程内容很贴合,是以学生对于强化进修的道理部门存眷较多。于夏令营中得到学生的反馈更多来自若安在各类各样的范畴用好强化进修技能,固然也有不少本专业的学生对于强化进修自己的研究十分相识。对于在来咱们APEX试验室的强化进修初学者,我建议的进修线路是:
1. 先进修UCL David Silver的强化进修课程:https://www.davidsilver.uk/teaching/
这是强化进修的基础常识,不太包罗深度强化进修的部门,但对于后续深切理解深度强化进修十分主要。
2. 然后进修UC Berkeley的深度强化进修课程:http://rail.eecs.berkeley.edu/deeprlcourse/
3. 末了可以可以挑着看OpenAI 的夏令营内容:https://sites.谷歌.com/view/deep-rl-bootcamp/lectures
固然,假如但愿进修中文的课程,我保举的是:
1. 我本人于上海交通年夜学的强化进修课程:https://www.boyuai.com/rl
2. 周博磊教员的强化进修课程:https://www.bilibili.com/video/BV1LE411G7Xj
AI科技评论:你们认为,初学者进修强化进修的难点于哪里?本书但愿帮忙学生解决进修强化进修的历程中碰到的哪些难点,这些思索是否与你本身以前的强化进修履历有关?
张伟楠:传统讲堂教学的内容比力深奥,与动手实践的差距会比力年夜。课后本身做一个强化进修代码试验,可能不知怎样下手,而且试验历程中需要留意的细节较多。这也是《动手学强化进修》这本书但愿填补的gap。读者于看完一个常识点的一段文字及公式解说后,立刻就能够看到对于应代码块——代码中的变量名及前面公式中的符号一致,函数名也及前面文字中提到的要领名一致;代码块可以直接于Jupyter Notebook上运行,跑出版里的成果——如许就加快读者经由过程代码进修对于强化进修道理的越发深切的理解。
我本身进修强化进修的履历重要是2013年于UCL读博时期上了David Silver教员的强化进修课程,后续又于微软剑桥研究院师从Thore Graepel做强化进修的研究实习生(厥后这些教员及实习生险些都去了DeepMind)。真话说,其时进修强化进修我是感觉比呆板进修要费力的,重要就是上面讲到的那样,道理解说及代码实践差距较年夜,进修了课程及论文后,以为本身理解道理了,但写代码时就总会遇到各类问题。
AI科技评论:于写这本书的历程中,你是否对于进修强化进修的诀窍、远景等有了新的认知?
张伟楠:经由过程APEX试验室及强化进修讲堂的学生们的反馈来看,这类Jupyter Notebook的进修质料是可以有用帮忙晋升对于强化进修道理及代码理解效率的情势。但愿这本书可以或许帮忙更多人入门强化进修。
AI科技评论:这本书中,你认为最出色/最有特点的是哪一部门?
张伟楠:我比力看重强化进修基础篇的解说,信赖读者于充实把握了基础篇后,后面的进阶篇及前沿篇就会学患上越发轻易。是以本书的基础篇实在是我最满足的部门。例如于马尔可夫决议计划历程(MDP)的章节中,咱们于先容了MDP的基础常识后,引入了占费用量(Occupancy Measure)观点的解说,经由过程观点、道理及代码试验的解说,让读者深切理解一个计谋及一个MDP交互行程的数据漫衍是甚么样子,以和领会为何一个计谋一旦转变了,那末占费用量就会随着转变。如许就讲清晰了为何强化进修比有监视进修难度更年夜的缘故原由——智能体进修历程中,跟着计谋不算更新,它面对的数据漫衍(也便是占费用量)会随之转变。
AI科技评论:本书的封面是有甚么详细的意思吗?
张伟楠:本书的封面描绘的是一个呆板人站于绝壁边,预备决议以后该怎样行走。这实在对于应本书顶用到的一个典型强化进修案例Cliff Walking(绝壁安步),差别的强化进修算法会让呆板人走出危害及收益差别的线路。

《动手学强化进修》封面图
AI科技评论:这本书采纳了近似ACM班以于线 Jupyter Notebook 的情势为学生提供课程辅助质料及代码小功课的方式,于进修者范围扩展的同时你们采纳了哪些办法来增强进修体验?
张伟楠:我鼓动勉励学员们插手咱们于伯禹进修平台的强化进修课程中(https://www.boyuai.com/rl),本课程是全免费的。上面除了了有我于上海交通年夜学强化进修课的视频,还有有于线可以完成的课后习题,以和学员们就本节常识点做出的思维导图及问答会商。如许可以帮忙学员们于西席资源相对于少的环境下,仍旧具有较高的进修效率。
AI科技评论:这本书的定位是甚么,可以保举其他可以与这本书互补的配套进修册本吗?
张伟楠:本书可以作为强化进修课程的教材,也能够作为偏代码进修及训练的教辅质料。合适配套的道理解说的册本以下:
1. Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction (Second Edition) . MIT Press, 2018.
2. 俞凯[译].《强化进修(第2版)》.电子工业出书社,2019.
3. 王琦、杨毅远、江季.《Easy RL 强化进修教程》. 人平易近邮电出书社,2022.
AI科技评论:俞勇教员于本书的编写中授与了哪方面的引导?团队今朝是否还有有其他近似的教材及课程的推进项目?
张伟楠:俞勇传授于ACM班的造就方案中对于动手实践能力的造就力度比力年夜,学生从年夜一到年夜三,每一个学期城市有编程类的高文业。充实熬炼计较机人材独当一壁的动手能力,这成绩了ACM班学生于卒业后编写出了MXNet、XGBoost、TVM、PS、DGL、Hotstuff等具备主要影响力的项目。于作者团队构想及编写《动手学强化进修》这本书的历程中,俞勇西席存眷至多的就是经由过程这类新型进修质料出现情势,读者是否能真正更好地把握强化进修的道理及晋升动手实践能力。可以说,本书的详细情势就是俞勇传授塑造的。
此外于这里卖一个关子 :) 俞勇传授已经经计划了一个年夜的动手学系列书目,但愿提炼及践行一种新的更高效的计较机科学及人工智能专业常识的进修情势。接待各人多存眷咱们接下来的步履。

雷峰网雷峰网(公家号:雷峰网)
雷峰网原创文章,未经授权禁止转载。详情见转载须知。





