米兰·(milan)中国官方网站-AAAI 2022大奖出炉!中科院德州扑克程序AlphaHoldem获卓越论文奖

作者 | 西西、王晔
编纂丨陈彩娴
近日,人工智能国际顶会 AAAI 2022 正于召开,年夜会论文奖也陆续宣布。AI科技评论获知,中国科学院主动化所的兴军亮传授团队得到 AAAI 2022 的卓着论文奖(Distinguished Paper)!
AAAI 的英文全称是“Association for the Advance of Artificial Intelligence”(美国人工智能协会)。该协会是人工智能范畴的重要学术构造之一,具备必然的学术权势巨子性。
兴军亮团队这次获奖的事情是他们所开发的轻量型德州扑克 AI 步伐——AlphaHoldem。据先容,该体系的决议计划速率较 DeepStack 的速率晋升超1000倍,与高程度德州扑克选手匹敌的成果注解其已经经到达了人类专业玩家程度。
论文名称:《AlphaHoldem: High-Performance Artificial Intelligence for Heads-Up No-Limit Poker via End-to-End Reinforcement Learning》
作者团队:赵恩平易近,闫仁业,李金秋,李凯,兴军亮
1德州扑克AI的意义与围棋使命比拟,德州扑克是一项更能磨练基在信息不完整致使敌手不确定的智能博弈技能。
德州扑克是国际上最为风行的扑克游戏,因为最夙起源在20世纪初美国德克萨斯州而患上名。
德州扑克的法则是利用去失王牌的一副扑克牌,共52张牌,至少2人介入,最多22人,一般介入人数为两人及十人之间。
游戏最先时,起首为每一个玩家发两张私有牌作为各自的“底牌”,随后将五张大众牌依次按三张、一张、一张朝上发出。于发完两张私有牌、三张共有牌、第四张大众牌、第五张大众牌后玩家均可以屡次无穷制押注,这四轮押注别离称为“翻牌前”、“翻牌”、“转牌”、“河牌”。图1展示了一场德州扑克游戏的完备流程示意。

图1:两人无穷注德州扑克一次游戏历程示意
颠末四轮押注以后,若仍不克不及分出胜败,游戏进入“摊牌”阶段,所有玩家亮出各自底牌并与大众牌组合成五张牌,成牌最年夜者获胜。图2给出了德州扑克差别组合的牌型注释及巨细。

图2:德州扑克差别牌型巨细申明及比力
德州扑克博弈的问题繁杂度很年夜,两人无穷注德州扑克的决议计划空间繁杂度跨越10的161次方;其次,德州扑克博弈历程属在典型的回合制动态博弈历程,游戏介入者每一一步决议计划都依靠在上一步的决议计划成果,同时对于后面的决议计划步调孕育发生影响;别的,德州扑克博弈属在典型的不完善信息博弈,博弈历程中玩家各自底牌信息不公然使患上每一个玩家信息都不完整,玩家于每一一步决议计划时都要充实思量敌手的各类可能环境,这就触及到敌手举动与生理建模、敲诈与反敲诈等诸多问题。
研究者认为,因为德州扑克游戏法则又很是简朴且界限确定,尤其合适作为一个虚拟试验情况对于博弈的相干基础理论要领及焦点技能算法举行深切探究。
最近几年来,国际研究者于德州扑克这一年夜范围不完善信息博弈问题的优化求解中也取患了长足前进。
好比,以前加拿年夜阿尔伯特年夜学及美国卡内基梅隆年夜学的研究者就设计出 AI 步伐 DeepStack 及 Libratus,并前后于两人无穷注德州扑克中均战胜了人类专业选手,随后卡内基梅隆年夜学设计的 Pluribus 又于六人无穷注德州扑克中战胜了人类专业选手。
但今朝主流德州扑克AI暗地里的焦点思惟是使用反事实遗憾最小化(Counterfactual Regret Minimization, CFR)算法迫近纳什平衡计谋。
详细来讲,起首使用抽象(Abstraction)技能[3][7]压缩德扑的状况及动作空间,从而减小博弈树的范围,然后于缩减过的博弈树长进行CFR算法迭代。
这些要领严峻依靠在人类专家常识举行博弈树抽象,而且CFR算法需要对于博弈树的状况结点举行不停地采样遍历及迭代优化,纵然颠末模子缩减后仍需要泯灭年夜量的计较及存储资源。例如,DeepStack利用了153万的CPU时以和1.3万的GPU时练习终极AI,于对于局阶段需要一个GPU举行1000次CFR的迭代历程,平均每一个动作的计较需耗时3秒。Libratus耗损了年夜在300万的CPU时天生初始计谋,每一次决议计划需要搜刮4秒以上。
如许年夜量的计较及存储资源的耗损严峻拦阻了德扑AI的进一步研究及成长;同时,CFR框架很难直接拓展到多人德扑情况中,增长玩派别量将致使博弈树范围呈指数增加。别的,博弈树抽象不仅需要年夜量的范畴常识并且会不成防止地丢掉一些对于决议计划起到至关作用的信息。

这个问题也吸引了许多中国研究者,中科院主动化所的兴军亮传授团队即是此中之一。去年12月,他带领的博弈进修研究组针对于德州扑克使命,提出了一种高程度、轻量化的两人无穷注德州扑克AI步伐——AlphaHoldem。
差别在已经有的基在CFR算法的德州扑克AI,中科院博弈进修研究组所提出的架构是基在端到真个深度强化进修算法(如图4所示)。

图4:端到端进修德州扑克AI进修框架
按照团队先容,AlphaHoldem采用Actor-Critic进修框架,其输入是卡牌及动作的编码,然后经由过程伪孪生收集(布局不异参数不同享)提取特性,并将一种改良的深度强化进修算法与一种新型的自博弈进修算法相联合,于不借助任何范畴常识的环境下,直接从牌面信息端到端地进修候选动作举行决议计划。
他们还有指出,AlphaHoldem的乐成患上益在其采用了一种高效的状况编码来完备地描写当前和汗青状况信息、一种基在Trinal-Clip PPO丧失的深度强化进修算法来年夜幅提高练习历程的不变性及收敛速率、以和一种新型的Best-K自博弈方式来有用地减缓德扑博弈中存于的计谋克制问题。
AlphaHoldem 利用了1台包罗8块GPU卡的办事器,颠末三天的自博弈进修后,战胜了Slumbot及DeepStack。每一次决议计划时,AlphaHoldem都仅用了不到3毫秒,比DeepStack速率晋升跨越了1000倍。同时,AlphaHoldem与四位高程度德州扑克选手匹敌1万局的成果注解其已经经到达了人类专业玩家程度。
3团队部门成员先容

兴军亮,中国科学院主动化研究所研究员、博士生导师、特聘青年主干,中国科学院年夜学岗亭传授,中国科学院人工智能立异研究院立异专家组专家。兴传授2012年卒业在清华年夜学计较机科学与技能系,获工学博士学位。
此外,他还有是美国电器与电子工程学会(IEEE)高级会员、美国《科学》杂志中国官方公家号特邀评论员、中国计较机学会(CCF)高级会员、计较机视觉专委会委员。
他的重要研究范畴为计较机视觉及计较机博弈。今朝已经于包括顶级国际期刊如TPAMI、IJCV、AI以和顶级国际集会上如ICCV、CVPR、AAAI、IJCAI上发表论文100多篇,google学术援用跨越10000次,出书计较机视觉译著2部,介入撰写深度进修范畴著作1部、人工智能范畴著作1部。
曾经获清华年夜学计较机系“学术新秀”、“google学者”、屡次顶级国际及海内集会最好论文奖等声誉及奖励,以和十余次于人脸辨认、车辆辨认、视频辨认等国际及海内挑战赛中获奖。
今朝作为项目及课题卖力人负担多项国度重点项目,研发的视觉感知相干技能于国度广电总局、华为、微软等获得了屡次验证运用及落地推广,取患了优良的经济效益及社会价值。
最近几年来重要缭绕深度强化进修相干的智能感知及决议计划问题,研发了多款针对于差别游戏的博弈决议计划AI,此中研发的星际争霸AI曾经获2017年IEEE CIG星际争霸AI第2名,研发的德州扑克AI步伐AlphaHoldem胜率跨越了今朝公然的最佳德州扑克AI步伐DeepStack,速率晋升跨越1000倍。开放了学界首个年夜范围不完善信息博弈平台OpenHoldem。
4AAAI 2022其他获奖事情卓异论文奖:
论文名称:Online Certification of Preference-Based Fairness for Personalized Reco妹妹ender Systems
作者团队:Virginie Do,Sam Corbett-Davies,Jamal Atif, Nicolas Usunier
卓异学生论文奖:
论文名称:InfoLM: A New Metric to Evaluate Su妹妹arization Data2Text Generation
作者团队:Pierre Colombo,Chloé Clavel,Pablo Piantanida
卓着论文奖:
除了了中科院兴军亮团队的 AlphaHoldem,还有有 5 篇事情得到 AAAI 2022 “卓着论文奖”。别离以下
论文名称:Certified Sy妹妹etry and Dominance Breaking for Combinatorial Optimisation
作者团队:Bart Bogaerts,Stephan Gocht,Ciaran McCreesh,Jakob Nordström
论文名称:Online Elicitation of Necessarily Optimal Matchings
作者团队:Jannik Peters
论文名称:Sampling-Based Robust Control of Autonomous Systems with Non-Gaussian Noise
作者团队:Thom S. Badings, Alessandro Abate,Nils Jansen,David Parker,Hasan A. Poonawala,Marielle Stoelinga
论文名称:Subset Approximation of Pareto Regions with Bi-objective A
作者团队:Jorge A. Baier,Carlos Hernández,Nicolás Rivera
论文名称:The SoftCumulative Constrain with Quadratic Penalty
作者团队:Yanick Ouellet,Claude-Guy Quimper
参考链接:
1.https://twitter.com/rao2z/status/1496866889921822721
2.https://mp.weixin.qq.com/s/OBRybZ-NwcNW-S9TCObaLA

雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





