米兰·(milan)中国官方网站-清华博士后用10分钟讲解AlphaCode背后的技术原理，原来程序员不是那么容易被取代的！

作者：米兰·(milan)文化更新时间：2026-04-11 12:52:22 点击数：

清华博士后用10分钟讲解AlphaCode背后的技术原理，原来程序员不是那么容易被取代的！

AI科技评论报导不久前，DeepMind 的团队发布了一个可以主动天生竞赛级代码的人工智能体系——AlphaCode，号称「媲美平凡步伐员」，一经发表就于海内外的AI圈里引起了巨年夜惊动。清华博士后用10分钟讲解AlphaCode背后的技术原理，原来程序员不是那么容易被取代的！

-论文地址：https://storage.谷歌apis.com/deepmind-media/AlphaCode/competition_level_code_generation_with_alphacode.pdf

-数据集：https://github.com/deepmind/code_contests

按照DeepMind的博客先容，AlphaCode 于号称「全世界最强算法平台」Codeforces 上的 5,000 名用户解决的 10 项挑战中举行了测试。AlphaCode可以或许以与人类彻底不异的格局于这10项挑战中主动输入代码，天生年夜量可能的谜底，然后像人类步伐员同样经由过程运行代码及查抄筛选出可行谜底，终极于人类步伐员中取患了排名前 54%的好成就。

也就是说，AlphaCode的代码能力媲美于Codeforces上到场过测试的险些一半步伐员（2300名）。根据一个低级步伐员月薪2万的算法，AlphaCode有望每一年替全世界人类本钱家省下5.52亿的人力成本，使一半步伐员掉业……

不外，DeepMind团队其时也明确指出了：AlphaCode今朝只合用在竞争类编程角逐。

不成否定，这也是继DeepMind发布Alpha Go、AlphaZero与AlphaFold以后的又一研究冲破，极年夜地增长了其Alpha系列的传奇色采。但与该系列的其他事情（如AlphaGo打败世界围棋冠军）比拟，AlphaCode的机能好像其实不凸起，

今朝正于清华年夜学朱军门下担当博士后研究员的Tea Pearce对于AlphaCode的技能道理十分感兴致，对于DeepMind的这篇31页论文举行细心浏览后，建造了一个短视频发表于油管上，从体系概述、测试阶段、数据集的预练习与微调、Transformer模子的练习历程与Transformer架构等维度对于AlphaCode的细节举行了较为具体的解说。

视频地址：https://www.youtube.com/watch?v=YjsoN5aJChA

与OpenAI以前开发的GPT-3同样，AlphaCode也是基在Transformer模子，只不外前者偏重在言天生，后者则夸大对于挨次文本（如代码）的解析。

下面AI科技评论对于该短视频举行了简朴收拾：

1AlphaCode的代码问题

当前，AlphaCode的方针编码问题集中为特定的竞赛类型，于诸如Codeforces的网站上到场编码挑战，此中，这些挑战包罗对于一个问题的简短描写与带有测试案例的示例，为挑战者提供了能与准确预期输出相匹配的输入。

简而言之，这些挑战的方针就是编写一些代码，为示例的测试案例与一组隐蔽测试案例提供切合预期的输出。假如你的代码经由过程了所有测试，那末你就解决了这个问题。

按照DeepMind的先容，AlphaCode于Codeforces网站所举办的编码挑战中取患了与平凡用户相媲美的乐成率。

2AlphaCode体系概述

那末，AlphaCode的事情道理毕竟是如何的呢？

于DeepMind团队所发表的“Competition-Level Code Generation with AlphaCode”一文中，他们给出了一个高级的概要图（以下）。如图所示，AlphaCode的焦点组件仍旧是Transformer语言模子，其余零丁组件也是旧的。

图注：AlphaCode的体系图

3利用的和谈

咱们先看看AlphaCode于测试时是怎样事情的。

起首要知道的一点是，于解决写代码的问题时，AlphaCode利用了一个很是详细的和谈（protocol），且该和谈决议了该体系的管道。按照论文显示，DeepMind团队得到了利用尽可能多的示例测试案例的权限，由于这些测试案例也包罗于该问题内。

不外，他们确凿将本身的测试限定于了10个提交的隐蔽测试发送案例内。

4测试阶段的AlphaCode

AlphaCode的测试时间分为三个自力的阶段。

他们起首利用了一个年夜范围的Transformer模子，将问题描写示例测试及问题的一些元数据作为输入，然后从模子中取样，天生年夜量潜于的解决方案。之以是师长教师成年夜量的潜于解决方案，是由于年夜大都剧本没法为某些人、甚至编译器所编译。

是以，于第二与第三阶段，他们就重要针对于这100万个潜于代码剧本作「减法」，选出他们认为于给定和谈的条件下可能有效的10个方案。而他们的做法也很简朴，就是于示例测试案例中测试完这100万个代码剧本，然后将没法经由过程测试的约莫99%个剧本解除失，这就将剧本的数目削减到了千位数。

不外，和谈要求其还有要继承缩减到10个解决方案。在是，他们又采纳了一个很是智慧的要领：

他们利用了第二个Transformer模子将问题描写作为输入，但不是测验考试天生代码来解决问题，而是用Transformer天生测试案例输入，并为每一个问题抽样50个测试案例输入。此刻，他们不测验考试天生输入与输出对于，而只是试图孕育发生一些与问题相干的实际输入。以是，AlphaCode可能必需按照问题地点，天生字符串、二进制数或者数字列表等。

图注：Tim Pearce对于AlphaCode于测试时的三个阶段举行解说

为何这是个好主张？由于他们认为假如两个剧本对于所有 50 个天生的测试所返回的谜底是不异的，那末它们就可能利用不异的算法，而且可能不想华侈两个提交来测验考试这两个剧本。

以是，他们于这 50 个天生的输入上编译并运行约莫 1000 个剧本。然后，他们按照这 50 个虚构输入的输出对于剧本举行聚类。接着，他们会从每一个聚类中选择一个示例剧本。假如十个剧本中的任何一个经由过程了所有隐蔽测试，那末这些剧本就是终极的10个剧本，他们也就乐成地解决了编码问题，不然就是掉败。这就是 AlphaCode 于测试时的事情方式。

这此中触及到对于Transformer模子的练习，可以看下文。

5对于数据集举行预练习与微调

AlphaCode 利用的是现今深度进修中相称尺度的预练习微调历程。

这里有两个数据集：第一个数据集是由各类编程语言构成的大众 Github 存储库，包罗 715 GB 海量代码，用在预练习阶段，目的是让Transformer进修一些很是通用的常识，好比代码布局及语法。

清华博士后用10分钟讲解AlphaCode背后的技术原理，原来程序员不是那么容易被取代的！

第二个数据集要小患上多，只办事在 AlphaCode 的方针，用在微调。该数据集是从一些编码挑战网站上抓取的，包括Codeforces。他们稍后会于数据集长进行测试，包罗问题描写测试用例及人工编写的解决方案。这些是数据集。此刻，咱们该怎么处置惩罚它们？清华博士后用10分钟讲解AlphaCode背后的技术原理，原来程序员不是那么容易被取代的！

6Transformer模子的练习历程

起首说一下预练习阶段。

他们抓取了一些 github 代码，并随机选择所谓的枢轴点（pivot point）。

清华博士后用10分钟讲解AlphaCode背后的技术原理，原来程序员不是那么容易被取代的！

枢轴点以前的所有内容城市被输入编码器，而解码器的方针是重修枢轴点如下的代码。

清华博士后用10分钟讲解AlphaCode背后的技术原理，原来程序员不是那么容易被取代的！

编码器仅输出代码的向量暗示，可用在整个解码历程。

解码器以自回归方式运行：起首猜测代码的第一个标志。然后，丧失函数只是猜测的 softmax 输出及真实令牌（token）之间的交织熵。第一个真实的令牌会成为解码器的输入，然后猜测第二个令牌，而且当要求解码器猜测代码令牌的不测竣事时，反复此历程直到代码竣事。

此刻，这些丧失经由过程解码器及编码器反向流传，只管事实证实：只为编码器添加第二个丧失很主要。

这被称为掩码语言，可以高效地建模丧失。将输入到编码器中的一些令牌清空。作为一种辅助使命，编码器测验考试猜测哪一个令牌被屏蔽。一旦预练习使命完成，咱们就进入微调使命。

于这里，咱们将问题描写的元数据及示例输入投喂到编码器中，并测验考试利用解码器天生人工编写的代码。这时候，你可以看到这与编码器-解码器架构强迫履行的布局很是天然地吻合，丧失与预练习使命彻底不异。

还有有一个天生测试输入的Transformer。这也是从统一个 github 预练习使命初始化而来的，但它是颠末微调来天生测试输入，而不是天生代码。

7Transformer架构

DeepMind 团队对于各类巨细的模子举行了试验。经试验，较年夜范围的模子往往体现更好。编码器及解码器自己由多头留意力层构成，且这些层很是尺度。

清华博士后用10分钟讲解AlphaCode背后的技术原理，原来程序员不是那么容易被取代的！

8其他技巧

该论文有很多前进的地方。于这里，我不筹算全数先容，只想夸大一个我认为很酷炫的点，就是标签及评级加强，以和问题描写。

清华博士后用10分钟讲解AlphaCode背后的技术原理，原来程序员不是那么容易被取代的！

咱们老是将元数据作为Transformer的输入。这包括问题的编程语言难度等级。一些问题的标签与解决方案于练习时是否准确？他们显然知道这些字段的值是甚么，可是于测试时他们其实不知道甚么是酷炫的，那就是他们现实上可以于测试时将差别的内容输入到这些字段中以影响天生的代码。例如，你可以节制体系将天生的编程语言，甚至影响这类解决方案。

它测验考试天生好比是否测验考试动态编程要领或者举行详尽搜刮的谜底。他们于测试时发明有帮忙的是，当他们对于 100 万个解决方案的初始池举行抽样时，是将此中的很多字段随机化。经由过程于这个初始池中拥有更多的多样性，此中一个代码剧本更有多是准确的。

9结语以上就是 Tea Pearce 对于 AlphaCode 事情道理的解说。从AlphaCode的事情出发，他谈到本身的思索：为何DeepMind团队于这些编码问题上实现的机能程度比于围棋（AlphaGo）或者星际争霸（AlphaZero）游戏中的超人程度体系要低患上多呢？Tea Pearce的阐发是，从天然语言描写中编写代码素质上就比玩游戏要坚苦患上多，但这也多是由于游戏中可用的数据少患上多。你可以按照需要模仿尽可能多的数据，而编码问题的数目是有限的。末了，Tea Pearce抛出问题：AI写代码之以是难的缘故原由多是甚么？于将来，AI的代码程度要如何才能逾越人类最优程度？接待于评论区留言会商。

参考链接：

1.https://www.youtube.com/watch?v=YjsoN5aJChA

2.https://www.reddit.com/r/MachineLearning/co妹妹ents/slwh69/p_alphacode_explained/

3.https://storage.谷歌apis.com/deepmind-media/AlphaCode/competition_level_code_generation_with_alphacode.pdf

4.https://www.deepmind.com/blog/article/Competitive-progra妹妹ing-with-AlphaCode

清华博士后用10分钟讲解AlphaCode背后的技术原理，原来程序员不是那么容易被取代的！

雷峰网(公家号：雷峰网)雷峰网

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

-米兰·(milan)中国官方网站

加入收藏

Tag：米兰·(milan)

上一篇：中国人民抗日战争暨世界反法西斯战争胜利80周年专题（四）

下一篇：暂无

返回列表

米兰·(milan)中国官方网站-清华博士后用10分钟讲解AlphaCode背后的技术原理，原来程序员不是那么容易被取代的！

随便看看

产品推荐

哆啦A梦：伴我同行

八月未央

夏洛特烦恼

风再起时

云飞丝路天