米兰·(milan)中国官方网站-不可能三角:预训练语言模型的下一步是什么?
PLM的不成能三角困境。编译 | 王玥
编纂 | 陈彩娴
最近几年来,年夜范围预练习语言模子(PLM)显著提高了各类NLP使命的机能。由BERT及GPT-2最先,自监视预练习范式及监视的微调范式取患了巨年夜的乐成,并刷新了很多天然语言处置惩罚范畴的开始进结果,如语义相似度、呆板浏览理解、知识推理及文本择要等。此外,这些PLM的范围为中等(即巨细低在1B参数),令模子可以做出广泛且快速的微调与顺应。
然而于很多真正的、尤其是新奇的NLP场景中,因为预算或者时间限定,用在有用微调的标志数据很是有限。这就刺激了零样本及少样本NLP模子的开发。
从GPT-3最先,超年夜范围 PLM (SL-PLM)于只给出使命描写及一些手工示例的环境下,于一般的NLP使命上体现出了优胜的机能。这类能力之前于中等范围的PLM中没有不雅察到。然而,这些SL-PLM史无前例的超年夜范围于很年夜水平上拦阻了其广泛运用。人们甚至很难得到充足的计较资源来加载如许的模子,更不消说有用的部署及微调了。是以咱们认为,今朝还有没有一种轻量级PLM于监视进修及一般NLP使命的零/少样本进修场景中都具备精彩的机能。这致使了于现实场景中利用这些PLM时需要投入年夜量的分外事情。
对于在PLM来讲,好像孕育发生了中等范围,零/少样本进修能力及微调能力三者不成同时呈现的困境。日前,微软认知办事研究小组研究员朱晨曦(Chenguang Zhu)和 Michael Zeng于其新论文《Impossible Triangle: What’s Next for Pre-trained Language Models?》中将这类困境称为“不成能三角”。
据悉,朱晨曦本科卒业在清华姚班,后取患上斯坦福年夜学计较机系博士学位,卒业落伍入微软公司,现为微软公司天然语言处置惩罚高级研究员。此前,AI科技评论对于朱晨曦博士做过一次人物专访,更多内容可看:《朱晨曦:一个从欠亨宵的AI研究员》。
1不成能三角
PLM的不成能三角包罗了于现实场景中部署模子所需的三个属性,别离是:
P1:模子范围适中,即参数小在10亿
P2:SoTA少样本进修能力
P3::SoTA微调能力
三角形图源:https://co妹妹ons.wikimedia.org/wiki/File:Penrose_triangle.svg
图为描写当前PLM障碍的不成能三角形,这个三角形描绘了三个PLM要害属性:P1,即模子范围适中,P2,即SoTA少样本进修能力,以和P3,即SoTA监视进修能力。这三个属性对于应在PLM现实运用中的三个要求:P1是利用合理数目的计较资源举行高效部署;P2对于应标志数据为零或者很少的环境;而P3对于应标志数据相对于富厚的情景。
不成能三角形存于的一个缘故原由是,于当前阶段,只有当PLM到达极年夜的范围并具备充足的模子容量时,才会拥有强盛的少样本进修能力。虽然iPET设计了中等巨细的PLM,从而实现比GPT-3更佳的少样本进修机能,但已经经被厥后的SL-PLM(如PaLM)逾越。跟着模子范围的增年夜,咱们可以不雅察到零样本/少样本进修机能的不持续改善。例如,与参数为8B及62B的模子比拟,参数为540B的PaLM于很多使命上的正确性都有了巨年夜奔腾。是以,开发出一个具备SoTA零/少样本进修机能的中等巨细模子,同时又连结崇高高贵的监视进修能力,仍旧是一个巨年夜的挑战。
虽然没有一个PLM能实现不成能三角中的所有三个特征,但很多PLM已经经具有了此中的一or两个属性:
中等范围的PLM(具有P1 + P3的属性),这些语言模子属在中等巨细,参数小在10亿个,从而可以或许有用地举行模子调优及部署。它们于一般的NLP使命中均可以到达SoTA机能,这些NLP使命包括GLUE基准测试、文本择要、开放域问题回覆及知识推理等。然而这些模子的零/少样本进修能力凡是相对于较弱,这象征着利用这些模子需要依靠方针域中充足的标志数据。
具有P2属性的超年夜范围PLM,这些语言模子有极年夜的范围(参数从10到1000亿不等),且已经经于超年夜范围的数据上预练习过。拥有5400亿个参数、于7800亿个单词的文本语料库长进行了预练习的PaLM就属此列。当只提醒使命描写及极少量输入输出对于示例时,他们于一般的零/少样本NLP使命中已经经实现了SoTA机能。然而总的来讲,1)SL-PLM的零/少样本进修机能低在有监视练习的模子,2)颠末微调后,很多SL-PLM的机能仍旧低在最佳的颠末微调的中等巨细的PLM,这可能就是由于它们的模子范围太年夜。
2改善办法因为不成能三角的存于,学界及工业界采纳了很多办法来解决实践中所利用的PLM所缺乏的能力。总结以下:
极年夜模子(缺乏P1):这类环境呈现于需要部署一个超年夜PLM的时辰。为了得到一个中等范围、机能与SL-PLM近似的模子,经常使用的做法是常识蒸馏(KD)。于KD中,较年夜的模子是教员,较小的模子是学生,从西席的猜测漫衍及/或者参数中进修。常识提取于创立更高效的模子时很是有用,只需要捐躯一点机能。然而,这里仍旧存于两个问题。起首,学生很难到达及教员同样的体现。其次,SL-PLM的巨年夜范围拦阻了有用的推理,使它们不利便作为西席模子。
零/少样本进修机能较差(缺乏P2)。这对于在中等范围的PLM最多见,它们于微调后可以实现SoTA机能,但具备相对于较低的零/少样本进修能力。于很多场景中,当缺乏充足的标志数据时,但愿部署如许的模子。是以,解决这个问题的一种要领是数据加强,天生伪标签及伪数据实例使患上模子可以使用这些分外的数据举行有用的监视练习。然而,伪数据质量的乱七八糟及差别使命中数据类型的多样性对于遍及合用的解决方案提出了挑战。
监视练习体现欠佳(缺少P3)。这类环境于利用SL-PLM时很常见,于这类环境下,计较资源有限使患上微调超年夜型模子的所有参数变患上好不容易。一个典型解决方案是prompt进修。咱们可以使用hard prompt,如离散文本模板,或者 soft prompt,如持续参数嵌入,以便于微调时期仅更新 hard prompt 词或者 soft prompt 参数。这些要领已经被证实对于在提高SL-PLM 的正确度十分有用。然而,这些要领的效果对于prompt以和练习数据的选择很是敏感,且终极效果一般仍旧低在监视进修后的中等范围PLM。
以上提到的这些分外事情拖慢了练习及部署PLM模子的进程。并且对于在差别下流使命或者产物,需要不停举行这些事情。是以,假如一个PLM可以或许实现这个不成能三角形,则将年夜年夜加速模子练习及实用的历程。
3瞻望将来虽然今朝于NLP模子中存于不成能三角形,但研究者认为可以经由过程三阶段的要领来解决这个问题。
阶段1:开发PLM以到达三角形中的某些属性,并同时改良其他缺掉的属性。例如,提高一个具备SoTA监视进修能力的中等范围模子于少样本进修上的效果;或者将具备SoTA少样本进修能力的SL-PLM压缩成更小的模子,并使其具备更好的监视进修机能。
阶段2:于一个或者几个NLP使命上实现具备所有三个指望属性的PLM。为了实现这一点,可以使用方针使命的非凡性。例如,于某些使命上,模子机能对于在练习数据范围的依靠性较小,零/少样本进修及监视进修机能之间的差距较小,等等。
阶段3:于第一阶段及第二阶段的基础上开发于通用NLP使命上实现所有三个属性的PLM。可能利用到的要领有:i) 用更年夜数据预练习一个中等范围模子; ii) 更好地举行常识蒸馏; iii) 泛化数据加强要领等。一旦一个PLM于通用NLP使命中具有了不成能三角形的所有三个特征,将很年夜水平上转变整个NLP研究及运用的格式,促成快速、高效及高质量的模子开发及部署。
原文链接:https://arxiv.org/pdf/2204.06130.pdf

雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





