米兰·(milan)中国官方网站-字节跳动 AI Lab 总监李航:语言模型的过去、现在和未来

作者 | 李航
编译 | 李梅、黄楠
编纂 | 陈彩娴
从俄国数学家 Andrey Markov (安德烈·马尔可夫)提出闻名的「马尔科夫链」以来,语言建模的研究已经经有了 100 多年的汗青。最近几年来,天然语言处置惩罚(NLP)发生了革命性的变化。2001年,Yoshua Bengio 用神经收集举行参数化的神经语言模子,开启了语言建模的新时代。其后,预练习语言模子如 BERT 及 GPT 的呈现再次将 NLP 提高到一个新的程度。
近来,字节跳动 AI Lab 的总监李航博士于《ACM通信》(The Co妹妹unications of ACM)上发表了一篇综述文章,展示了他对于在语言模子于已往、此刻及将来的不雅察。
于本文中,李航博士起首先容了马尔可夫及喷鼻农基在几率论研究的语言建模的基本观点。以后,他会商了乔姆斯基提出的基在情势语言理论的语言模子,描写了作为传统语言模子的扩大的神经语言模子的界说。其后,他注释了预练习语言模子的基本思惟,末了会商了神经语言建模要领的上风及局限性,并对于将来的趋向举行猜测。
李航认为,于将来几年,神经语言模子特别是预练习的语言模子仍将是 NLP 最有力的东西。他指出,预练习语言模子具备两年夜上风,其一,它们可以光鲜明显提高很多 NLP 使命的正确性;例如,可以使用 BERT 模子来实现比人类更好的语言理解机能,于语言天生方面还有可以使用 GPT-3 模子天生近似人类写作的文本。其二,它们是通用的语言处置惩罚东西。于传统的 NLP 中举行基在呆板进修的使命,必需标志年夜量数据来练习一个模子,比拟之下,今朝只需要标志极少量数据来微调预练习的语言模子,由于它已经经得到了语言处置惩罚所需的年夜量常识。
于文中,李航还有提出一个主要的问题,即怎样设计神经收集来使模子于表征能力及计较效率方面更靠近在人类语言处置惩罚历程。他建议,咱们该当从人类年夜脑中寻觅灵感。

李航,字节跳感人工智能试验室总监、ACL Fellow、IEEE Fellow、ACM 卓异科学家。他硕士卒业在日本京都年夜学电气工程系,后于东京年夜学取患上计较机科学博士学位。卒业以后,他前后就职在 NEC 公司中心研究所(任研究员)、微软亚洲研究院(任高级研究员与主任研究员)、华为技能有限公司诺亚方舟试验室(任首席科学家)。李航博士的重要研究标的目的包括天然语言处置惩罚、信息检索、呆板进修、数据挖掘等。
如下是 AI 科技评论于不转变原意的基础上对于原文所作编译。
天然语言处置惩罚是计较机科学、人工智能及语言学订交叉的一个子范畴,于呆板翻译、浏览理解、对于话体系、文档择要、文本天生等方面都有运用。最近几年来,深度进修已经成为 NLP 的基础技能。
利用数学要领对于人类语言建模有两种重要要领:一种是基在几率理论,另外一种是基在情势语言理论。这两种要领也能够联合利用。从基本框架的角度来看,语言模子属在第一类。
情势上,语言模子是界说于单词序列(句子或者段落)上的几率漫衍。它是基在几率论、统计学、信息论及呆板进修的天然语言文本建模的主要机制。深度进修的神经语言模子,尤其是近来开发的预练习语言模子,已经成为天然语言处置惩罚的基本技能。
1马尔可夫与语言模子Andrey Markov (安德烈·马尔可夫)多是第一名研究语言模子的科学家,只管其时「语言模子」一词尚不存于。
假定 w((1)), w((2)), ···, w((N)) 是一个单词序列。咱们可以计较这个单词序列的几率以下:

设 p(w((1))|w((0))) = p(w((1))) 。差别类型的语言模子利用差别的要领来计较前提几率 p(w((i))|w((1)), w((2)), ···, w((i-1))) 。进修及利用语言模子的历程称为语言建模。n-gram 模子是一种基本模子,它假定每一个位置呈现甚么单词仅取决在前 n-1个 位置上是甚么单词。也就是说,该模子是一个 n–1 阶马尔可夫链。

马尔可夫于 1906 年研究出了马尔可夫链。他一最先思量的模子很是简朴,于这个模子中,只有两个状况及这些状况之间的转换几率。他证实,假如按照转换几率于两个状况之间跳跃,那末拜候两个状况的频率将收敛到指望值,这就是马尔可夫链的遍历定理。于接下来的几年里,他扩大了该模子,并证实了上述结论于更通用的环境下仍旧建立。
这里举一个详细的例子。1913年,马尔可夫将他提出的模子运用在亚历山年夜·普希金的诗体小说《尤金·奥涅金》中。他去失文本中的空格及标点符号,将小说的前 20000 个俄语字母分为元音及子音,从而获得小说中的元音及子音序列。然后,他用纸及笔计较出元音及子音之间的转换几率。末了,这些数据被用来验证最简朴的马尔可夫链的特性。
很是有趣的是,马尔可夫链最最先被运用的范畴是语言。马尔可夫研究的这个例子就是一个最简朴的语言模子。
2喷鼻农与语言模子1948年, Claude Shannon (克劳德·喷鼻农)发表了一篇创始性的论文 “The Mathematical Theory of Co妹妹unication”(《通讯的数学理论》),斥地了信息论这一研究范畴。于这篇论文中,喷鼻农引入了熵及交织熵的观点,并研究了 n-gram 模子的性子。(按照冯·诺依曼的建议,喷鼻农借用了统计力学中的“熵”一词。)
熵暗示一个几率漫衍的不确定性,交织熵则暗示一个几率漫衍相对于在另外一个几率漫衍的不确定性。熵是交织熵的下限。
假定语言(即一个单词序列)是由随机历程天生的数据。n-gram 的几率漫衍熵界说以下:

此中 p(w((1)), w((2)), ···, w((n))) 暗示 n-gram w((1)), w((2)), ···, w((n)) 的几率。n-gram 几率漫衍相对于在数据“真实”几率漫衍的交织熵界说以下:

此中, q(w((1)), w((2)), ···, w((n))) 暗示 n-gram w((1)), w((2)), ···, w((n)) 的几率,p(w((1)), w((2)), ···, w((n))) 暗示 n-gram w((1)), w((2)), ···, w((n)) 的真实几率。如下瓜葛建立:

Shannon-McMillan-Breiman 定理指出,当语言的随机历程满意平稳性及遍历性前提时,如下瓜葛建立:

换句话说,当单词序列长度趋在无限年夜时,就能够界说语言的熵。熵取一个常数值,可以从语言数据中举行预计。
假如一种语言模子比另外一种语言模子更能正确地猜测单词序列,那末它应该具备较低的交织熵。是以,喷鼻农的事情为语言建模提供了一个评估东西。
需要留意的是,语言模子不仅可以对于天然语言举行建模,还有可以对于情势语言及半情势语言举行建模。
3乔姆斯基与语言模子与此同时, 美国语言学家 Noam Chomsky(诺姆·乔姆斯基)于 1956 年提出了乔姆斯基语法布局,用在暗示语言的句法。他指出,有限状况语法以和 n-gram 模子于描写天然语言方面具备局限性。
乔姆斯基的理论认为,一种语言由一组有限或者无穷的句子构成,每一个句子包罗一系列长度有限的单词。单词来自有限的辞汇库,语法作为一组用在天生句子的法则,可以天生语言中的所有句子。差别的语法可以孕育发生差别繁杂水平的语言,从而组成一个条理布局。
有限状况语法或者正则语法,是指可以或许天生有限状况机可以接管的句子的语法。而可以或许天生非确定性下推主动机(non-deterministic pushdown automaton)可以接管的句子的语规则是上下文无关语法。有限状况语法包罗于上下文无关语法中。
有限马尔可夫链(或者 n-gram 模子)暗地里的「语法」就是有限状况语法。有限状况语法于天生英语句子方面确凿有局限性。比喻说,英语的表达式之间存于如(i)及(ii)中的语法瓜葛。
(i) If S1, then S2.
(ii) Either S3, or S4.
(iii) Either if S5, then S6, or if S7, then S8
原则上,咱们可以无穷地将这些瓜葛举行组合以孕育发生准确的英语表达,好比(iii)。然而,有限状况语法没法穷尽描写所有的组合,并且于理论上,有些英语句子是没法被涵盖的。是以,乔姆斯基认为,用有限状况语法包括 n-gram 模子来描写语言有很年夜的局限性。相反,他指出上下文无关语法可以更有用地建模语言。于他的影响下,接下来的几十年里,上下文无关语法于天然语言处置惩罚中更为经常使用。于今天,乔姆斯基的理论对于天然语言处置惩罚的影响不年夜,但它仍具备主要的科学价值。
4神经语言模子2001年,Yoshua Bengio 及他的合著者提出了最早的神经语言模子之一,创始了语言建模的新时代。尽人皆知,Bengio、Geoffrey Hinton 及 Yann LeCun 于观点及工程上的冲破使深度神经收集成为计较的要害部门,他们是以而得到 2018 年图灵奖。
n-gram 模子的进修能力有限。传统要领是利用光滑要领从语料库中预计模子中的前提几率 p(w((i))|w((i-n+1)), w((i-n+2)), ···, w((i-1))) 。然而,模子中的参数数目为指数级 O(V((n))),此中 V 暗示辞汇量。当 n 增年夜时,因为练习数据的稀少性,就没法正确地进修模子的参数。
Bengio 等人提出的神经语言模子从两个方面改良了 n-gram 模子。起首,被称为词嵌入的实值向量,可用在暗示单词或者单词组合。单词嵌入的维度比单词的独热向量(one-hot vector)的维度要低患上多,独热向量经由过程辞汇巨细的向量暗示文本中的词,此中只有对于应在该词的项是 1,而其他所有项都是 0。
词嵌入作为一种「漫衍式暗示」,可以比独热向量更有用地暗示一个词,它具备泛化能力、鲁棒性及可扩大性。其次,语言模子是由神经收集暗示的,这年夜年夜削减了模子中的参数数目。前提几率由神经收集确定:

此中 (w((i-n+1)), w((i-n+2)), ···, w((i-1))) 暗示单词 w((i-n+1)), w((i-n+2)), ···, w((i-1)) ;f(·) 暗示神经收集;ϑ 暗示收集参数。模子中的参数数目仅为 O(V) 阶。下图显示了模子中各表征之间的瓜葛。每一个位置都有一个中间表征,它取决在前 n–1个 位置处的单词嵌入(单词),这个原则合用在所有位置。利用当前位置的中间表征可以为该位置天生一个单词。
图 1:于初始神经语言模子中各表征之间的瓜葛于 Bengio 等人的事情以后,年夜量的词嵌入要领及神经语言建模要领被开发出来,从差别的角度未语言建模带来了改良。
词嵌入的代表性要领包括 Word2Vec。代表性的神经语言模子是轮回神经收集语言模子 (RNN) ,如是非期影象语言模子 (LSTM) 。于一个 RNN 语言模子中,每一个位置上单词的前提几率由一个 RNN 决议:

此中 w((1)), w((2)), ···, w((i-1)) 暗示词的嵌入 w((1)), w((2)), ···, w((i-1));f(·) 暗示 RNN;ϑ 暗示收集参数。RNN 语言模子再也不利用马尔可夫假定,每一个位置上的单词都取决在以前所有位置上的单词。RNN 的一个主要观点是它的中间表征或者状况。词之间的依靠瓜葛以 RNN 模子中状况之间的依靠瓜葛为特性。模子的参数于差别的位置可以同享,但于差别的位置获得的表征是差别的。
下图显示了 RNN 语言模子中各表征之间的瓜葛。每一个位置的每一一层都有一个中间表征,它暗示到今朝为止单词序列的「状况」。当前层于当前位置的中间表征,由统一层于前一名置的中间表征及下一层于当前位置的中间表征决议。当前位置的终极中间表征用在计较下一个单词的几率。

图 2:RNN 语言模子中各表征之间的瓜葛。这里标志了句首(bos)及句尾(eos)。
语言模子可用在计较语言(词序列)的几率或者天生语言。好比于天生语言方面,可以经由过程从语言模子中随机抽样来天生天然语言的句子或者文章。尽人皆知,从年夜量数据中进修的 LSTM 语言模子可以天生很是天然的句子。
对于语言模子的一个扩大是前提语言模子,它计较一个词序列于给定前提下的前提几率。假如前提是另外一个词序列,那末问题就酿成了从一个词序列到另外一个词序列的转换——即所谓的序列到序列问题,触及的使命如呆板翻译、文本择要及天生对于话。假如给定的前提是一张图片,那末问题就酿成了从图片到单词序列的转换,好比图象捕获使命。
前提语言模子可以用于各类各样的运用步伐中。于呆板翻译中,于连结不异语义的前提下,体系将一种语言的句子转换成另外一种语言的句子。于对于话天生中,体系对于用户的话语孕育发生相应,两条动静组成一轮对于话。于文本择要中,体系将长文本转换为漫笔本,后者包罗前者的要点。由模子的前提几率漫衍所暗示的语义因运用步伐而异,并且它们都是从运用步伐中的数据中来进修的。
序列到序列模子的研究为新技能的成长做出了孝敬。一个具备代表性的例子是由 Vaswani 等人开发的 Transformer。Transformer 彻底基在留意力机制,使用留意力于编码器之间举行编码及解码,以和于编码器及解码器之间举行。今朝,险些所有的呆板翻译体系都采用了 Transformer 模子,并且呆板翻译已经经到达了可以满意现实需要的程度。此刻险些所有预练习的语言模子都采用 Transformer 架构,由于它于语言暗示方面具备卓着的能力。
5预练习语言模子预练习语言模子的基本思惟以下。起首,基在如 transformer 的编码器或者解码器来实现语言模子。该模子的进修分两个阶段:一是预练习阶段,经由过程无监视进修(也称为自监视进修)利用年夜量的语料库来练习模子的参数;二是微调阶段,将预练习的模子运用在一个特定的使命,并经由过程监视进修利用极少量标志数据进一步骤整模子的参数。下表中的链接提供了进修及利用预练习语言模子的资源。

预练习语言模子有三种: 单向、双向及序列到序列。因为篇幅所限,这里只先容前两种类型。所有重要的预练习语言模子都采用了 Transformer 架构。下表是对于现有的预练习语言模子的归纳综合。

Transformer 有很强的语言暗示能力。一个很是年夜的语料库会包罗富厚的语言表达(如许的未标志数据很轻易得到),练习年夜范围深度进修模子就会变患上越发高效。是以,预练习语言模子可以有用地暗示语言中的辞汇、句法及语义特性。预练习语言模子如 BERT 及 GPT(GPT-一、GPT-2 及 GPT-3),已经成为当前 NLP 的焦点技能。
预训的语言模子的运用为 NLP 带来了巨年夜的乐成。「微调」的 BERT 于语言理解使命(如浏览理解)的正确性方面优在人类。「微调」的 GPT-3 于文本天生使命中也到达了惊人的流畅水平。要留意的是,这些成果仅注解呆板于这些使命中具备更高的机能;咱们不该简朴地将其理解为 BERT 及 GPT-3 能比人类更好地舆解语言,由于这也取决在怎样举行基准测试。从汗青上可以看到,对于人工智能技能持有准确的理解及指望,对于在呆板的康健发展及成长至关主要。
Radford 等人及 Brown 等人开发的 GPT 具备如下架构。输入是单词的序列 w((1)), w((2)), ···, w((N))。起首,经由过程输入层,创立一系列输入表征,记为矩阵 H(((0)))。于经由过程 L 个 transformer 解码器层以后,创立一系列中间表征序列,记为矩阵 H(((L)))。

末了,基在该位置的终极中间表征来计较每一个位置的单词几率漫衍。GPT 的预练习与传统的语言建模不异。方针是猜测单词序列的可能性。对于在给定的词序列 w = w((1)), w((2)), ···, w((N)),咱们计较并最小化交织熵或者负对于数似然来预计参数 :

此中 ϑ 指 GPTs 模子的参数。
下图显示了 GPTs 模子中各表征之间的瓜葛。每一个位置上的输入表征由词嵌入及“位置嵌入”构成。每一个位置上的每一一层的中间表征是从下一层于先前位置上的中间表征创立的。单词的猜测或者天生于每一个位置从左到右反复履行。换句话说,GPT 是一种单向语言模子,此中单词序列是从单一标的目的建模的。(留意,RNN 语言模子也是单向语言模子。)是以,GPT 更合适解决主动天生句子的语言天生问题。

图 3:GPTs 语言模子中各表征之间的瓜葛。这里标志了句首(bos)及句尾(eos)。
由 Devlin 等人开发的 BERT 具备如下架构。输入是一个单词序列,它可所以来自单个文档的持续句子,也能够是来自两个文档的持续句子的串联。这使患上该模子合用在以一个文本为输入的使命(例如文天职类),以和以两个文本为输入的使命(例如回覆问题)。起首,经由过程输入层,创立一系列输入表征,记为矩阵 H(((0)))。经由过程 L 个 transformer 编码器层以后,创立一个中间表征序列,记为 H(((L)))。

末了,可以按照该位置上的终极中间表征,来计较每一个位置上单词的几率漫衍。BERT 的预练习被履行为所谓的掩码语言建模。假定词序列为 w = w((1)), w((2)), ···, w((N))。序列中的几个单词被随机遮蔽——即更改成非凡符号 [mask] —— 从而孕育发生一个新的单词序列
此中掩码词的调集记为
进修的方针是经由过程计较及最小化下面的负对于数似然来预计参数,以恢复被遮蔽的单词:

此中 ϑ 暗示 BERT 模子的参数,δ((i)) 取值为 1 或者 0,暗示位置 i 处的单词是否被遮蔽。留意,掩码语言建模已经经是一种差别在传统语言建模的技能。
图4展示了 BERT 模子中暗示之间的瓜葛。每一个位置的输入暗示由词嵌入、「位置嵌入」等构成,每一层于每一个位置的中间表征,是由下面一层于所有位置的中间表征创立的,词的猜测或者天生是于每一个掩码位置自力举行的--拜见(图3)。也就是说,BERT是一个双向语言模子,此中单词序列是从两个标的目的建模的。是以,BERT可以天然地运用在语言理解问题,其输入是整个单词序列,其输出凡是是一个标签或者一个标签序列。

图 4:BERT 模子中各表征之间的瓜葛。这里暗示代表整个输入序列的非凡符号。
对于预练习语言模子的一个直不雅注释是,呆板于预练习中按照年夜型语料库举行了年夜量的单词接龙(GPT)或者单词完形填空训练(BERT),捕获到由单词构成句子的各类模式,由句子构成文章,并于模子中表达及影象了这些模式。
一个文本不是由单词及句子随机孕育发生的,而是基在词法、句法及语义法则来构建。GPT 及 BERT 可以别离利用转化器的解码器及编码器,来实现语言的组合性(组合性是语言最基本的特性,它也是由Chomsky 条理布局中的语法所建模的)。换句话说,GPT 及 BERT 于预练习中已经经得到了相称数目的辞汇、句法及语义常识。是以,当顺应微调中的特定使命时,只需极少量标志数据便可对于模子举行细化,从而实现高机能。例如,人们发明 BERT 的差别层有差别的特色,底层重要代表词法常识,中间层重要代表句法常识,而顶层重要代表语义常识。
预练习的语言模子(没有微调),例如 BERT 及 GPT-3,就包罗年夜量的事实常识,它们可以用往返答诸如「但丁于哪里出生?」之类的问题,只要它们于练习数据中得到了常识,就能够举行简朴的推理,例如「48加76是几多?」
可是语言模子自己没有推理机制,其「推理」能力是基在遐想、而不是真实的逻辑推理。是以,它们于需要繁杂推理的问题上体现欠安,包括论证推理、数值及时间推理及话语推理,将推理能力及语言能力集成到 NLP 体系中,将是将来的一个主要课题。
6将来瞻望今世科学(脑科学及认知科学)对于人类语言处置惩罚机制(语言理解及语言天生)的理解有限。于可预感的将来,很丢脸到有庞大冲破发生,永远不会冲破的可能性是存于的。另外一方面,咱们但愿不停鞭策人工智能技能的成长,开发出对于人类有效的语言处置惩罚呆板,神经语言建模好像是迄今为止最乐成的要领。
今朝看来,神经语言建模是迄今为止最乐成的要领,它的基本特性没有转变--那就是,它依靠在于包罗所有单词序列的离散空间中界说的几率漫衍。进修历程是为了找到最好模子,以便交织熵于猜测语言数据的正确性方面是最高的(图5)。
神经语言建模经由过程神经收集构建模子,其长处于在,它可以使用繁杂的模子、年夜数据及强盛的计较来很是正确地模仿人类语言举动。从 Bengio 等人提出的原始模子、到 RNN 语言模子以和 GPT 及 BERT 等预练习语言模子,神经收集的架构变患上愈来愈繁杂(如图1-4),而猜测语言的能力也愈来愈高(交织熵愈来愈小)。然而,这其实不必然象征着这些模子具备及人类同样的语言能力,并且其局限性也是不问可知的。

图5:呆板经由过程调解其「年夜脑」内的神经收集参数来模拟人类语言举动,终极它可以像人类同样处置惩罚语言
那末,有其他可能的成长路径吗?今朝还有不清晰。但可以预感的是,神经语言建模的要领仍有许多改良时机。
今朝,神经语言模子与人脑于暗示能力及计较效率(功耗方面)方面还有有很年夜差距,成人年夜脑的事情功率仅为 12 W,而练习 GPT-3 模子耗损了数千 Petaflop/s-day,这形成为了光鲜的对于比。可否开发出更好的语言模子、使其更靠近人类语言处置惩罚,是将来研究的主要标的目的。咱们可以从有限的脑科学发明中进修,技能晋升仍旧有许多时机。
人类语言处置惩罚被认为重要于年夜脑皮层的两个年夜脑区域举行:布罗卡区及韦尼克区(图6)。前者卖力语法,后者卖力辞汇。脑毁伤致使掉语的典型案例有两种,布罗卡区受伤的患者只能说出零散的单词而没法说出句子,而韦尼克区受伤的患者可以构建语法准确的句子,但单词往往缺少意义。
一个天然的假定是,人类语言处置惩罚是于两个年夜脑区域中并行举行的,是否需要采用更人道化的处置惩罚机制是一个值患上研究的课题。正如Chomsky所指出的,语言模子没有明确地利用语法,也不克不及无穷地组合语言,这是人类语言的一个主要属性,将语法更直接地联合到语言模子中的能力、将是一个需要研究的问题。

图6:人脑中卖力语言处置惩罚的区域
脑科学家认为,人类语言理解是于潜意识中激活相干观点的表征、并于意识中天生相干图象的历程。表征包括视觉、听觉、触觉、嗅觉及味觉表征,它们是人于发展及发育历程中的履历、于年夜脑各部门影象的观点的视觉、听觉、触觉、嗅觉及味觉内容。
是以,语言理解与人们的经验紧密亲密相干。糊口中的基本观点,好比猫及狗,都是经由过程视觉、听觉、触觉等传感器的输入来进修的,当听到或者看到「猫」及「狗」这两个词,就会从头激活人们年夜脑中与其相干的视觉、听觉及触觉表征。
呆板可否从年夜量的多模态数据(语言、视觉、语音)中进修更好的模子,从而更智能地处置惩罚语言、视觉及语音?多模态语言模子将是将来摸索的主要课题。近来,该主题的研究也取患了一些进展——例如,Ramesh 等人发表的「Zero-shot text-to-image generation」,Radford 等人的「Learning transferable visual models from natural language supervision」。
7结语语言模子的汗青可以追溯到一百多年前,Markov、Shannon 等人没有预感到他们所研究的模子及理论会于厥后孕育发生云云年夜的影响;对于 Bengio 来讲,这甚至多是出乎意料的。
将来一百年,语言模子将怎样成长?它们仍旧是人工智能技能的主要构成部门吗?这可能凌驾了咱们所能想象及猜测的规模。但可以看到,语言建模技能于不停成长。于将来几年,可能有更强盛的模子呈现会代替 BERT 及 GPT,咱们有幸成为看到巨年夜成绩的技能、并介入研发的第一代。
原文链接:https://cacm.acm.org/magazines/2022/7/262080-language-models/fulltext更多内容,点击下方存眷:
扫码添加 AI 科技评论 微旌旗灯号,投稿 进群:

雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





