米兰·(milan)中国官方网站-Hinton 最新研究:神经网络的未来是前向

作者 | 李梅、黄楠
编纂 | 陈彩娴
已往十年,深度进修取患了惊人的胜利,用年夜量参数及数据做随机梯度降落的要领已经经被证实是有用的。而梯度降落利用的凡是是反向流传算法,以是一直以来,年夜脑是否遵照反向流传、是否有其它方式得到调解毗连权重所需的梯度等问题都备受存眷。
图灵奖患上主、深度进修前驱 Geoffrey Hinton 作为反向流传的提出者之一,于最近几年来已经经屡次提出,反向流传其实不能注释年夜脑的运作方式。相反,他正于提出一种新的神经收集进修要领——前向-前向算法(Forward‑Forward Algorithm,FF)。
于近来的 NeurIPS 2022 年夜会上,Hinton 发表了标题问题为《The Forward-Forward Algorithm for Training Deep Neural Networks》的特邀演讲,阐述了前向算法比拟在反向算法的优胜性。论文的初稿《The Forward-Forward Algorithm: Some Preliminary Investigations》已经经放于了其多伦多年夜学的主页上:
论文地址:https://www.cs.toronto.edu/~hinton/FFA13.pdf与反向流传算法利用一个前向通报+一个反向通报差别,FF 算法包罗两个前向通报,此中一个利用正(即真实)数据,另外一个利用收集自己天生的负数据。
Hinton 认为,FF 算法的长处于在:它能更好地注释年夜脑的皮层进修,而且能以极低的功耗模仿硬件。
Hinton 倡导应抛却软硬件分散的计较机形态,将来的计较机应被设计为“非长生的”(mortal),从而年夜年夜节省计较资源,而 FF 算法恰是能于这类硬件中高效运行的最好进修要领。
这也许恰是将来解决万亿参数级另外年夜模子算力掣肘的一个抱负路子。
1FF 算法比反向算法
更能注释年夜脑、更节能
于 FF 算法中,每一一层都有本身的方针函数,即对于正数据具备高优度,对于负数据具备低优度。层中勾当平方及可用作优度,此外还有包括了诸多其他的可能性,例如减去勾当平方及等。
假如可以和时分散正负通报,则负通报可以离线完成,正通报的进修也会越发简朴,而且答应视频经由过程收集举行传输,而无需存储勾当或者终止流传导数。
Hinton 认为,FF 算法于两个方面优在反向流传:
一,FF 是注释年夜脑皮层进修的更优模子;
二,FF 越发低耗能,它利用极低功耗模仿硬件而没必要乞助在强化进修。
没有切实证据可以证实,皮层流传过错导数或者存储神经勾当是用在后续的反向流传。从一个皮层区域到视觉通路中较早的区域自上而下的毗连,其实不能反应出于视觉体系中利用反向流传时所预期的自下而上毗连。相反,它们形成为了轮回,此中神经勾当颠末两个区域、约莫六个皮层,然后回到它最先之处。
作为进修序列的方式之一,经由过程时间的反向流传可托度其实不高。为了于不频仍暂停的环境下处置惩罚觉得输入流,年夜脑需要经由过程觉得来处置惩罚的差别阶段传输数据,而且还有需要一个可以即时进修的历程。管道后期表征可能会于后续时间里提供影响管道初期阶段表征的自上而下的信息,但感知体系需要及时举行推理及进修,而非住手举行反向流传。
这傍边,反向流传的另外一个严峻限定于在,它需要彻底相识前向流传履行的计较才能推出准确的导数。假如咱们于前向流传中插入一个黑盒,除了非进修黑盒的可微分模子,不然反向流传没法履行。
而黑盒不会对于 FF 算法的进修历程造成影响,由于不需要经由过程它举行反向流传。
当没有完善的正向流传模子时,咱们可以从多种强化进修方式中入手。此中的一个设法是,对于权重或者神经勾当举行随机扰动,并将这些扰动与由此孕育发生的收益函数变化相干联。但因为强化进修中存于高方差问题:当其他变量同时遭到扰动时,很丢脸到扰动单个变量的效果。为此,要平均失由所有其他扰动引起的噪声,进修率需要与被扰动的变量数目成反比,这就象征着强化进修的扩大性很差,没法与包罗数百万或者数十亿年夜型收集的反向流传竞争参数。
而 Hinton 的不雅点是,包罗未知非线性的神经收集不需要乞助在强化进修。
FF 算法于速率上可与反向流传相媲美,其长处是可以于前向计较切确细节未知的环境下举行利用,还有可以于神经收集对于挨次数据举行管道处置惩罚时举行进修,无需存储神经勾当或者终止流传偏差导数。
不外,于功率受限的运用中,FF 算法还有未能代替反向流传,好比对于在于超年夜数据集上练习的超年夜模子,也还有因此反向流传为主。
前向-前向算法前向-前向算法是一种贪心的多层进修步伐,其灵感来自玻尔兹曼机及噪声对于比预计。
用两个前向流传取代反向流传的前向+后向流传,两个前向流传于差别数据及相交恶标上,以彻底不异的方式相互操作。此中,正向通道对于真实数据举行操作,并调解权重以增长每一个隐蔽层的好感度,反向通道调解 负数据 权重以削减每一个隐蔽层的好感度。
本文切磋了两种差别的器量尺度——神经勾当的平方之及,以和负勾当的平方之及。
假定某层的优度函数是该层中颠末整流的线性神经元勾当的平方及,进修目的是使其优度远高在真实数据的某个阈值、并远低在负数据的阈值。也便是说,于输入向量准确分类为正数据或者负数据时,输入向量为正(即真实)的几率,可经由过程将逻辑函数 σ 运用在优度减去某个阈值 θ:

此中,
是层归一化前隐蔽单位 j 的勾当。负数据可由神经收集自上而下毗连举行猜测,也可由外部提供。
很轻易看出,可以经由过程使隐蔽单位的勾当平方及,对于正数据高而对于负数据低来进修单个隐蔽层。但当第一个隐蔽层勾当被用作第二个隐蔽层的输入时,仅需合用第一个隐蔽层的勾当矢量长度,便可区别正负数据,无需进修新的特性。
为避免这类环境,FF 于将隐蔽向量长度作为下一层的输入前,会对于其举行归一化,删除了所有效在确定第一个隐蔽层中的信息,从而迫使下个隐蔽层利用第一个隐蔽层中神经元的相对于勾当信息,该相对于勾当不受层规范化的影响。
也便是说,第一个隐蔽层的勾当向量具有一个长度及一个标的目的,长度用在界说该层的良性,只有标的目的被通报到下一层。
2有关 FF 算法的试验反向流传基线文中年夜部门试验利用了手写数字的 MNIST 数据集:50000 个用在练习,10000 个用在搜刮优良超参数时期的验证,10000 张用在计较测试过错率。经设计后具备几个隐蔽层的卷积神经收集可患上约 0.6% 的测试偏差。
于使命 摆列稳定 版本中,神经收集没有获得有关像素空间结构的信息,若练习最先前,所有练习及测试图象都受不异像素随机变异影响,那末神经收集的体现也会一样优良。
对于在这个使命“摆列稳定”版本,带有几个全毗连隐层的整流线性单位(ReLU)的前馈神经收集测试偏差约莫于 1.4%,此中约莫需要20个 epochs 来练习。利用各类正则器如 dropout(降低练习速率)或者标签光滑(加速练习速率),可将测试偏差降至 1.1% 摆布。此外,还有可经由过程将标签的监视进修与无监视进修相联合来进一步降低测试偏差。
于不利用繁杂的正则化器的环境下,使命“摆列稳定”版本的测试偏差为 1.4%,这注解了其进修历程与反向流传同样有用。

图1:用作负数据的混淆图象
无监视 FF 算法FF 有两个重要问题需要回覆:假如有优良的负数据来历,它是否会进修有用的多层暗示来捕捉数据布局?负数据从何而来?
先利用手工负数据往返答第一个问题。将对于比进修用在监视进修使命的常见要领是,于不利用任何有关标签信息的环境下,将输入向量转化为暗示向量,进修将这些暗示向量简朴线性变换为利用的 logits 向量,于 softmax 顶用来确定标签的几率漫衍。只管具备较着的非线性,但这仍被称为线性分类器,傍边 logits 向量的线性变换进修是有监视的,因不触及进修任何隐蔽层,无需导数的反向流传。FF 可经由过程利用真实数据向量作为正例、并利用毁坏的数据向量作为负例来履行该表征进修。
为使 FF 专注表征外形图象的持久相干性,咱们需要创立具备差别持久相干性、但很是相似的短时间相干性的负数据,这可以经由过程创立一个包罗相称年夜的 1 及 0 区域的掩码来完成。以后经由过程将一个数字图象与掩码相加,为负数据创立混淆图象及一个差别的数字图象来乘以掩码的背面(图 1)。
经由过程随机位图最先创立蒙版,于程度及垂直标的目的上利用[1/4, 1/2, 1/4]情势的过滤重视复恍惚图象,经重复恍惚的图象阈值设为 0.5。于利用四个隐蔽层(每一个隐蔽层包罗 2000 个 ReLU)练习 100 个 epochs 后,若利用末了三个隐蔽层的归一化勾当向量作为 softmax 输入,可获得测试偏差为1.37%。
此外,不利用彻底毗连层、而利用局部接管域(没有权重同享)可以提高机能,练习 60 个 epochs 的测试偏差为 1.16%,该架构利用的 对于等归一化 可避免任何隐蔽单位极端活跃或者永世封闭。
监视进修 FF 算法于不利用任何标签信息的环境放学习隐蔽表征,对于终极可可以或许履行各类使命的年夜模子来讲很是明智:无监视进修提取了一年夜堆特性供各使命利用。但若只对于单使命感兴致,并想利用一个小模子,那末监视进修会更合适。
监视进修中利用 FF 的一种要领是于输入中包罗标签,正数据由具备准确标签的图象构成,而负数据由具备过错标签的图象构成,标签是两者间的独一区分,FF 会纰漏图象中与标签不相干的所有特性。
MNIST 图象中包罗有玄色边框,可减轻卷积神经收集的事情压力。当利用标签的 N 个表征中的一个来替代前 10 个像素时,第一个隐蔽层进修内容也会容易闪现。一个有 4 隐蔽层的收集中,每一个隐蔽层包罗 2000 个 ReLU,层与层之间的彻底毗连于 60 个 epochs 后,经 MNIST 其测试偏差为 1.36%,反向流传要到达该测试机能需要约莫 20 个 epochs。将 FF 进修率加倍并练习 40 个 epochs,可获得稍差的测试偏差,为 1.46% 。
利用 FF 练习后,经由过程从包罗测试数字及由 10 个 0.1 条款构成的中性标签的输入最先,由收集举行一次前向通报来对于测试数字举行分类,以后,除了第一个隐蔽层外,其他所有隐蔽勾当用作于练习时期进修的 softmax 输入,这是一种快速次优的图象分类要领。最佳的方式是利用特定标签作为输入的一部门来运行收集,并堆集除了第一个隐蔽层之外的所有层的长处,于别离对于每一个标签履行此操作后,选择具备最高累积优度的标签。于练习历程中,来自中性标签的前向通报被用在遴选硬负标签,这使患上练习需要约⅓ 的 epochs 。
经由过程每一个标的目的将图象抖动至多的两个像素用在增长练习数据,从而为每一个图象得到 25 种差别的偏移,傍边利用了像素空间结构的常识,使其再也不是摆列稳定的。这类用加强数据练习同个收集 500 个 epochs,测试偏差可到达 0.64%,近似在用反向流传练习的卷积神经收集。如图 2,咱们也于第一个隐蔽层中获得了有趣的局部域。

图 2:于抖动 MNIST 上练习的收集第一个隐蔽层中 100 个神经元的局部域,类标签显示于每一张图象前 10 个像素中
利用 FF 模仿自上而下的感知效应今朝,所有图象分类案例都利用了一次进修一层的前馈神经收集,这象征着于后面层中学到的工具不会影响前面层的进修。这与反向流传比拟好像是个重要弱点,降服这类较着限定的要害是,将静态图象视为相称无聊的视频,由多层递归神经收集处置惩罚。
FF 对于正数据及负数据都于时间上向前运行,但每一层勾当向量由上一层及下一层于前一个 time-steps 的归一化勾当向量确定(图 3)。对于这类要领是否有用举行开端查抄,可使用由静态 MNIST 图象构成的“视频”输入,该图象于每一个时间帧中简朴反复,底层是像素图象,顶层是数字类的 N 个表征之一,有两个或者三个中间层,每一层有 2000 个神经元。
于开端试验中,轮回收集运行了 10 个 time-steps,每一个 time-steps 的偶数层按照奇数层的尺度化勾当举行更新,奇数层按照新的尺度化勾当更新,其瓜代更新旨于防止双相振荡,但今朝好像其实不需要:于有一点阻尼的环境下,基在前一个 time-steps 归一化状况,所有隐蔽层的同步更新进修效果略好,这对于不法则架构而言是有利的。是以,该处试验利用了同步更新,新的预归一化状况被设置为上个预归一化状况的 0.3 ,加之了计较新状况的 0.7。

图 3:用在处置惩罚视频的轮回收集
如图 3,收集于 MNIST 上练习 60 个 epochs,对于每一个图象的隐蔽层经由过程一次自下而上通报举行初始化。
今后,收集运行 8 次带有阻尼的同步迭代,经由过程对于 10 个标签中的每一个标签运行 8 次迭代,并选择于第 3 到 5 次迭代中平均优度最高的标签来评估收集的测试数据机能,测试偏差为 1.31%。负数据经由过程收集一次前向通报以得到所有种别的几率,按照几率按比例于不准确的种别间举行选择天生,从而提高练习效率。
利用空间上下文的猜测轮回收集中,其方针是令阃数据的上层输入及基层的输入间连结优良的一致性,而负数据的一致性欠好。具备空间局部连通性的收集中具有一个抱负的属性:自上而下的输入将由图象更年夜的区域决议,而且有更多处置惩罚阶段的成果,是以它可以被视为对于图象的上下文猜测,也便是基在图象局部域自下而上的输入所应产出的成果。
假如输入随时间变化,自上而下的输入会基在较旧的输入数据,是以必需进修猜测自下而上输入的表征。当咱们反转方针函数的符号,并针对于正数据举行低平方勾当,自上而下的输入应学会抵消正数据的自下而上输入,如许看来与猜测编码十分相似。层规范化象征着纵然取缔事情患上很好,年夜量信息也会被发送到下一层,假如所有猜测偏差都很小,则会被归一化放年夜。
利用上下文猜测作为局部特性并提取讲授旌旗灯号进修的设法持久存于,但难点于在,怎样于利用空间上下文、而非单侧时间上下文的神经收集中事情。利用自上而下及自下而上输入的共鸣作为自上而下及自下而上权重的讲授旌旗灯号,这类要领较着会致使瓦解,而利用其他图象的上下文猜测来创立负数对于的问题也没有彻底解决。此中,利用负数据而不是任何负内部表征好像是要害。
CIFAR-10 数据集测试Hinton 接着于 CIFAR‑10 数据集上测试了 FF 算法的机能,证实了 FF 练习出的收集于机能上可以或许媲美反向流传。
该数据集有 50,000 张 32x32 的练习图象,每一个像素具备三个颜色通道,是以,每一个图象都有 3072 个维度。因为这些图象的配景繁杂且高度可变,而且于练习数据颇有限的环境下没法很好地建模,除了非隐蔽层很是小,不然包罗两到三个隐蔽层的全毗连收集于利用反向流传举行练习时会严峻过拟合,是以,今朝险些所有研究的成果都是针对于卷积收集的。
反向流传及 FF 都是用权重衰减来削减过拟合,Hinton 对于两种要领练习的收集机能举行了比力。对于在 FF 练习的收集,测试要领是利用单个前向流传,或者者让收集对于图象及 10 个标签中的每个运行 10 次迭代,并于第 4 到 6 次迭代中累积标签的能量(即当基在优度的过错最低时)。
成果,虽然 FF 的测试机能比反向流传差,但只轻微差了一点。同时,两者间的差距不会跟着隐蔽层的增长而增长。不外,反向流传可以更快地削减练习偏差。
别的,于序列进修上,Hinton 也经由过程猜测序列中下一个字符的使命证实了用 FF 练习的收集比反向流传更好。用 FF 练习的收集可以天生本身的负数据,更切合生物学。
3FF 算法与玻尔兹曼机、GAN、SimCLR 的瓜葛Hinton 进一步将 FF 算法与其他已经有的对于比进修要领做了对于比。他的结论是:
FF 是对于玻尔兹曼机及简朴的局部优度函数的联合;
FF 不需要反向流传来进修判别模子及天生模子,是以是 GAN 的一个特例;
于真正的神经收集中,与 SimCLR 这种自监视对于比喻法比拟,FF 可以或许更好地权衡两种差别暗示之间的一致性。
FF 接收了玻尔兹曼机的对于比进修于 20 世纪 80 年月早期,深度神经收集有两种最被看好的进修要领,一个是反向流传,另外一个即是做无监视对于比进修的玻尔兹曼机(Boltzmann Machines)。
玻尔兹曼机是一个随机二元神经元收集,具备成对于毗连,于两个标的目的上具备不异的权重。当它于没有外部输入的环境下自由运行时,玻尔兹曼机经由过程将其设置为开启状况来反复更新每一个二元神经元,其几率等在它从其他勾当神经元吸收到的总输入的逻辑。这个简朴的更新历程终极从均衡漫衍中采样,此中每一个全局配置(将二进制状况分配给所有神经元)具备与其负能量成比例的对于数几率。负能量只是该配置中所有神经元对于之间权重的总及。
玻尔兹曼机中的神经元子集是“可见的”,二进制数据向量经由过程将它们夹于可见神经元上出现给收集,然后让它反复更新其余隐蔽神经元的状况。玻尔兹曼呆板进修的目的是使收集运行时可见神经元上二元向量的漫衍与数据漫衍自由匹配。
最使人惊奇的是,自由运行的玻尔兹曼机于热均衡时,可见神经元上显示的数据漫衍及模子漫衍之间的 Kullback-Liebler 散度具备一个很是简朴的导数(对于在任何权重):

此中尖括号暗示对于热均衡时随机颠簸的指望以和第一项的数据。
这个成果使人高兴之处于在,它给出了收集深处权重的导数,而无需显式流传偏差导数。它于苏醒及睡眠两个差别阶段流传神经勾当。
可是,要于数学上使患上进修法则最够简便,价钱会很是高。它需要一个深度玻尔兹曼机来靠近其均衡漫衍,那末它就没法作为一种符合现实的呆板进修技能,作为一种皮层进修模子也不成信:由于年夜型收集于感知历程中没有时间靠近其均衡漫衍。并且,没有证据注解皮层毗连的具体对于称性,也没有较着的要领来进修序列。此外,假如权重的很多正更新后追随着年夜量负更新,且负阶段对于应在快速眼动睡眠,那玻尔兹曼呆板进修步伐就会掉败。
但只管存于以上错误谬误,玻尔兹曼机仍是一种很智慧的进修要领,由于它用两个事情道理不异但于可见神经元上具备差别界限前提的迭代设置(即限定于数据上 vs. 不予限定),代替了反向流传的前向及后向通报。
玻尔兹曼机可以看做是两种思惟的联合:
经由过程最小化真实数据上的自由能(free energy)及最年夜化负数据上的自由能来进修收集自己孕育发生的数据。
利用 Hopfield 能量作为能量函数,并利用反复随机更新从能量函数界说的玻尔兹曼漫衍中采样全局配置。
第一种关在对于比进修的思绪可以与很多其他能量函数一路利用。例如,利用前馈神经收集的输出来界说能量,然后经由过程该收集利用反向流传来计较能量对于权重及可见状况的导数。然后经由过程跟踪能量对于可见状况的导数来天生负数据。别的,负数据没必要经由过程从能量函数界说的玻尔兹曼漫衍中采样数据向量来孕育发生,不从平衡漫衍中采样,也能提高具备单个隐蔽层的玻尔兹曼机的进修效率。
于 Hinton 看来,等式 2 的数学简便性以和随机更新历程对于所有可能的隐蔽配置做贝叶斯积分,这个历程其实很是优雅,以是,用只需要流传神经勾当的两个解决方案来取代反向流传的前向+反向流传这类设法,仍旧与马尔可夫链蒙特卡罗(Markov Chain Monte Carlo)的繁杂性纠缠于一路。
简朴的局部优度函数比二元随机神经元收集的自由能更容易在处置惩罚, FF 则对于玻尔兹曼机的对于比进修与这类函数做告终合。
FF 是 GAN 的特例GAN(天生匹敌收集)利用多层神经收集天生数据,并利用多层判别收集来练习其天生模子,使其相对于在天生模子输出给出导数,且该导数是真实数据而非天生数据的几率
GAN 很难练习,由于判别模子及天生模子彼此匹敌。GAN 能天生很是美丽的图象,但会遭遇模式瓦解的困扰:可能会存于年夜片从不天生示例的图象空间区域。并且它利用反向流传来顺应每一个收集,是以咱们很丢脸出怎样于皮质中实现它们。
FF 可以看做是 GAN 的一个特例,此中判别收集的每一个隐蔽层对于输入的正负城市本身做贪婪决议计划,是以不需要反向流传来进修判别模子及天生模子,由于它不是进修本身的隐蔽暗示,而是重用判别模子进修的暗示。
天生模子独一需要进修的是怎样将这些隐蔽的暗示转换为天生的数据,假如利用线性变换来计较 softmax 的对于数,则不需要反向流传。对于两个模子利用不异的隐蔽暗示的一个长处,是它消弭了当一个模子相对于在另外一个模子进修太快时呈现的问题,还有防止了模式瓦解。
FF 比 SimCLR 更易权衡一致性像 SimCLR 这种自监视对于比喻法,是经由过程优化一个方针函数来进修,该函数可以或许撑持对于统一图象的两种差别剪裁的暗示之间的一致性,以和来自两幅差别图象的剪裁的暗示之间的纷歧致性。
这种要领凡是利用很多层来提取剪裁的暗示,并经由过程反向流传方针函数的导数来练习这些层。假如两种剪裁老是以彻底不异的方式堆叠,它们就不起作用,由于如许它们就能够简朴地陈诉同享像素的强度并得到完善的一致性。
但于真正的神经收集中,丈量两个差别暗示之间的一致性并不是易事,且没措施利用不异的权重同时提取两种剪裁的暗示。
而 FF 利用差别的方式来权衡一致性,这对于在真正的神经收集来讲好像更易。
很多差别的信息来历为统一组神经元提供输入。假如来历就激活哪些神经元告竣一致,将孕育发生正滋扰,从而致使高平方勾当,假如它们有不合,则平方勾当将降低。经由过程利用正滋扰来丈量一致性比比力两个差别的暗示向量要矫捷患上多,由于不需要将输入肆意分成两个零丁的源。
SimCLR 这种要领的一个重要弱点是年夜量计较用在推导两个图象裁剪的暗示,但方针函数仅对于暗示提供适度的约束,这限定了有关域的信息的速度可以注入权重。为了使剪裁的暗示更靠近其准确的配对于而非替换品,只需要 20 比特信息。FF 的问题更严峻,由于它只需要 1 比特来区别正例及负例。
解决这类约束窘蹙的要领是将每一一层分成很多小块,并强迫每一个块别离利用其预归一化勾当向量的长度来决议正例及负例。然后,满意约束所需的信息随块数线性缩放,这比于近似 SimCLR 的要领中利用更年夜的对于比度集实现的对于数缩放要好患上多。
仓库对于比进修存于的问题进修多层暗示的一种无监视要领,是起首进修一个隐蔽层,该隐蔽层捕捉数据中的某些布局,然后将该层中的勾当向量视为数据、并再次运用不异的无监视进修算法。这就是利用受限玻尔兹曼机 (RBM)或者仓库自编码器(stacked autoencoder)进修多层暗示的方式。
但它有一个致命的缺陷。假定咱们经由过程随机权重矩阵映照一些随机噪声图象。天生的勾当向量将具备由权重矩阵创立的相干布局,与数据无关。当将无监视进修运用在这些勾当向量时,它会发明此中的一些布局,但这不会告诉体系任何干在外部世界的信息。
最初的玻尔兹曼呆板进修算法旨于经由过程对于比由两种差别外部界限前提引起的统计数据来防止此缺陷。这抵消了所有只是收集其他部门的成果的布局。于对于比正负数据时,无需限定布线,也不要求剪裁之间具备随机空间瓜葛以避免收集做弊。如许便很轻易得到年夜量彼此毗连的神经元组,每一个神经元组都有本身的方针即区别正数据及负数据。
4于将来非长生计较机上
FF 是最好进修算法Mortal Computation 是 Hinton 近期的主要不雅点之一(注:该术语还没有有公认的中文翻译,暂译为“非长生计较”)。

他指出,今朝的通用数字计较机被设计为忠厚地遵照指令,人们认为让通用计较机履行特定使命的独一要领,就是编写一个步伐,以极为具体的方式正确指定要做的事。
主流的设法仍旧是对峙软件应该与硬件分散,以便不异的步伐或者不异的权重集可以于硬件的差别物理副本上运行。这就会使患上步伐或者权重中包罗的常识变患上“不朽”:即硬件灭亡时,常识不会随之消亡。
但这已经经再也不建立,研究界还有未充实理解深度进修对于计较机构建方式的持久影响。
软件与硬件的分散是计较机科学的基础之一,它简直带来了许多利益,如可以研究步伐的特征而没必要体贴电气工程,并且它使患上编写一次步伐、并将其复制到数百万台计较机成为可能。但 Hinton 指出:
假如咱们愿意抛却这类“不朽”,就能够年夜年夜节省履行计较所需的能量以和制造履行计较的硬件的成本。
如许一来,履行不异使命的差别硬件实例于毗连性及非线性上就有可能发生较年夜的变化,并从进修历程中发明有用使用每一个特定实例的未知属性的参数值硬件。这些参数值仅对于特定的硬件实例有效,是以它们履行的计较是并不是不朽,而是会随硬件一路消亡。
将参数值复制到事情方式差别的差别硬件自己简直没有任何意义,但咱们可以用一种重生物学的要领可以将一个硬件学到的工具转移到另外一个硬件。对于在图象中对于象分类如许的使命,咱们真正感兴致的是将像素强度与类标签相干联的函数,而不是于特定硬件中实现该函数的参数值。
函数自己可以经由过程利用蒸馏转移到差别的硬件:练习新硬件不仅给出与旧硬件不异的谜底,并且输出不异的几率对于在不准确的谜底。这些几率更富厚地注解了旧模子怎样归纳综合,而不单单是它认为最有可能的标签。是以,经由过程练习新模子来匹配过错谜底的几率,咱们正于练习它以与旧模子不异的方式举行归纳综合。如许的神经收集练习现实上优化了泛化性,这个例子十分稀有。
假如想让一个万亿参数神经收集只耗损几瓦特,非长生计较多是独一的选择。它的可行性取决在,咱们可否找到一种可以于切确细节未知的硬件中高效运行的进修历程,于 Hinton 看来,FF 算法就是一个颇有出路的方案,只是它于扩大到年夜型神经收集时的体现还有有待不雅察。
论文末了,Hinton 指出了如下悬而未决的问题:
FF 可否天生充足好的图象或者视频天生模子来创立无监视进修所需要的负数据?
假如负向通报于睡眠时期完成,正向及负向通报可否可以于时间上很是广泛地域分隔来?
假如负相位被消弭了一段时间,其效果是否与严峻睡眠褫夺的粉碎性影响相似?
利用甚么哪一种 goodness 函数最佳?本文于年夜大都试验中利用勾当平方及,但最小化正数据的勾当平方及及最年夜化负数据的勾当平方及好像效果稍好一些。
最佳利用哪一种激活函数?今朝只研究了 ReLU。使激活成为 t 漫衍下密度的负对于数是一种可能性。
对于在空间数据,FF 是否可以从图象差别区域的年夜量局部优化函数中获益?假如可行,就能加速进修速率。
对于在挨次数据,是否可使用快速权重来模仿简化的转换器?
一组试图最年夜化其平方勾当的特性检测器及一组试图最小化其平方勾当的约束违背检测器,可否撑持 FF?
更多内容,点击下方存眷:
未经「AI科技评论」授权,严禁以任何方式于网页、论坛、社区举行转载!
公家号转载请先于「AI科技评论」后台留言取患上授权,转载时需标注来历并插入本公家号手刺。
雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





