米兰·(milan)中国官方网站-针对深度学习的“失忆症”,科学家提出基于相似性加权交错学习,登上PNAS
作者:米兰·(milan)文化
更新时间:2026-03-24 20:39:48
点击数:
导语:经由过程将旧信息与新信息举行相似性加权交错练习,深度收集可以快速进修新事物,不仅降低了遗忘率,并且利用的数据量年夜幅削减。

近日,美国科学院院报(PNAS)登载了一篇论文,“Learning in deep neural networks and brains with similarity-weighted interleaved learning”,由加拿年夜皇家学会会士、知名神经科学家 Bruce McNaughton 的团队发表。他们的事情发明,经由过程将旧信息与新信息举行相似性加权交错练习,深度收集可以快速进修新事物,不仅降低了遗忘率,并且利用的数据量年夜幅削减。
论文作者还有作出一个假定:经由过程跟踪近来活跃的神经元及神经动力学吸引子(attractor dynamics)的连续高兴性轨迹,可以于年夜脑中实现相似性加权交错。这些发明可能会促成神经科学及呆板进修的进一步成长。
作者 | Rajat Saxena et al.编译 | bluemin编纂 | 陈彩娴1研究配景相识年夜脑怎样终身进修仍旧是一项持久挑战。于人工神经收集(ANN)中,过快地整合新信息会孕育发生灾害性滋扰,即先前得到的常识忽然丢掉。互补进修体系理论 (Complementary Learning Systems Theory,CLST) 注解,经由过程将新影象与现有常识交错,新影象可以逐渐融入新皮质。CLST指出,年夜脑依靠在互补的进修体系:海马体 (HC) 用在快速获取新影象,新皮层 (NC) 用在将新数据逐渐整合到与上下文无关的布局化常识中。于“离线时期”,例如睡眠及平静的苏醒歇息时期,HC触发还放近来于NC中的履历,而NC自觉地检索及交错现有种别的表征。交错回放答应以梯度降落的方式慢慢调解NC突触权重,以创立与上下文无关的种别表征,从而优雅地整合新影象并降服灾害性滋扰。很多研究已经经乐成地利用交错回放实现了神经收集的终身进修。然而,于实践中运用CLST时,有两个主要问题亟待解决。起首,当年夜脑没法拜候所有旧数据时,怎样举行周全的信息交错呢?一种可能的解决方案是“伪排演”,此中随机输入可以激发内部表征的天生式回放,而无需显式拜候先前进修的示例。类吸引子动力学可能使年夜脑完成“伪排演”,但“伪排演”的内容还没有明确。是以,第二个问题是,每一举行新的进修勾当以后,年夜脑是否有足够的时间交叉所有先前进修的信息。相似性加权交错进修(Similarity-Weighted Interleaved Learning,SWIL)算法被认为是第二个问题的解决方案,这注解仅交错与新信息具备本色表征相似性的旧信息可能就充足了。实证举动研究注解,高度一致的新信息可以快速整合到NC布局化常识中,险些没有滋扰。这注解整合新信息的速率取决在其与先验常识的一致性。受此举动成果的开导,并经由过程从头查抄先前得到的种别之间的灾害性滋扰漫衍,McClelland等人证实SWIL可以于具备两个上义词种别(例如,“生果”是“苹果”及“喷鼻蕉”的上义词)的简朴数据集中,每一个epoch利用少在2.5倍的数据量进修新信息,实现了与于全数数据上练习收集不异的机能。然而,研究职员于利用更繁杂的数据集时并无发明近似的效果,这激发了对于该算法可扩大性的担心。试验注解,深度非线性人工神经收集可以经由过程仅交错与新信息同享年夜量表征相似性的旧信息子集来进修新信息。经由过程利用SWIL算法,ANN可以或许以相似的精度程度及最小的滋扰快速进修新信息,同时利用的每一个期间出现的旧信息量少之又少,这象征着数据使用率高且可以快速进修。同时,SWIL也可运用在序列进修框架。此外,进修一种新种别可以极年夜地提高数据使用率 。假如旧信息与以前进修过的种别有着很是少的相似性,那末出现的旧信息数目就会少患上多,这极可能是人类进修的现实环境。末了,作者提出了一个关在SWIL怎样于年夜脑中实现的理论模子,其高兴性误差与新信息的堆叠成正比。2运用在图象分类数据集的
DNN动力学模子McClelland等人的试验注解,于具备一个隐蔽层的深度线性收集中,SWIL可以进修一个新种别,近似在彻底交错进修 (Fully Interleaved Learning,FIL),行将整个旧种别与新种别交错,但利用的数据量削减了40%。然而,收集是于一个很是简朴的数据集上练习的,只有两个上义词种别,这就对于算法的可扩大性提出了疑难。起首针对于更繁杂的数据集(如Fashion-MNIST),摸索差别种别的进修于具备一个隐蔽层的深度线性神经收集中怎样蜕变。移出了“boot”(“靴子”)及“bag”(“纸袋”)种别后,该模子于残剩的8个种别上的测试正确率到达了87%。然后作者团队从头练习模子,于两种差别的前提放学习(新的)“boot”类,每一个前提反复10次:1)集中进修(Focused Learning ,FoL),即仅出现新的“boot”类;2)彻底交错进修 (FIL),即所有种别(新种别+之前学过的种别)以相等的几率出现。于这两种环境下,每一个epoch统共出现180张图象,每一个epoch中的图象不异。该收集于统共9000张从未见过的图象长进行了测试,此中测试数据集由每一类1000张图象构成,不包括“bag”种别。当收集的机能到达渐近线时,练习住手。不出所料,FoL对于旧种别造成为了滋扰,而FIL降服了这一点(图1第2列)。如上所述,FoL对于旧数据的滋扰因种别而异,这是SWIL最初灵感的一部门,并注解新“boot”种别及旧种别之间存于分级相似瓜葛。例如,“sneaker”(“运动鞋”)及“sandals”(“凉鞋”)的召回率比“trouser”(“裤子”)降落患上更快(图1第2列),多是由于整合新的“boot”类会选择性地转变代表“sneaker”及“sandals”类的突触权重,从而造成更多的滋扰。

深度线性神经收集实现快速及
高效进修新事物接下来于前两个前提基础上增长了3种新前提,研究了新的分类进修动态,此中每一个前提反复10次:1)FoL(总计n=6000张图象/epoch);2) FIL(总计n=54000张图象/epoch,6000张图象/类);3) 部门交错进修 (Partial Interleaved Learning,PIL)利用了很小的图象子集(总计n=350张图象/epoch,约莫39张图象/类),每一一种别(新种别+现有种别)的图象以相等的几率出现;4) SWIL,每一个epoch利用与PIL 不异的图象总数举行从头练习,但按照与(新)“boot”种别的相似性对于现有种别图象举行加权;5)等权交错进修(Equally Weighted Interleaved Learning,EqWIL),利用与SWIL不异数目的“boot”类图象从头练习,但现有种别图象的权重不异(图3A)。作者团队利用了上述不异的测试数据集(共有n=9000张图象)。当于每一种前提下神经收集的机能都到达渐近线时,住手练习。只管每一个epoch利用的练习数据较少,猜测新“boot”类的正确率需要更长的时间到达渐近线,与FIL(H=7.27,P 0.05)比拟,PIL的召回率更低(图3B第1列及表1“New class”列)。对于在SWIL,相似度计较用在确定要交错的现有旧种别图象的比例。于此基础上,作者团队从每一个旧种别中随机抽取具备加权几率的输入图象。与其他种别比拟,“sneaker”及“sandal”类最相似,从而致使被交错的比例更高(图3A)。按照树状图(图2B),作者团队将“sneaker”及“sandal”类称为相似的旧类,其余则称为差别的旧类。与PIL(H=5.44,P 0.05)比拟,利用SWIL时,模子进修新“boot”类的速率更快,对于现有种别的滋扰也相近。此外,SWIL(H=0.056,P 0.05)的新种别召回率(图3B第1列及表1“New class”列)、总正确率及丧失与FIL相称。EqWIL(H=10.99,P 0.05)中新“boot”类的进修与SWIL不异,但对于相近的旧种别有更年夜水平的滋扰(图3B第2列及表1“Similar old class”列)。作者团队利用如下两种要领比力SWIL及FIL:1) 内存比,即FIL及SWIL中存储的图象数目之比,暗示存储的数据量削减;2) 加快比,即于FIL及SWIL中出现的内容总数的比率,以到达新种别回忆的饱及精度,注解进修新种别所需的时间削减。SWIL可以于数据需求削减的环境放学习新内容,内存比=154.3x (54000/350),而且速率更快,加快比=77.1x (54000/(350×2))。纵然及新内容有关的图象数目较少,该模子也能够经由过程利用SWIL,使用模子先验常识的条理布局实现不异的机能。SWIL于PIL及EqWIL之间提供了一个中间缓冲区,答应集成一个新种别,并将对于现有种别的滋扰降到最低。
基在CIFAR10利用SWIL
于CNN中进修新种别接下来,为了测试SWIL是否可以于更繁杂的情况中事情,作者团队练习了一个具备全毗连输出层的6层非线性CNN(图4A),以辨认CIFAR10数据集中残剩8个差别种别(“cat”及“car”除了外)的图象。他们还有对于模子举行了从头练习,于以前界说的5种差别练习前提(FoL、FIL、PIL、SWIL及EqWIL)放学习“cat”(“猫”)类。图4C显示了5种环境下每一类图象的漫衍。对于在SWIL、PIL及EqWIL前提,每一个epoch的总图象数为2400,而对于在FIL及FoL,每一个epoch的总图象数别离为45000及5000。作者团队针对于每一种环境对于收集别离举行练习,直到机能趋在不变。他们于以前未见过的统共9000张图象(1000张图象/类,不包括“car”(“轿车”)类)上对于该模子举行了测试。图4B是作者团队基在CIFAR10数据集计较的相似性矩阵。“cat”类及“dog”(“狗”)类更近似,而其他动物类属在统一分支(图4B左)。按照树状图(图4B),将“truck” (“货车”)、“ship”(“汽船”) 及 “plane”(“飞机”) 种别称为差别的旧种别,除了“cat”类外其余的动物种别称为相似的旧种别。对于在FoL,模子进修了新的“cat”类,但遗忘了旧种别。与Fashion-MNIST数据集成果近似,“dog”类(与“cat”类相似性最年夜)及“truck”类(与“cat”类相似性最小)均存于滋扰梯度,此中“dog”类的遗忘率最高,而“truck”类遗忘率最低。如图4D所示,FIL算法进修新的“cat”类时降服了灾害性的滋扰。对于在PIL算法,模子于每一个epoch利用18.75倍的数据量进修新的“cat”类,但“cat”类的召回率比FIL(H=5.72,P 0.05)低。对于在SWIL,于新种别、相似及差别旧种别上的召回率、总正确率及丧失与FIL相称(H=0.42,P 0.05;见表2及图4D)。SWIL对于新“cat”类的召回率高在PIL(H=7.89,P 0.05)。利用EqWIL算法时,新“cat”类的进修环境与SWIL及FIL相似,但对于相似旧种别的滋扰较年夜(H=24.77,P 0.05;见表2)。FIL、PIL、SWIL及EqWIL这4种算法猜测差别旧种别的机能相称(H=0.6,P 0.05)。SWI比PIL更好地交融了新的“cat”类,并有助在降服EqWIL中的不雅测滋扰。与FIL比拟,利用SWIL进修新种别速率更快,加快比=31.25x (45000×10/(2400×6)),同时利用更少的数据量 (内存比=18.75x)。这些成果证实,纵然于非线性CNN及更真正的数据集上,SWIL也能够有用进修新种别事物。
新内容与旧种别的一致性
对于进修时间及所需数据的影响假如一项新内容可以添加到先前进修过的种别中,而不需要对于收集举行较年夜更改,则称两者具备一致性。基在此框架,与滋扰多个现有种别(低一致性)的新种别比拟,进修滋扰更少现有种别(高一致性)的新种别可以更易地集成到收集中。为了测试上述揣度,作者团队利用上一节中颠末预练习的CNN,于前面描写的所有5种进修前提下,进修了一个新的“car”种别。图5A显示了“car”种别的相似性矩阵,与其他现有种别比拟,“car”及“truck”、“ship”及“plane”于统一条理节点下,申明它们更相似。为了进一步确认,作者团队于用在相似性计较的激活层长进行了t-SNE降维可视化阐发(图5B)。研究发明“car”类与其他交通东西类(“truck”、“ship”及“plane”)有显著堆叠,而“cat”类与其他动物类(“dog”、 “frog”(“田鸡”)、“horse”(“马”)、“bird”(“鸟”)及“deer”(“鹿”))有堆叠。及作者团队预期相符,FoL进修“car”种别时会孕育发生灾害性滋扰,对于相近的旧种别滋扰性更强,而利用FIL降服了这一点(图5D)。对于在PIL、SWIL及EqWIL,每一个epoch统共有n=2000张图象(图5C)。利用SWIL算法,模子进修新的“car”种别可以到达及FIL(H=0.79,P 0.05)相近的精度,而对于现有种别(包括相似及差别种别)的滋扰最小。如图5D第2列所示,利用EqWIL,模子进修新“car”类的方式与SWIL不异,但对于其他相似种别(例如“truck”)的滋扰水平更高(H=53.81,P 0.05)。与FIL比拟,SWIL可以更快地进修新内容,加快比=48.75x(45000×12/(2000×6)),内存需求削减,内存比=22.5x。与“cat”(48.75x vs.31.25x)比拟,“car”可以经由过程交错更少的类(如“truck”、“ship”及“plane”)更快地进修,而“cat”与更多的种别(如“dog” 、“frog” 、“horse” 、“frog” 及“deer”)堆叠。这些仿真试验注解,交织及加快进修新种别所需的旧种别数据量,取决在新信息与先验常识的一致性。
图6:作者团队练习6层CNN进修新的“cat”类(使命1),然后进修“car”类(使命2),直到机能于如下两种环境下趋在不变:1)FIL:包罗所有旧种别(以差别颜色绘制)及以不异几率出现的新种别(“cat”/“car”)图象;2) SWIL:按照与新种别(“cat”/“car”)的相似性举行加权并按比例利用旧种别示例。同时将使命1中进修的“cat”类包括于内,并按照使命2中进修“car”类的相似性举行加权。第1张子图暗示每一个epoch利用的图象数目漫衍环境,其余各子图别离暗示FIL(蓝色)及SWIL(洋红色)猜测新种别、相似旧种别及差别旧种别的召回率,猜测所有种别的总正确率,以和于测试数据集上的交织熵丧失,此中横坐标都是epoch数。8使用SWIL扩展种别间的间隔,
削减进修时间及数据量作者团队末了测试了SWIL算法的泛化性,验证其是否可以进修包括更多种别的数据集,以和是否合用在更繁杂的收集架构。他们于CIFAR100数据集(练习集500张图象/类,测试集100张图象/类)上练习了一个繁杂的CNN模子-VGG19(共有19层),进修了此中的90个种别。然后对于收集举行再练习,进修新种别。图7A显示了基在CIFAR100数据集,作者团队按照倒数第二层的激活函数计较的相似性矩阵。如图7B所示,新“train”(“火车”)类与很多现有的交通东西种别(如“bus” (“大众汽车”)、“streetcar” (“有轨电车”)及“tractor”(“拖拉机”)等)很相似。与FIL比拟,SWIL可以更快地进修新事物(加快比=95.45x (45500×6/(1430×2)))而且利用的数据量 (内存比=31.8x) 显著削减,而机能基真相同(H=8.21, P 0.05) 。如图7C所示,于PIL(H=10.34,P 0.05)及EqWIL(H=24.77,P 0.05)前提下,模子猜测新种别的召回率较低而且孕育发生的滋扰较年夜,而SWIL降服了上述不足。同时,为了摸索差别种别表征之间的较年夜间隔是否组成了加快模子进修的基本前提,作者团队别的练习了两种神经收集模子:1)6层CNN(与基在CIFAR10的图4及图5不异);2)VGG11(11层)进修CIFAR100数据集中的90个种别,仅于FIL及SWIL两个前提下对于新的“train”类举行练习。如图7B所示,对于在上述两种收集模子,新的“train”类及交通东西种别之间的堆叠度更高,但与VGG19模子比拟,各种另外分散度较低。与FIL比拟,SWIL进修新事物的速率与层数的增长年夜致呈线性瓜葛(斜率=0.84)。该成果注解,种别间表征间隔的增长可以加快进修并削减内存负载。
https://www.pnas.org/doi/10.1073/pnas.2115229119

雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





