米兰·(milan)中国官方网站-针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习，登上PNAS

作者：米兰·(milan)文化更新时间：2026-03-24 20:39:48 点击数：

导语：经由过程将旧信息与新信息举行相似性加权交错练习，深度收集可以快速进修新事物，不仅降低了遗忘率，并且利用的数据量年夜幅削减。

针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习，登上PNAS

与人类差别，人工神经收集于进修新事物时会迅速遗忘先前学到的信息，必需经由过程新旧信息的交错来从头练习；可是，交错全数旧信息很是耗时，而且可能没有须要。只交错与新信息有本色相似性的旧信息可能就充足了。

近日，美国科学院院报（PNAS）登载了一篇论文，“Learning in deep neural networks and brains with similarity-weighted interleaved learning”，由加拿年夜皇家学会会士、知名神经科学家 Bruce McNaughton 的团队发表。他们的事情发明，经由过程将旧信息与新信息举行相似性加权交错练习，深度收集可以快速进修新事物，不仅降低了遗忘率，并且利用的数据量年夜幅削减。

论文作者还有作出一个假定：经由过程跟踪近来活跃的神经元及神经动力学吸引子（attractor dynamics）的连续高兴性轨迹，可以于年夜脑中实现相似性加权交错。这些发明可能会促成神经科学及呆板进修的进一步成长。

作者 | Rajat Saxena et al.编译 | bluemin编纂 | 陈彩娴

1研究配景相识年夜脑怎样终身进修仍旧是一项持久挑战。于人工神经收集（ANN）中，过快地整合新信息会孕育发生灾害性滋扰，即先前得到的常识忽然丢掉。互补进修体系理论 (Complementary Learning Systems Theory，CLST) 注解，经由过程将新影象与现有常识交错，新影象可以逐渐融入新皮质。CLST指出，年夜脑依靠在互补的进修体系：海马体 (HC) 用在快速获取新影象，新皮层 (NC) 用在将新数据逐渐整合到与上下文无关的布局化常识中。于“离线时期”，例如睡眠及平静的苏醒歇息时期，HC触发还放近来于NC中的履历，而NC自觉地检索及交错现有种别的表征。交错回放答应以梯度降落的方式慢慢调解NC突触权重，以创立与上下文无关的种别表征，从而优雅地整合新影象并降服灾害性滋扰。很多研究已经经乐成地利用交错回放实现了神经收集的终身进修。然而，于实践中运用CLST时，有两个主要问题亟待解决。起首，当年夜脑没法拜候所有旧数据时，怎样举行周全的信息交错呢？一种可能的解决方案是“伪排演”，此中随机输入可以激发内部表征的天生式回放，而无需显式拜候先前进修的示例。类吸引子动力学可能使年夜脑完成“伪排演”，但“伪排演”的内容还没有明确。是以，第二个问题是，每一举行新的进修勾当以后，年夜脑是否有足够的时间交叉所有先前进修的信息。相似性加权交错进修（Similarity-Weighted Interleaved Learning，SWIL）算法被认为是第二个问题的解决方案，这注解仅交错与新信息具备本色表征相似性的旧信息可能就充足了。实证举动研究注解，高度一致的新信息可以快速整合到NC布局化常识中，险些没有滋扰。这注解整合新信息的速率取决在其与先验常识的一致性。受此举动成果的开导，并经由过程从头查抄先前得到的种别之间的灾害性滋扰漫衍，McClelland等人证实SWIL可以于具备两个上义词种别（例如，“生果”是“苹果”及“喷鼻蕉”的上义词）的简朴数据集中，每一个epoch利用少在2.5倍的数据量进修新信息，实现了与于全数数据上练习收集不异的机能。然而，研究职员于利用更繁杂的数据集时并无发明近似的效果，这激发了对于该算法可扩大性的担心。试验注解，深度非线性人工神经收集可以经由过程仅交错与新信息同享年夜量表征相似性的旧信息子集来进修新信息。经由过程利用SWIL算法，ANN可以或许以相似的精度程度及最小的滋扰快速进修新信息，同时利用的每一个期间出现的旧信息量少之又少，这象征着数据使用率高且可以快速进修。同时，SWIL也可运用在序列进修框架。此外，进修一种新种别可以极年夜地提高数据使用率。假如旧信息与以前进修过的种别有着很是少的相似性，那末出现的旧信息数目就会少患上多，这极可能是人类进修的现实环境。末了，作者提出了一个关在SWIL怎样于年夜脑中实现的理论模子，其高兴性误差与新信息的堆叠成正比。

运用在图象分类数据集的

DNN动力学模子McClelland等人的试验注解，于具备一个隐蔽层的深度线性收集中，SWIL可以进修一个新种别，近似在彻底交错进修 (Fully Interleaved Learning，FIL)，行将整个旧种别与新种别交错，但利用的数据量削减了40%。然而，收集是于一个很是简朴的数据集上练习的，只有两个上义词种别，这就对于算法的可扩大性提出了疑难。起首针对于更繁杂的数据集（如Fashion-MNIST），摸索差别种别的进修于具备一个隐蔽层的深度线性神经收集中怎样蜕变。移出了“boot”（“靴子”）及“bag”（“纸袋”）种别后，该模子于残剩的8个种别上的测试正确率到达了87%。然后作者团队从头练习模子，于两种差别的前提放学习（新的）“boot”类，每一个前提反复10次：1）集中进修(Focused Learning ，FoL)，即仅出现新的“boot”类；2）彻底交错进修 (FIL)，即所有种别（新种别+之前学过的种别）以相等的几率出现。于这两种环境下，每一个epoch统共出现180张图象，每一个epoch中的图象不异。该收集于统共9000张从未见过的图象长进行了测试，此中测试数据集由每一类1000张图象构成，不包括“bag”种别。当收集的机能到达渐近线时，练习住手。不出所料，FoL对于旧种别造成为了滋扰，而FIL降服了这一点（图1第2列）。如上所述，FoL对于旧数据的滋扰因种别而异，这是SWIL最初灵感的一部门，并注解新“boot”种别及旧种别之间存于分级相似瓜葛。例如，“sneaker”（“运动鞋”）及“sandals”（“凉鞋”）的召回率比“trouser”（“裤子”）降落患上更快（图1第2列），多是由于整合新的“boot”类会选择性地转变代表“sneaker”及“sandals”类的突触权重，从而造成更多的滋扰。

针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习，登上PNAS

图1：预练习收集于两种环境放学习新“boot”类的机能对于比阐发：FoL（上）及 FIL（下）。从左到右依次为猜测新“boot”种别的召回率（橄榄色）、现有种别的召回率（用差别颜色绘制）、总正确度（高分象征着低偏差）及交织熵丧失（总偏差的器量）曲线，是保留的测试数据集上与epoch数有关的函数。

3计较差别种别之间的相似度FoL于进修新种别的时辰，于相似的旧种别上的分类机能会年夜幅降落。以前已经经切磋了多种别属性相似度及进修之间的瓜葛，而且注解深度线性收集可以快速获取已经知的一致属性。比拟之下，于现有种别条理布局中添加新分支的纷歧致属性，需要迟缓、渐进、交错的进修。于当前的事情中，作者团队利用已经提出的要领于特性级别计较相似度。简言之，计较方针隐蔽层（凡是是倒数第二层）现有种别及新种别的平均每一类激活向量之间的余弦相似度。图2A显示了基在Fashion MNIST数据集的新“boot”种别及旧种别，作者团队按照预练习收集的倒数第二层激活函数计较的相似度矩阵。种别之间的相似性与咱们对于物体的视觉感知一致。例如，于条理聚类图（图2B）中，咱们可以不雅察到“boot”类与“sneaker”及“sandal”类之间、以和“shirt”（“衬衫”）及“t-shirt”（“T恤”）类之间具备较高的相似性。相似度矩阵（图2A）与混合矩阵（图2C）彻底对于应。相似度越高，越轻易混合，例如，“衬衫”类与“T恤”、“套头衫”及“外衣”类图象轻易混合，这注解相似性器量猜测了神经收集的进修动态。于上一节的FoL成果图（图1）中，旧种别的召回率曲线中存于相近的类相似度曲线。与差别的旧种别（“trouser”等）比拟，FoL进修新“boot”类的时辰会快速遗忘相似的旧种别（“sneaker” 及 “sandal”）。

针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习，登上PNAS

图2：( A ) 作者团队按照预练习收集的倒数第二层激活函数，计较的现有种别及新“boot”类的相似度矩阵，此中对于角线值（统一种别的相似性绘制为白色）被删除了。( B ) 对于A中的相似矩阵举行条理聚类。( C ) FIL算法于练习进修“boot”类后天生的混合矩阵。为了缩放清楚，删除了了对于角线值。

深度线性神经收集实现快速及

高效进修新事物接下来于前两个前提基础上增长了3种新前提，研究了新的分类进修动态，此中每一个前提反复10次：1）FoL（总计n=6000张图象/epoch）；2) FIL（总计n=54000张图象/epoch，6000张图象/类）；3) 部门交错进修 (Partial Interleaved Learning，PIL)利用了很小的图象子集（总计n=350张图象/epoch，约莫39张图象/类），每一一种别（新种别+现有种别）的图象以相等的几率出现；4) SWIL，每一个epoch利用与PIL 不异的图象总数举行从头练习，但按照与（新）“boot”种别的相似性对于现有种别图象举行加权；5）等权交错进修（Equally Weighted Interleaved Learning，EqWIL），利用与SWIL不异数目的“boot”类图象从头练习，但现有种别图象的权重不异（图3A）。作者团队利用了上述不异的测试数据集（共有n=9000张图象）。当于每一种前提下神经收集的机能都到达渐近线时，住手练习。只管每一个epoch利用的练习数据较少，猜测新“boot”类的正确率需要更长的时间到达渐近线，与FIL（H=7.27，P 0.05）比拟，PIL的召回率更低（图3B第1列及表1“New class”列）。对于在SWIL，相似度计较用在确定要交错的现有旧种别图象的比例。于此基础上，作者团队从每一个旧种别中随机抽取具备加权几率的输入图象。与其他种别比拟，“sneaker”及“sandal”类最相似，从而致使被交错的比例更高（图3A）。按照树状图（图2B），作者团队将“sneaker”及“sandal”类称为相似的旧类，其余则称为差别的旧类。与PIL（H=5.44，P 0.05）比拟，利用SWIL时，模子进修新“boot”类的速率更快，对于现有种别的滋扰也相近。此外，SWIL（H=0.056，P 0.05）的新种别召回率（图3B第1列及表1“New class”列）、总正确率及丧失与FIL相称。EqWIL（H=10.99，P 0.05）中新“boot”类的进修与SWIL不异，但对于相近的旧种别有更年夜水平的滋扰（图3B第2列及表1“Similar old class”列）。作者团队利用如下两种要领比力SWIL及FIL：1) 内存比，即FIL及SWIL中存储的图象数目之比，暗示存储的数据量削减；2) 加快比，即于FIL及SWIL中出现的内容总数的比率，以到达新种别回忆的饱及精度，注解进修新种别所需的时间削减。SWIL可以于数据需求削减的环境放学习新内容，内存比=154.3x (54000/350)，而且速率更快，加快比=77.1x (54000/(350×2))。纵然及新内容有关的图象数目较少，该模子也能够经由过程利用SWIL，使用模子先验常识的条理布局实现不异的机能。SWIL于PIL及EqWIL之间提供了一个中间缓冲区，答应集成一个新种别，并将对于现有种别的滋扰降到最低。

针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习，登上PNAS

图3 ( A ) 作者团队于五种差别的进修前提下预练习神经收集进修新的“boot”类（橄榄绿），直到机能平稳：1）FoL（总计n=6000张图象/epoch）；2）FIL（总计n=54000张图象/epoch）；3) PIL（总计n=350张图象/epoch）；4) SWIL（总计n=350张图象/epoch）及 5) EqWIL（总计n=350张图象/epoch）。（B）FoL（玄色）、FIL（蓝色）、PIL（棕色）、SWIL（洋红色）及 EqWIL（金色）猜测新种别、相似旧种别（“sneaker”及“sandals”）及差别旧种别的召回率，猜测所有种别的总正确率，以和于测试数据集上的交织熵丧失，此中横坐标都是epoch数。

基在CIFAR10利用SWIL

于CNN中进修新种别接下来，为了测试SWIL是否可以于更繁杂的情况中事情，作者团队练习了一个具备全毗连输出层的6层非线性CNN（图4A），以辨认CIFAR10数据集中残剩8个差别种别（“cat”及“car”除了外）的图象。他们还有对于模子举行了从头练习，于以前界说的5种差别练习前提（FoL、FIL、PIL、SWIL及EqWIL）放学习“cat”（“猫”）类。图4C显示了5种环境下每一类图象的漫衍。对于在SWIL、PIL及EqWIL前提，每一个epoch的总图象数为2400，而对于在FIL及FoL，每一个epoch的总图象数别离为45000及5000。作者团队针对于每一种环境对于收集别离举行练习，直到机能趋在不变。他们于以前未见过的统共9000张图象（1000张图象/类，不包括“car”（“轿车”）类）上对于该模子举行了测试。图4B是作者团队基在CIFAR10数据集计较的相似性矩阵。“cat”类及“dog”（“狗”）类更近似，而其他动物类属在统一分支（图4B左）。按照树状图（图4B），将“truck” （“货车”）、“ship”（“汽船”）及 “plane”（“飞机”）种别称为差别的旧种别，除了“cat”类外其余的动物种别称为相似的旧种别。对于在FoL，模子进修了新的“cat”类，但遗忘了旧种别。与Fashion-MNIST数据集成果近似，“dog”类（与“cat”类相似性最年夜）及“truck”类（与“cat”类相似性最小）均存于滋扰梯度，此中“dog”类的遗忘率最高，而“truck”类遗忘率最低。如图4D所示，FIL算法进修新的“cat”类时降服了灾害性的滋扰。对于在PIL算法，模子于每一个epoch利用18.75倍的数据量进修新的“cat”类，但“cat”类的召回率比FIL（H=5.72，P 0.05）低。对于在SWIL，于新种别、相似及差别旧种别上的召回率、总正确率及丧失与FIL相称（H=0.42，P 0.05；见表2及图4D）。SWIL对于新“cat”类的召回率高在PIL（H=7.89，P 0.05）。利用EqWIL算法时，新“cat”类的进修环境与SWIL及FIL相似，但对于相似旧种别的滋扰较年夜（H=24.77，P 0.05；见表2）。FIL、PIL、SWIL及EqWIL这4种算法猜测差别旧种别的机能相称（H=0.6，P 0.05)。SWI比PIL更好地交融了新的“cat”类，并有助在降服EqWIL中的不雅测滋扰。与FIL比拟，利用SWIL进修新种别速率更快，加快比=31.25x (45000×10/(2400×6))，同时利用更少的数据量 (内存比=18.75x)。这些成果证实，纵然于非线性CNN及更真正的数据集上，SWIL也能够有用进修新种别事物。

针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习，登上PNAS

图4：( A ) 作者团队利用具备全毗连输出层的6层非线性CNN进修CIFAR10数据集中的8类事物。( B ) 相似度矩阵（右）是于出现新的“cat”类以后，作者团队按照末了一个卷积层的激活函数计较得到。对于相似矩阵运用条理聚类（左），于树状图中显示动物（橄榄绿）及交通东西（蓝色）两个上义词种别的分组环境。( C ) 作者团队于5种差别的前提下预练习CNN进修新的“cat”类（橄榄绿），直到机能平稳：1）FoL（总计n=5000张图象/epoch）；2）FIL（总计n=45000张图象/epoch）；3) PIL（总计n=2400张图象/epoch）；4) SWIL（总计n=2400张图象/epoch）；5) EqWIL（总计n=2400张图象/epoch）。每一个前提反复10次。（D）FoL（玄色）、FIL（蓝色）、PIL（棕色）、SWIL（洋红色）及 EqWIL（金色）猜测新种别、相似旧种别（CIFAR10数据集中的其他动物类）及差别旧种别（“plane” 、“ship” 及 “truck”）的召回率，猜测所有种别的总正确率，以和于测试数据集上的交织熵丧失，此中横坐标都是epoch数。

新内容与旧种别的一致性

对于进修时间及所需数据的影响假如一项新内容可以添加到先前进修过的种别中，而不需要对于收集举行较年夜更改，则称两者具备一致性。基在此框架，与滋扰多个现有种别（低一致性）的新种别比拟，进修滋扰更少现有种别（高一致性）的新种别可以更易地集成到收集中。为了测试上述揣度，作者团队利用上一节中颠末预练习的CNN，于前面描写的所有5种进修前提下，进修了一个新的“car”种别。图5A显示了“car”种别的相似性矩阵，与其他现有种别比拟，“car”及“truck”、“ship”及“plane”于统一条理节点下，申明它们更相似。为了进一步确认，作者团队于用在相似性计较的激活层长进行了t-SNE降维可视化阐发（图5B）。研究发明“car”类与其他交通东西类（“truck”、“ship”及“plane”）有显著堆叠，而“cat”类与其他动物类（“dog”、 “frog”（“田鸡”）、“horse”（“马”）、“bird”（“鸟”）及“deer”（“鹿”））有堆叠。及作者团队预期相符，FoL进修“car”种别时会孕育发生灾害性滋扰，对于相近的旧种别滋扰性更强，而利用FIL降服了这一点（图5D）。对于在PIL、SWIL及EqWIL，每一个epoch统共有n=2000张图象（图5C）。利用SWIL算法，模子进修新的“car”种别可以到达及FIL（H=0.79，P 0.05）相近的精度，而对于现有种别（包括相似及差别种别）的滋扰最小。如图5D第2列所示，利用EqWIL，模子进修新“car”类的方式与SWIL不异，但对于其他相似种别（例如“truck”）的滋扰水平更高（H=53.81，P 0.05）。与FIL比拟，SWIL可以更快地进修新内容，加快比=48.75x（45000×12/(2000×6)），内存需求削减，内存比=22.5x。与“cat”（48.75x vs.31.25x）比拟，“car”可以经由过程交错更少的类（如“truck”、“ship”及“plane”）更快地进修，而“cat”与更多的种别（如“dog” 、“frog” 、“horse” 、“frog” 及“deer”）堆叠。这些仿真试验注解，交织及加快进修新种别所需的旧种别数据量，取决在新信息与先验常识的一致性。

针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习，登上PNAS

图 5：( A ) 作者团队按照倒数第二层激活函数计较得到相似度矩阵（左），以和出现新的“car”种别后对于相似度矩阵举行条理聚类后的成果图（右）。( B ) 模子别离进修新的“car”种别及“cat”种别，颠末末了一个卷积层过激活函数后，作者团队举行t-SNE降维可视化的成果图。( C ) 作者团队于5种差别的前提下预练习CNN进修新的“car”类（橄榄绿），直到机能平稳：1）FoL（总计n=5000张图象/epoch）；2）FIL（总计n=45000张图象/epoch）；3) PIL（总计n=2000张图象/epoch）；4) SWIL（总计n=2000张图象/epoch）；5) EqWIL（总计n=2000张图象/epoch）。（D）FoL（玄色）、FIL（蓝色）、PIL（棕色）、SWIL（洋红色）及 EqWIL（金色）猜测新种别、相似旧种别（“plane” 、“ship” 及 “truck”）及差别旧种别（CIFAR10数据集中的其他动物类）的召回率，猜测所有种别的总正确率，以和于测试数据集上的交织熵丧失，此中横坐标都是epoch数。每一张图显示的是反复10次后的平均值，暗影区域为±1 SEM。

7使用SWIL举行序列进修接下来，作者团队测试是否可使用SWIL进修序列化情势出现的新内容（序列进修框架）。为此他们采用了图4中颠末练习的CNN模子，于FIL及SWIL前提放学习CIFAR10数据集中的“cat”类（使命1），只于CIFAR10的残剩9个种别上练习，然后于每一个前提下练习模子进修新的“car”类（使命2）。图6第1列显示了SWIL前提放学习“car”种别时，其他各项种别的图象数目漫衍环境（总计n=2500张图象/epoch）。需要留意的是，猜测“cat”类时也交织进修新的“car”类。因为于FIL前提下模子机能最好，SWIL仅与FIL举行告终果比力。如图6所示，SWIL猜测新、旧种别的能力与FIL相称（H=14.3，P 0.05)。模子利用SWIL算法可以更快地进修新的“car”种别，加快比为45x（50000×20/(2500×8)），每一个epoch的内存占用比FIL少20倍。模子进修“cat”及“car”种别时，于SWIL前提下每一个epoch利用的图象数目（内存比及加快比别离为18.75x 及 20x），少在于FIL前提下每一个epoch利用的整个数据集（内存比及加快比别离为31.25x 及45x），而且仍旧可以快速进修新种别。扩大这一思惟，跟着学过的种别数量不停增长，作者团队预期模子的进修时间及数据存储会成倍削减，从而更高效地进修新种别，这也许反应了人类年夜脑现实进修时的环境。试验成果注解，SWIL可于序列进修框架中集成多个新类，使神经收集可以或许于不受滋扰的环境下连续进修。针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习，登上PNAS

图6：作者团队练习6层CNN进修新的“cat”类（使命1），然后进修“car”类（使命2），直到机能于如下两种环境下趋在不变：1）FIL：包罗所有旧种别（以差别颜色绘制）及以不异几率出现的新种别（“cat”/“car”）图象；2) SWIL：按照与新种别（“cat”/“car”）的相似性举行加权并按比例利用旧种别示例。同时将使命1中进修的“cat”类包括于内，并按照使命2中进修“car”类的相似性举行加权。第1张子图暗示每一个epoch利用的图象数目漫衍环境，其余各子图别离暗示FIL（蓝色）及SWIL（洋红色）猜测新种别、相似旧种别及差别旧种别的召回率，猜测所有种别的总正确率，以和于测试数据集上的交织熵丧失，此中横坐标都是epoch数。

使用SWIL扩展种别间的间隔，

削减进修时间及数据量作者团队末了测试了SWIL算法的泛化性，验证其是否可以进修包括更多种别的数据集，以和是否合用在更繁杂的收集架构。他们于CIFAR100数据集（练习集500张图象/类，测试集100张图象/类）上练习了一个繁杂的CNN模子-VGG19（共有19层），进修了此中的90个种别。然后对于收集举行再练习，进修新种别。图7A显示了基在CIFAR100数据集，作者团队按照倒数第二层的激活函数计较的相似性矩阵。如图7B所示，新“train”（“火车”）类与很多现有的交通东西种别（如“bus” （“大众汽车”）、“streetcar” （“有轨电车”）及“tractor”（“拖拉机”）等）很相似。与FIL比拟，SWIL可以更快地进修新事物（加快比=95.45x (45500×6/(1430×2))）而且利用的数据量 (内存比=31.8x) 显著削减，而机能基真相同(H=8.21, P 0.05) 。如图7C所示，于PIL（H=10.34，P 0.05）及EqWIL（H=24.77，P 0.05）前提下，模子猜测新种别的召回率较低而且孕育发生的滋扰较年夜，而SWIL降服了上述不足。同时，为了摸索差别种别表征之间的较年夜间隔是否组成了加快模子进修的基本前提，作者团队别的练习了两种神经收集模子：1）6层CNN（与基在CIFAR10的图4及图5不异）；2）VGG11（11层）进修CIFAR100数据集中的90个种别，仅于FIL及SWIL两个前提下对于新的“train”类举行练习。如图7B所示，对于在上述两种收集模子，新的“train”类及交通东西种别之间的堆叠度更高，但与VGG19模子比拟，各种另外分散度较低。与FIL比拟，SWIL进修新事物的速率与层数的增长年夜致呈线性瓜葛（斜率=0.84）。该成果注解，种别间表征间隔的增长可以加快进修并削减内存负载。

针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习，登上PNAS

图7：( A ) VGG19进修新的“train”类后，作者团队按照倒数第二层激活函数计较的相似性矩阵。“truck” 、“streetcar” 、“bus” 、“house” 及 “tractor”5种种别与“train”的相似性最年夜。从相似度矩阵中解除对于角元素（相似度 =1）。（B，左）作者团队针对于6层CNN、VGG11及VGG19收集，颠末倒数第二层激活函数后，举行t-SNE降维可视化的成果图。（B，右）纵轴暗示加快比（FIL/SWIL），横轴暗示3个差别收集的层数相对于在6层CNN的比率。玄色虚线、红色虚线及蓝色实线别离代表斜率 =1的尺度线、最好拟合线及仿真成果。( C ) VGG19模子的进修环境：FoL（玄色）、FIL（蓝色）、PIL（棕色）、SWIL（洋红色）及 EqWIL（金色）猜测新“train”类、相似旧种别（交通东西种别）及差别旧种别（除了了交通东西种别）的召回率，猜测所有种别的总正确率，以和于测试数据集上的交织熵丧失，此中横坐标都是epoch数。每一张图显示的是反复10次后的平均值，暗影区域为±1 SEM。( D ) 从左到右依次暗示模子猜测Fashion-MNIST“boot”类（图3）、CIFAR10“cat”类（图4）、CIFAR10“car”类（图5）及CIFAR100“train”类的召回率，是SWIL（洋红色）及FIL（蓝色）利用的图象总数（对于数比例）的函数。“N”暗示每一种进修前提下每一个epoch利用的图象总数（包括新、旧种别）。假如于更多非堆叠类上练习收集，而且各表征之间的间隔更年夜，速率是否会进一步晋升？为此，作者团队采用了一个深度线性收集（用在图1-3中的Fashion-MNIST示例），并对于其举行练习，以进修由8个Fashion-MNIST种别（不包括“bags”及“boot”类）及10个Digit-MNIST种别形成的组合数据集，然后练习收集进修新的“boot”种别。及作者团队的预期相符，“boot”与旧种别“sandals”及“sneaker”相似度更高，其次是其余的Fashion-MNIST类（重要包括衣饰类图象），末了Digit-MNIST类（重要包括数字类图象）。基在此，作者团队起首交叉了更多相似的旧种别样本，再交叉Fashion-MNIST及Digit-MNIST类样本（总计n=350张图象/epoch）。试验成果注解，与FIL近似，SWIL可以快速进修新种别内容而不受滋扰，但利用的数据子集要小患上多，内存比为325.7x (114000/350) ，加快比为162.85x (228000/1400)。作者团队于当前成果中不雅察到的加快比为2.1x (162.85/77.1)，与Fashion-MNIST数据集比拟，种别数量增长了 2.25倍 (18/8)。本节的试验成果有助在确定SWIL可以合用在更繁杂的数据集 (CIFAR100) 及神经收集模子(VGG19)，证实了该算法的泛化性。同时证实了扩展种别之间的内部间隔或者增长非堆叠种别的数目，可能会进一步提高进修速率并降低内存负载。

9总结人工神经收集于连续进修方面面对庞大挑战，凡是体现出灾害性滋扰。为了降服此问题，很多研究都利用了彻底交错进修（FIL），即新旧内容交织进修，结合练习收集。FIL需要于每一次学新信息时交叉所有现有信息，使其成为一个生物学意义上不成信且耗时的历程。近来，有研究注解FIL可能并不是必须，仅交错与新内容具备本色表征相似性的旧内容，即采用相似性加权交错进修（SWIL）的要领可以到达不异的进修效果。然而，有人对于SWIL的可扩大性暗示了担心。本文扩大了SWIL算法，并基在差别的数据集（Fashion-MNIST、CIFAR10 及 CIFAR100）及神经收集模子（深度线性收集及CNN）对于其举行了测试。于所有前提下，与部门交错进修（PIL）比拟，相似性加权交错进修（SWIL）及等权交错进修（EqWIL）于进修新种别方面的体现更好。这及作者团队的预期相符，由于与旧种别比拟，SWIL及EqWIL增长了新种别的相对于频率。本文同时还有证实，与划一子抽样现有种别（即EqWIL要领）比拟，细心选择及交叉相似内容削减了对于相近旧种别的灾害性滋扰。于猜测新种别及现有种别方面，SWIL的机能与FIL近似，却显著加速了进修新内容的速率（图7D)，同时年夜年夜削减了所需的练习数据。SWIL可以于序列进修框架中进修新种别，进一步证实了其泛化能力。末了，与很多旧种别具备相似性的新种别比拟，假如其与以前学过的种别堆叠更少（间隔更年夜），可以缩短集成时间，而且数据效率更高。整体来讲，试验成果提供了一种可能的看法，即年夜脑事实上经由过程削减不切现实的练习时间，降服了原始CLST模子的一项重要弱点。原文链接：

https://www.pnas.org/doi/10.1073/pnas.2115229119

针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习，登上PNAS