米兰·(milan)中国官方网站-Michael Bronstein从代数拓扑学取经,提出了一种新的图神经网络计算结构!
图形神经收集(GNNs)凡是将其计较图与输入图的布局相一致。可是,图是 GNN 的准确计较布局吗?近来的一系列论文挑战了这一假定,用来自代数拓扑学范畴的更遍及的对于象代替了图,这提供了多种理论及计较上风。作者 | Michael Bronstein等人
编译 | 黄楠 、bingo
编纂 | 陈彩娴本文由Cristian Bodnar 及Fabrizio Frasca 合著,以 C. Bodnar 、F. Frasca 等人发表在2021 ICML《Weisfeiler and Lehman Go Topological: 信息通报简朴收集》及2021 NeurIPS 《Weisfeiler and Lehman Go Cellular: CW 收集》论文为参考。
本文仅是经由过程微分几何学及代数拓扑学的视角会商图神经收集系列的部门内容。
从计较机收集到年夜型强子对于撞机中的粒子彼此作用,图可以用来模仿任何工具。图之以是无处不于,是由于它们具备离散性及组合性,这使患上它们可以或许表达抽象瓜葛,同时又易在计较。它们受接待的缘故原由之一是图抽象出几何图形,即节点于空间中的位置或者边沿是怎样弯曲的,只留下节点怎样毗连的暗示。
图论发源在莱昂哈德 · 欧拉(Leonhard Euler)于1741年的著作《geometria situs》中的不雅察,他指出闻名的柯尼斯堡七桥问题问题没有解决方案。

图注:七桥问题要求于哥尼斯堡市内找到一条轮回行走的线路,不需要屡次过桥。正如欧拉所说,哥尼斯堡市简直切外形其实不主要,主要的是差别的地盘(图的节点)是怎样彼此毗连的(边)。欧拉注解,当且仅当所有节点具备偶数度时,如许的轮回才存于。别的,最初的桥梁中只有五座存活到现代。图源:维基百科
有趣的是,欧拉的发明不仅标记着图论的最先,并且也经常被认为是拓扑学降生的标记。与图同样,拓扑学家对于空间的那些与其特定外形或者几何外形无关的属性感兴致。
这些思惟的现代体现情势呈现于1895年的“阐发所在” (Analysis situs),这是 Henri Poincaré 的一篇创始性的论文,他的事情点燃了对于流形的组合描写的兴致,从这些流形中可以更易地找到及计较拓扑稳定量。

图注:Leonhard Euler(1707-1783)及 Henri Poincaré(1854-1912)
这些组合描写今天被称为细胞复合体 ,可以被认为是图的高维归纳综合。
与由节点及边形成的图差别,细胞复合体也能够包罗更高维的布局或者“细胞”:极点是0-细胞,边是1-细胞,2D 外貌是2-细胞等。为了构建一个细胞复合体,咱们可以经由过程将一个细胞的界限粘合到其他低维细胞上来举行分层。
于非凡环境下,当单位格由单形(如边、三角形、四面体等)组成时,这些空间也称为单形复合体。

图注:图可以看做是咱们附加边(1-单位格)的一组极点。近似地,单细胞复合体及细胞复合体可以看做是咱们毗连2-细胞(蓝色显示)、3-细胞(绿色显示)等的图形。
1呆板进修与数据科学中的拓扑咱们认为,人们没必要等候 400 年才将把拓扑学酿成一种实用的东西。
于拓扑数据阐发(TDA)的掩护伞下,诸如浅层复合物如许的拓扑布局已经经被用在呆板进修及数据科学,这种要领呈现于20世纪90年月,试图以一种对于器量不敏感及对于噪声稳健的方式来阐发“数据的外形”。
TDA的泉源可以追溯到20世纪20年月末至多产的拓扑学家之一 Leopold Vietnam oris 的事情。然而,这些技能必需比及现代计较的降生才能年夜范围运用。

图注:给定一个点云,每一个点周围固定半径的关闭球之间的交织点孕育发生一个简朴的复合体。经由过程慢慢增长球的半径,咱们可以获得一个嵌套的简朴复合体序列。图源:Bastian Rieck。
TDA 的主力是长期性同源性(PH),一种从点云中提取拓扑特性的要领。给定一个点的数据集,PH 创立一个简朴复数的嵌套序列,此中每一个复数对于应在阐发基础点云的某个比例。然后,它跟踪各类拓扑特性(例如,毗连的组件、轮回或者浮泛) ,这些特性跟着比例的逐渐增长而呈现及消散,而且人们从序列中的一个复合物过渡到下一个复合物。
于深度进修时代,长期性同源性有了“第二次生命”,由于它注解人们可以经由过程它举行反向流传,从而答应将已经经成立的 TDA 装备集成到深度进修框架中。
近来的一系列事情提出了于几何深度进修中简化及细胞复合体的差别用途,作为一个更富厚的底层拓扑空间来撑持数据及对于其举行的计较。
最早使用这一不雅点的几项事情提出了卷积模子以和于简化复合体上操作的随机行走要领。如于本文中,卷积模子可以被理解为简朴及细胞复合体上信息通报的详细实例。
因为计较是由这些空间的拓扑布局(即邻域布局)驱动的,咱们把这套要领称为拓扑信息通报。于这个框架中,相邻的单位,多是差别维度的,正于互换信息,以下图所示。

图注:拓扑信息通报示用意。蓝色箭头描写了上层相邻细胞之间的“程度”信息流传,即统一高维细胞的界限上的细胞。红色箭头描写了“垂直”信息流传,即细胞从其界限的低维细胞中吸收信息。未来自界限细胞的信息汇总到一个更粗的暗示中,这类计较可以被注释为一种(可微分的)调集情势。
于 GNN 中逾越图只管细胞复合体提供了富厚的布局,但咱们不克不及轻忽图是迄今为止呆板进修中最多见的拓扑对于象,并且很少有数据集能逾越它们。只管云云,人们仍旧可以经由过程转换输入图来使用这些有趣的拓扑空间。
咱们把将图转换为高维拓扑空间称为“晋升”,以近似在领域理论中的同名观点。它是一种转换,经由过程遵照某些法则将高维单位附加到输入图上。例如,一个图可以经由过程于图的每一个绝壁或者周期上附加一个高维单位而被晋升为一个单位复合体。经由过程如许做,图被替代成一个差别的空间,它有更多的布局,可以为GNN提供一个比原始图更好的计较布局。于下文中,咱们将会商这类要领的详细上风。

图注:经由过程将二维关闭圆盘的界限粘合到图中的引诱轮回上,可以从图中组织出高维的细胞复合体。
高阶特性及布局GNN凡是采用以节点为中央的不雅点,驻留于边上的数据仅被视为增长极点间通讯的辅助信息。于拓扑信息通报中,所有单位都是一等公平易近。不管它们的维度怎样,它们都被分配了一个特定的暗示,这个暗示是经由过程与相邻的单位互换信息而成长起来的。这为明确地模仿某些高阶布局及它们之间的彼此作用提供了一个法门。尤其是,它提供了一种原则性的要领来演化输入图的边沿(即1个单位)特性,这是一年夜类 GNN 模子没有思量到的问题。
高阶交互图表按照界说是二元的(“成对于的”),不克不及暗示触及两个以上对于象的瓜葛及交互。于对于以高阶彼此作用为特性的繁杂体系举行建模时,这多是一个问题:例如,化学反映中的三种反映物可能同时发生彼此作用。于细胞复合体中,这类环境可以经由过程两个细胞(即“填充”三角形)毗连反映物来编码。是以,模子的计较流程顺应高阶交互的存于。

图注:细胞 Weisfeiler-Lehman(CWL)测试,将经典的WL测试扩大到细胞群,算法的每一一步都完善地散列了相邻单位的颜色(可能有差别的维度)。
体现力信息通报 GNN 的表达能力受 Weisfeiler-Leman (WL) 图同构测试限定,尽人皆知,WL 没法检测某些图子布局,例如三角形或者轮回,纵然长短常简朴的非同构图也没法区别。
据此前的论文显示(论文地址:https://arxiv.org/abs/2103.03212;https://arxiv.org/abs/2106.12575),WL 测试 (CWL) 的细胞版本可用在测试细胞复合物的同构性。当这个新测试与上面描写的图晋升历程相配时,可以发明,它能比 WL 测试区别更年夜的图类。是以,于必然前提下,拓扑信息通报历程继续了该测试的长处,比拟尺度 GNN 提高了表达能力。
不足、过分光滑及瓶颈信息通报的 GNN 需要n个层来使相距n个跳数的节点举行通讯。当仅利用几层,以至在相距较远的节点没法互换信息时,这类征象称为未到达。
比拟之下,利用太多层可能会致使过分光滑,且信息可能会于图的布局瓶颈中丢掉。
单位复合体可以减缓这些问题,由于由高维单位引诱的更富厚的邻域布局,于可能相距很远的节点之间创立了捷径。是以,信息只需包罗一些计较步调来流传,就是有用的。

图注:GNN 需要许多层才能使相距很远的节点举行通讯(左)。高维单位经由过程创立捷径来转变空间的底层拓扑布局(右)。这答应长途节点于几个信息通报步调中互换信息。
分层建模拓扑信息通报履行的计较是分层的,信息从低维单位流向高维单位并返回,可看做是“垂直”(及可区别)池的一种情势,而非尺度图神经收集中的“程度”池。这连结了“压缩”图区域的归纳误差,而不会纰漏输入图的会侵害基在 GNN 池机能的细粒度信息。

图注:拓扑信息通报答应信息存于在差别维度的单位之间分层
域对于齐某些运用天然与细胞复合物的布局一致,例如,份子的原子、键及化学环可以暗示为 0-cell、1-cell 及 2-cell,份子的物理布局及细胞的繁杂暗示之间的直接对于应,答应了拓扑信息通报使用上述特征,这些暗示也展示了拓扑信息通报于份子特征猜测使命中所实现的开始进成果 。
其他体现优良对于齐的运用步伐,可能包括计较机图形运用步伐中的离散流形(网格)、社交收集(派系尤其主要)或者空间图,例如google舆图(街道间的街区可被天然地暗示为“立方”细胞) 。

图注:咖啡因子被建模为二维细胞复合物
2拓扑学及微分几何学的联合拓扑信息通报中,保留了很多与代数拓扑学、微分几何学的有趣接洽,答应利用迄今为止仍于图及几何深度进修中没有获得充实开发的数学东西。
洞代数及标的目的等值于代数拓扑中,凡是利用有向纯真复形,此中每一个纯真形存于肆意“定向”,例如,咱们选择每一条边中的一个源节点及一个方针节点,并对于每一个三角形选一个遍历其节点的挨次。一旦选定标的目的后,就可对于复形履行有趣的代数算子,例如经由过程“界限算子”计较某些纯真形的界限。这些代数运算也能够用来于纯真复形中找到“洞”——没有界限但不于其他事物界限上的区域。其暗地里,长期同源依赖这些计较来检测拓扑特性。

图注:运用在 2-纯真形的界限算子孕育发生一个三角形。再次将算子运用在三角形,成果为零,因为三角形是一个轮回,是以它没有界限。
拓扑信息通报可以看做是代数算子(例如界限算子)的(非线性)推广。是以,拓扑信息通报体现近似是有须要的:咱们但愿各层的输出可以或许“一致”地相应输入复合物标的目的的变化。换句话说,咱们但愿咱们的层是标的目的等值的。于事情中,咱们研究了拓扑信息通报是怎样经由过程选择适合的非线性及信息通报函数来满意这一特征,同时,纯卷积设置中也对于这一点举行了研究。
区别拓扑空间最早已经知的拓扑稳定量之1、欧拉特性,最初用在柏拉图固体的分类,咱们可以将其界说为每一个维度中单位格数目的瓜代总及。使人惊奇的是,假如两个细胞复合体是同胚的,即便它们是统一空间的差别离散,这些及也将是一致的。
有趣的是,拓扑信息通报模子的读出操作,使其能很轻易计较出该拓扑的稳定性,由于它对于每一个维度单位运用了一个可包涵稳定量的还有原。
是以,这种模子于组织上可以区别某些非同构的空间(即具备差别的欧拉特性)。从计较的角度来看,这可以被看做是 WL 测试的一种推广,于 WL 测试中,咱们不单单对于确定两个细胞复合物是否不异感兴致,也对于它们是否相互同构感兴致。
离散霍奇理论离散霍奇理论为细胞复合物的拓扑性子提供了一个更几何的注释。当与k-细胞相干的特性符号取决在k-细胞的标的目的时,这些特性于数学上可被看做是微分几何中的微分k-形的离散版本(便可以被整合的k维体积元素)。一个被称为霍奇拉普拉斯的算子归纳综合了图形拉普拉斯,它可作用在这些微分情势。可以证实,基在此拉普拉斯算子的扩散 PDE ,会于极限内收敛与复合物的洞的有关旌旗灯号 。

图注:基在霍奇拉普拉斯算子的扩散偏微分方程,收敛在初始微分情势于拉普拉斯算子核上投影的极限。该图象显示了霍奇拉普拉斯算子的零特性向量是怎样于复合体中的洞周围取高值。
第一个简朴的神经收集模子现实上是基在霍奇拉普拉斯的卷积模子,反之,又遭到拓扑旌旗灯号处置惩罚的开导。就于近来,基在该算子的一个版卷积模子被用在解决计较代数拓扑学中的NP-hard问题。
3末了的思索这些只是变相的图表吗?近来有论文认为,除了其他外,拓扑信息通报要领不外是于编码细胞复合体布局的批改图上操作信息通报的 GNN 。这对于卷积模子来讲是准确的,其信息通报计较触及到成对于的单位格。
然而,于其最一般的情势中,信息函数答应高维单位格调制其界限上的低维单位格之间通报的信息。一般环境下,能经由过程图上的通例信息通报,由于一条边正好毗连两个节点,而一个2-单位格可以肆意毗连多的边。
于这两种环境下,计较都是由数据所凭借的底层空间的拓扑布局所驱动的。咱们信赖,于信息通报上采用这类拓扑视角所带来的利益,要凌驾纯粹的计较思量。除了了有价值的数学接洽外,它还有为其他数学及计较学科打开了研究话语,有益在咱们常常过在单调的社区之间的踊跃交织交融。
拓扑信息通报的下一步是甚么?咱们估计拓扑信息通报要领的两个重要将来标的目的:
第一,多年来于GNN中开发的很多架构(如留意力机制)可能会于这些新的拓扑空间中被采用,同时可使用它们的特定特性。
其次,来自代数拓扑范畴的更大都学对于象及东西(包括诸如蜂窝滑轮之类的布局,纵然是最精晓数学的 ML 研究职员,对于他们来讲可能听起来也很生疏)将被图及几何深度进修社区采用。
这些要领既可以为老问题提供谜底,也能够帮忙解决新问题,正如Robert Ghrist 所说:「novel challenges necessitate novel math」(新的挑战需要新的数学)。
原文链接:https://towardsdatascience.com/a-new-computational-fabric-for-graph-neural-networks-280ea7e3ed1a

雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





