米兰·(milan)中国官方网站-图机器学习无处不在，用 Transformer 可缓解 GNN 限制

作者：米兰·(milan)文化更新时间：2026-03-13 17:25:27 点击数：

图机器学习无处不在，用 Transformer 可缓解 GNN 限制

作者 | Clémentine Fourrier

编译 | 黄楠

编纂 | 陈彩娴

于咱们今天的糊口中，图的示例包括社交收集、例如Twitter、Mastodon、以和任何链接论文及作者的引文收集，份子，常识图、例如 UML 图、百科全书以和有超链接的网站，暗示为句法树的句子以和任何的 3D 网格等，可以说图已经经无处不于。

近日，Hugging Face 研究科学家 Clémentine Fourrier 于文章《Introduction to Graph Machine Learning》就先容了今天这类无处不于的图呆板进修。甚么是图形？为何要利用图？怎样最佳地暗示图？人们怎样于图上进修？Clémentine Fourrier 指出，图是对于由瓜葛链接项目的描写，此中，畴前神经要领到图神经收集仍旧是今朝人们经常使用的图上进修要领。

此外，有研究职员近期也最先思量将 Transformers 运用在图中，Transformer 具备优良的可扩大性，可减缓 GNN 存于的部门限定，远景十分可不雅。

1图是对于瓜葛链接项目的描写

从素质上来看，图是对于由瓜葛链接项目的描写。图（或者收集）的项目称为节点（或者极点），由边（或者链接）来举行毗连。例如于社交收集中，节点是用户，边是用户相互间的毗连；于份子中，节点是原子，边沿是它们的份子键。

一个有类型节点或者类型边的图被称为异质图，举个例子，于引文收集的项目可所以论文或者作者，有类型节点，而 XML 图中的瓜葛有类型边；它不克不及仅仅经由过程其拓扑布局来暗示，还有需要分外的信息

图也能够是有向的（例如跟随者收集，A 追随 B 其实不象征着 B 追随 A）或者无向的（例如份子、原子之间的瓜葛是双向的）。边可以毗连差别的节点或者一个节点与自身（自边），但并不是所有节点都需要毗连

可以看到，利用数据必需起首思量其最好暗示，包括同质/异质、有向/无向等。

于图层面，重要使命包括如下：

图形天生，用在药物发明以天生新的合理份子

图演化，即给定一个图来猜测它将怎样随时间演化，于物理学中可用在猜测体系的演化

图级猜测，来自图的分类或者回归使命，例如猜测份子的毒性

节点层凡是是对于节点属性的猜测，例如 Alphafold 利用节点属性猜测来猜测给定份子总体图的原子 3D 坐标，从而猜测份子怎样于 3D 空间中折叠，这是一个坚苦的生物化学问题。

边沿的猜测包括边沿属性猜测及缺掉边沿猜测。边沿属性猜测有助在对于药物副作用的猜测，给定一对于药物的不良副作用；缺掉边猜测于保举体系中则是用在猜测图中的两个节点是否相干。

于子图级别中，可举行社区检测或者子图属性猜测。社交收集可经由过程社区检测来确定人们的接洽方式。子图属性猜测多运用于行程体系中，例如google舆图，可用在猜测估计达到时间。

当要举行猜测特定图的蜕变时，转换设置事情中的所有内容，包括练习、验证及测试等，均可于统一个图上完成。但从单个图创立练习、评估或者是测试的数据集并不是易事，许多事情会利用差别的图（零丁的练习/评估/测试拆分）完成，这被称为归纳设置。

暗示图处置惩罚及操作的常见要领有两种，一种是作为其所有边的调集（可能由其所有节点的调集增补），或者是作为其所有节点之间的毗邻矩阵。此中，毗邻矩阵是一个方阵（节点巨细×节点巨细），唆使哪些节点直接毗连到其他节点。要留意的是，因为年夜大都图其实不是密集毗连的，是以具备稀少的毗邻矩阵会使计较越发坚苦。

图与 ML 中利用的典型对于象很是差别，因为其拓扑布局比“序列”（如文本及音频）或者“有序网格”（如图象及视频）更繁杂：即即可以将其暗示为列表或者矩阵，但这类暗示不成以被视为是有序对于象。也便是说，假如打乱一个句子中的单词，就能够创造一个新句子，假如将一个图象打乱并从头摆列它的列，就能创立了一个新图象。

图注：Hugging Face 标记及被打乱的 Hugging Face 标记，是彻底差别的新形象

但图的环境并不是云云：假如咱们洗失图的边沿列表或者毗邻矩阵的列，它仍旧是统一个图。

图注：左侧是一个小图，黄色暗示节点，橙色暗示边；中央图片上的毗邻矩阵，列及行按节点字母挨次摆列：节点 A 的行（第一行）可以看到其毗连到 E 及 C；右侧图片打乱毗邻矩阵（列再也不按字母挨次排序），其仍为图形的有用暗示，即 A 仍毗连到 E 及 C

2经由过程 ML 的图形暗示

利用呆板进修处置惩罚图的通例历程，是起首为项目天生成心义的暗示，此中，节点、边或者完备图取决在详细使命需求，为方针使命练习猜测器。与其他模式同样，可以经由过程限定对于象的数学暗示，以便于数学上与相似对于象靠近。但于此之中，相似性于图 ML 中很难严酷界说：例如，当两个节点具备不异的标签或者不异的邻人时，它们是否更相似？

以下面所示，本篇文章重点存眷的是天生节点暗示，一旦有了节点级的暗示，就有可能得到边或者图级的信息。对于边级信息，可以将节点对于的毗连起来，或者者做点乘；于图级信息中，可以对于所有节点级暗示的串联张量举行全局池化，包括平均、乞降等。可是，它仍旧会使整个图的信息变患上光滑及丢掉——递归的分层调集可能更成心义，或者者增长一个虚拟节点，与图中的所有其他节点相连，并将其暗示作为整个图的暗示。

前神经要领

简朴地利用工程特征

于神经收集以前，图形和其感兴致的项目可以经由过程特定使命的方式暗示为特性的组合。于今天，这些特性仍用在数据加强及半监视进修，只管存于更繁杂的特性天生要领，但按照使命找到怎样最佳地将这些特性提供应到收集至关主要。

节点级特性可以提供关在主要性的信息以和基在布局的信息，并对于其举行组合。

节点中央性可用在权衡图中节点的主要性，经由过程对于每一个节点邻人中央性乞降直到收敛来递归计较，或者是经由过程节点间的最短间隔器量来递归计较，节点度是其拥有的直接邻人的数目；聚类系数权衡节点邻人的毗连水平；Graphlets 度向量计较则可计较有几多差别的 graphlets 以给定节点为根，此中，graphlets 可以使用给定命量的毗连节点来创立的所有迷你图。

图注：2 到 5 节点小图

边级特性用关在节点连通性的更具体信息增补暗示，此中就包括了两个节点之间的最短间隔、它们的配合相邻点以和 Katz 指数（指两个节点之间可能走过的必然长度的路径的数目——其可以直接从毗邻矩阵入彀算出来）。

图级特性包罗关在图相似性及非凡性的高级信息，此中，小图计数，只管计较成本很高，但提供了关在子图外形的信息。焦点要领经由过程差别的节点袋要领（近似在词袋）来权衡图之间的相似性。

基在行走的要领

基在行走的要领利用随机行走中从节点 i 拜候节点 j 的几率来界说相似性器量，这些要领联合了局部及全局信息。例如，此前 Node2Vec 模仿图形节点之间的随机游走，利用 skip-gram 处置惩罚这些游走，就像咱们处置惩罚句子中的单词同样，以计较嵌入。

这些要领还有可用在加快 PageRank 要领的计较，该要领给每一个节点分配一个主要性分数，基在它与其他节点的毗连，例如经由过程随机行走来评估其拜候频率。但上述要领也存于必然的局限性，它们不克不及得到新节点的嵌入，不克不及很好地捕获节点之间的布局相似性，不克不及利用添加的特性。

3图神经收集怎样处置惩罚图？

神经收集可以泛化到看不见的数据。思量到此条件到的暗示约束，一个好的神经收集应该怎样处置惩罚图？

下面展示了两种要领：

是置换稳定的：

方程：f（P（G））=f（G）f（P（G））=f（G），此中 f 是收集，P 是置换函数，G 是图

注释：颠末收集后，图的暗示和其摆列应该不异

是置换等变的

方程：P（f（G））=f（P（G））P（f（G））=f（P（G）），此中 f 是收集，P 是置换函数，G 是图

注释：于将节点通报到收集以前置换节点应该等同在置换它们的暗示

典型的神经收集不是摆列稳定的，例如 RNN 或者 CNN，是以一种新的架构——图神经收集被引入（最初是作为一种基在状况的呆板）。

一个 GNN 是由持续的层构成的。GNN 层将节点暗示为其邻人的暗示及来自上一层（动静通报）的自身组合，凡是还有会加之激活以添加一些非线性。而与其他模子比拟，CNN 可看做是具备固定邻人巨细（经由过程滑动窗口）及排序（非摆列等变）的 GNN；而没有位置嵌入的 Transformer 可以看做是全毗连输入图上的 GNN。

聚合及动静通报

聚合来自节点邻人的信息有许多要领，例如乞降、平均，此前已经有的近似聚类要领包括：

Graph Convolutional Networks，对于节点邻人的归一化暗示举行平均；

Graph Attention Networks，进修按照它们的主要性来衡量差别邻人（如Transformer）；

GraphSAGE，于利用最年夜调集于几个步调中聚合信息以前，于差别的跃点对于邻人举行采样；

Graph Isomorphism Networks，经由过程将 MLP 运用在节点邻人暗示的总及来聚合暗示。

选择一个聚合：一些聚合技能（尤其是平均/最年夜调集）于创立邃密暗示以区别近似节点的差别节点邻人暗示时，会碰到掉败的环境；例如，经由过程均值调集，一个有4个节点邻人暗示为一、一、-一、-1，平均为0，与一个只有3个节点暗示为-一、0、1的邻人是没有区分的。

GNN 外形及过分光滑问题

于每一个新层，节点暗示包括愈来愈多的节点。一个节点经由过程第一层，是其直接邻人的聚合。经由过程第二层，它仍旧是其直接邻人的聚合，但现在其暗示还有包括了它们本身的邻人（来自第一层）。于 n 层以后，所有节点的暗示成为其间隔为 n 的所有邻人的调集，是以，假如其直径小在n，则为全图的聚合。

假如收集层数太多，则存于每一个节点成为完备图的聚合的危害（而且节点暗示对于所有节点收敛到不异的暗示），这被称为过分光滑问题，可经由过程如下方式来解决：

将 GNN 缩放到充足小的层数，从而不会将每一个节点类似为整个收集（经由过程起首阐发图的直径及外形）

增长层的繁杂性

添加非动静通报层来处置惩罚动静（例如简朴的 MLP）

添加跳过毗连

过分光滑问题是图 ML 中的一个主要研究范畴，因为它会制止 GNN 扩展范围，就像 Transformers 于其他模子中被证实的那样。

图 Transformers

没有位置编码层的 Transformer 是置换稳定的，而且 Transformer 还有具备优良的可扩大性，是以研究职员于近期最先思量将 Transformers 运用在图中。年夜大都要领的重点是经由过程寻觅最好特性及最好方式来暗示图形，并转变留意力以顺应这类新数据。

下面展示了一些要领，这些要领于斯坦福年夜学的 Open Graph Benchmark 上取患上开始进或者靠近的成果：

Graph Transformer for Graph-to-Sequence Learning，引入一个图 Transformer，它将节点暗示为它们的嵌入及位置嵌入的串联，节点瓜葛暗示两者间的最短路径，并将二者组合成一个瓜葛——加强自我存眷。

Rethinking Graph Transformers with Spectral Attention，引入了 Spectral Attention Networks （SAN），这些将节点特性与进修的位置编码（从拉普拉斯特性向量/值计较）联合起来，用作留意力中的键及查询，留意力值是边沿特性。

GRPE: Relative Positional Encoding for Graph Transformer，先容了图相对于位置编码Transformer，其经由过程将图级位置编码与节点信息、边级位置编码与节点信息相联合，并将二者联合于留意力中来暗示图。

Global Self-Attention as a Replacement for Graph Convolution ，引入了 Edge Augmented Transformer，该系统布局别离嵌入节点及边沿，并将它们聚合于颠末修改的留意力中。

Do Transformers Really Perform Badly for Graph Representation，先容了微软的 Graphormer，它于 OGB 上问世时得到了第一位。该架构利用节点特性作为留意力中的查询/键/值，并于留意力机制中将它们的暗示与中央性、空间及边沿编码相联合。

近期有研究“Pure Transformers are Powerful Graph Learners”于要领中引入了 TokenGT，将输入图暗示为一系列节点及边嵌入，也便是利用正交节点标识符及可练习类型标识符举行加强，没有位置嵌入，并将此序列作为输入提供应 Transformers，此要领很是简朴，同时也很是有用。

论文地址：https://arxiv.org/pdf/2207.02505.pdf

此外，于研究“Recipe for a General, Powerful, Scalable Graph Transformer”中，跟其他要领差别的是，它引入的不是模子而是框架，称为 GraphGPS，可答应将动静通报收集与线性（长途）Transformer 联合起来，轻松创立混淆收集。该框架还有包罗几个用在计较位置及布局编码（节点、图形、边沿级别）、特性加强、随机游走等的东西。

论文地址：https://arxiv.org/abs/2205.12454

将 Transformer 用在图于很年夜水平上仍处在起步阶段，但就今朝来看，其远景也十分可不雅，它可以减缓 GNN 的一些限定，例如缩放到更年夜或者更密集的图，或者是于不外度光滑的环境下增长模子巨细。

参考链接：https://huggingface.co/blog/intro-graphml

米兰·(milan)中国官方网站-图机器学习无处不在，用 Transformer 可缓解 GNN 限制

随便看看

产品推荐

哆啦A梦：伴我同行

八月未央

夏洛特烦恼

风再起时

云飞丝路天