米兰·(milan)中国官方网站-莱斯大学胡侠团队 ICML 2022 杰出论文: 新型图数据增强方法 G
作者|李梅编纂|陈彩娴近日,备受存眷的第十九届呆板进修国际集会(ICML 2022)于美国马里兰州巴尔的摩市举办。改过冠疫情以来,年夜会初次恢复线下情势,采纳线上线下联合的方式举办。
1ICML2022概况本届年夜会共收到5630 篇投稿,此中,1117 篇被吸收为short oral,118篇被吸收为long oral。吸收率为21.94%,与以往几年基本持平。前几日,本届年夜会的全数奖项宣布,共评比出15 篇卓异论文奖及 1 项时间查验奖。此中,复旦年夜学、上海交通年夜学、厦门年夜学、莱斯年夜学等多个华人团队的事情被评位卓异论文奖。ICML 2012 的一篇论文《Poisoning Attacks against Support Vector Machines》得到了时间查验奖。
获奖论文信息详见:https://icml.cc/virtual/2022/awards_detail
本年的卓异论文奖差别平常,评比数目多达 15 篇。而一样是 21% 摆布的接管率,前年只评比出2篇卓异论文,去年则仅有1篇。
本文咱们来存眷一下本年获奖的一篇优异事情。AI 科技评论这次采访到得到卓异论文奖的莱斯年夜学胡侠团队,为咱们解读他们的研究事情。该团队的获奖论文标题问题为:《G-Mixup: Graph Data Augmentation for Graph Classification》。作者:Xiaotian Han、Zhimeng Jiang、Ninghao Liu、Xia Hu。
论文地址:https://arxiv.org/pdf/2202.07179.pdf于这项研究中,作者提出了一种新的图数据加强要领:G-Mixup,试验注解,G-Mixup 可以或许提高图神经收集的泛化性及鲁棒性。
胡侠,现任美国莱斯年夜学终身副传授,数据科学中央主任,AIPOW结合开创人兼首席科学家。其主导开发的开源体系AutoKeras成为最经常使用的主动呆板进修框架之一(跨越8000次star和1000次fork),开发的NCF算法和体系(单篇论文他引3000余次)成为主流人工智能框架TensorFlow的官方保举体系,主导开发的异样检测体系于通用、Trane、苹果等公司的产物中获得广泛运用,研究事情屡次得到最好论文(提名)奖。
2获奖事情G-Mixup先容研究配景图数据于咱们的实际糊口中无处不于,咱们可使用图来建模及描写各类繁杂收集体系。而为了将图数据运用在详细使命,咱们起首需要对于图数据举行表征。最近几年来,经由过程深度进修技能对于图数据举行暗示进修的图神经收集(GNNs),于节点分类使命上取患了最优机能,于是已经被广泛用在图形阐发。同时,数据加强(data augmentation)及 Subgraph(子图)也被用在图阐发,它们经由过程天生合成图来创立更多练习数据,以提高图分类模子的泛化机能。
当前风行的数据加强要领 Mixup 经由过程于两个随机样本之间插入特性及标签,于提高神经收集的泛化性及鲁棒性方面显示出优胜性。可是,Mixup 更合用在处置惩罚图象数据或者表格数据,直接将其用在图数据并不是易事,由于差别的图凡是:(1)有差别数目的节点;(2)不易对于齐;(3)于非欧几里患上空间中的类型学具备非凡性。
为此,提出了一种 class-level 的图数据加强要领:G-Mixup。详细来讲,起首利用统一类中的图来预计一个 graphon。然后,于欧几里患上空间中对于差别类的 graphons 举行插值,获得混淆的 graphons,合成图即是经由过程基在混淆 graphons 的采样天生的。经试验评估,G-Mixup 光鲜明显提高了图神经收集的泛化性及鲁棒性。
G-Mixup的实现要领G-Mixup。G-Mixup 是一种经由过程图形插值的class-level数据加强要领。详细来讲,G-Mixup 对于差别的图天生器(graphon)举行线性插值以得到新的混淆的天生器。然后,基在混淆的新的天生器对于合成图举行采样获得新的图数据以举行数据加强。改论文从理论上证实从该天生器中采样的图部门具备原始图的属性。
如图1所示,G-Mixup包括三个要害步调:(1)为每一一类图预计一个graphon,(2)混淆差别图类的graphons,以和(3)基在混淆的graphons采样天生合成图。
图 1:于二值图分类使命中,有两类差别的图 G 及 H,两者拓扑差别(G 有两个社区,而 H 有八个社区)。G 及 H 具备差别的graphons。
Graphon 预计及 Mixup。作者利用矩阵情势的阶进函数作为graphon来混淆及天生合成图。对于阶跃函数预计要领,作者起首按照节点丈量值将节点对于齐于一组图中,然后从所有对于齐的毗邻矩阵中预计阶跃函数。
合成图的天生。一个 graphon W 提供一个漫衍来天生肆意巨细的图。
G-Mixup 的机能评估那末,G-Mixup 于真实世界的图数据上体现怎样?作者团队对于 G-Mixup 的机能举行了评估。
一个数据集中差别种别的图的 graphons 显著差别。图 2 注解实际世界中差别种别的图有彻底差别的graphons,这为经由过程交融 graphon 来天生混淆的图奠基了基础。
图2:IMDBBINAERY 的 graphons 显示 class 1 的 graphon 有更年夜的密集区域,这注解该类中的图比 class 0 中的图具备更年夜的社区。REDDIT-BINARY 的 graphons 显示,class 0 中的图有一个高度节点,而 class 1 中的图有两个。
G-Mixup 合成的图是原始图的混淆。作者团队将于 REDDIT-BINARY 数据集上天生的合成图举行可视化,如图 3,混淆 graphon(0.5∗W0+0.5∗W1) 可以或许天生包罗高度节点及密集子图的图,这可看做是包罗 1 个高度节点及包罗 2 个高度节点的图的混淆图。这验证了 G-Mixup 更偏向在保留来自原始图的区分性图案,其合成图确凿是原始图的混淆。

图3:于 REDDIT-BINARY 数据集上天生的合成图的可视化。
G-Mixup 可以提高 GNN 于各类数据集上的机能。作者比力了利用 G-Mixup 的各类GNN骨干收集于差别数据集上的机能。试验成果注解,G-Mixup可以提高图神经收集于各类数据集上的机能。
G -Mixup 可以提高 GNN 的鲁棒性。作者对于 G-Mixup 的两种鲁棒性(标签腐化的鲁棒性及拓扑腐化的鲁棒性)举行研究,发明 G-Mixup 可以或许提高 GNN 的鲁棒性。
结论这项事情提出了一种名为 G-Mixup 的新型图加强要领。与图象数据差别,图数据是不法则的、未对于齐的且处在非欧几里患上空间中,是以很难举行混淆。然而,统一种别中的图具备不异的天生器(即graphon),它是法则的、优良对于齐的且处在欧几里患上空间中。是以,作者转而对于差别种别的 graphons举行混淆来天生合成图。综合试验注解,利用 G-Mixup 练习的 GNN 得到了更好的机能及泛化能力,并提高了模子对于噪声标签及被毁坏拓扑的鲁棒性。
3AI 科技评论对于话G-Mixup作者团队AI 科技评论:庆贺你们的研究得到ICML 2022卓异论文奖。起首,可否归纳综合一下你们这项事情的重要孝敬?
作者团队:咱们提出了 G-Mixup 来加强用在图分类的练习图。因为直接混淆图是难以处置惩罚的,是以 G-Mixup 将差别种别的图的图元混淆以天生合成图。其次,咱们理论上证实合成图将是原始图的混淆,此中源图的要害拓扑(即判别主题)将被混淆。末了,咱们证实了所提出的 G-Mixup 于各类图神经收集及数据集上的有用性。年夜量的试验成果注解,G-Mixup 可以或许加强图神经收集的泛化性及鲁棒性。
AI 科技评论:其时论文收到的审稿定见是如何的?
作者团队:审稿定见整体比力positive,不外其时审稿人对于咱们做数据加强的意义有一点疑难,咱们对于此作了具体的注释,好比就练习而言,有时练习数据集尤其少,咱们就能够用数据加强来获取更多的数据。审稿人于末了的定见中也注解熟悉到了数据加强的主要意义。
AI 科技评论:与以往的Mixup要领比拟,G-Mixup的差别的地方于甚么处所?
作者团队:Mixup 技能重要运用于图象上,已经经比力成熟,它是将练习数据中的两个数据集线性地加起来,获得一个新的练习数据,从而完成数据扩增。但它于图数据上还有没有一个很好的解决方案。而咱们的G-Mixup 是一个简朴且有用的要领,它是对于差别种别的图天生器举行混淆来天生合成图。
AI科技评论:与图象数据及表格数据比拟,对于图数据做mixup的难点于甚么处所?
作者团队:今朝针对于图的mixup的研究比力少,由于图数据比力难处置惩罚,它不易暗示,并且两个图的节点数目、无布局信息是纷歧样的,以是很难将其交融到一路。图象数据及表格数据可以暗示成持续的向量或者矩阵的情势,以是很轻易做交融,但图数据没法暗示成这类情势。
AI科技评论:为何说G-Mixup 是一种Class-level的图数据加强要领?
作者团队:咱们是用两个类来天生一个新的类,咱们用多张图来预计图的天生法则也就是图的天生器,然后对于每一一类图来预计一个天生器,如许来天生一个新的种别。以往针对于图象的mixup是用两张图片来做,属在instance-level,但针对于图的处置惩罚要领与此差别。
AI科技评论:有哪些路子可以提高图神经收集的泛化性?
作者团队:好比设计新的收集布局,做数据加强,以和练习技巧方面的一些事情,均可以提高泛化性,咱们这项事情展示的是此中一种要领。
AI科技评论:针对于这项事情所研究的问题,有甚么下一步的研究规划?
作者团队:咱们这项事情提出的要领重要是用在图分类使命,之后咱们可以进一步思量于节点分类使命上做交融,节点分类也是图神经收集方面的一个主要使命。
AI科技评论:此次得到卓异论文奖,有无甚么经验、领会可以分享?
作者团队:起首文章的写作质量要好,要将研究清晰地表述出来;研究的 idea 要十分合理;以和,研究问题自己要成心义及价值。
AI科技评论:这项研究的结果对于相干范畴有如何的影响?有哪些现实运用的价值?
作者团队:因为图数据的自己特征,使患上mixup这个于其他数据上颇有效的要领不克不及直接合用于图数据上,咱们提出的g-mixup利用了图天生器去交融图数据,实现了class-level的图数据mixup, 但愿能对于图数据的mixup能有必然的开导作用。但愿提出的要领可以或许于图天生,新药物发明标的目的能有必然的开导。
更多内容,点击下方存眷:扫码添加 AI 科技评论 微旌旗灯号,投稿 进群:
雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





