米兰·(milan)中国官方网站-港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力

代码及Demo地址:https://github.com/dvlab-research/LISA
论文地址:https://arxiv.org/pdf/2308.00692.pdf
当前的视觉辨认体系都依靠人类用户明确指代方针物体或者预先设定辨认种别,进而举行辨认。它们仍旧只能处置惩罚简朴明确的指令(如“橙子”),而没法解析相对于隐式及繁杂的指令(如于下图中指出 “维生素C含量高的食品”)。

而真实的智能感知体系应该按照用户指令推理其真实用意。例如,于唆使呆板人时,人们往往偏向在直接给一个指令“我想要看电视“,而不是分几个步调”走去茶几阁下,帮我找到遥控器,然后按下按钮打开电视“。这些场景都要求感知体系具备繁杂推理及接洽世界常识的能力。
近来,中国香港中文年夜学贾佳亚团队发布一项新研究,提出一项新使命——推理支解(Reasoning Segmentation),该使命要求模子可以或许处置惩罚繁杂的天然语言指令,并给出邃密的支解成果。

如上图所示,推理支解使命具备很年夜的挑战性,可能需要借鉴世界常识(例如,左图需要相识“短镜头更合适拍摄近物体”),或者举行繁杂图文推理(如右图需要阐发图象及文本语义,才能理解图中“栅栏掩护婴儿”的寄义),才能得到终极抱负的支解成果。
只管当前多模态年夜模子(例如Flamingo [1], BLIP-2 [2], LLaVA [3], miniGPT-4 [4], Otter [5])使患上AI可以或许按照图象内容推理用户的繁杂问题,并给出响应的文天职析及回覆,但仍没法像视觉感知体系那样于图象上切确定位指令对于应的方针区域。
是以,此项研究事情提出LISA(Large Language Instructed Segmentation Assistant)多模态年夜模子。LISA经由过程引入一个 SEG 标志来扩大初始年夜型模子的辞汇表,并采用Embedding-as-Mask的方式付与现有多模态年夜型模子支解功效,终极揭示出强盛的零样本泛化能力。
同时,该事情还有创立了ReasonSeg数据集,此中包罗上千张高质量图象和响应的推理指令及支解标注。
试验证实,于练习历程中仅利用不包罗繁杂推理的支解数据(经由过程将现有的语义支解数据如ADE20K [6],COCO-Stuff [7]以和现有指代支解数据refCOCO系列 [8]中的每一条数据转换成“图象-指令-支解Mask”三元组) ,LISA能于推理支解使命上揭示出优秀的零样本泛化能力。此外,进一步利用239个推理支解数据举行微调练习还有能显著晋升LISA于推理支解使命上的机能。并且LISA还有体现出高效的练习特征,只需于8张具备24GB显存的3090显卡长进行10,000次练习迭代,便可完成7B模子的练习。
技能方案概述

起首将图象及文本送到多模态-年夜语言模子(于试验中即LLaVA),获得输出的文本成果,假如此时文本成果包罗 SEG 标志,则暗示需要经由过程输出支解猜测来解决当前问题。反之,若不包罗 SEG 标志,则无支解成果输出。
假如存于 SEG 标志,则将 SEG 标志于多模态年夜模子末了一层对于应的embedding颠末一个MLP层获得,并将其与支解视觉特性一路通报给解码器(此中支解视觉特性由输入编码器对于图象举行编码获得)。终极,按照天生终极的支解成果。
LISA于练习历程中利用了自回归交织熵丧失函数,以和对于支解成果监视的BCE及DICE丧失函数。
模子效果
终极,LISA不仅于传统的语言-图象支解指标(refCOCO、refCOCO+及refCOCOg)上揭示出优秀机能,还有能处置惩罚如下支解使命情景:1)繁杂推理,2)接洽世界常识,3)注释支解成果以和4)多轮对于话。
于有繁杂情景的ReasonSeg数据集上,LISA显著领先在其他相干事情(如Table 1),进一步证实其精彩的推理支解能力。


效果展示




援用:
[1] Alayrac, Jean-Baptiste, et al. Flamingo: a visual language model for few-shot learning. In NeurIPS, 2022.
[2] Li, Junnan, et al. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. In arXiv preprint, 2023.
[3] Liu, Haotian, et al. Visual instruction tuning. In arXiv preprint, 2023.
[4] Zhu, Deyao, et al. Minigpt-4: Enhancing vision-language understanding with advanced large language models. In arXiv preprint, 2023.
[5] Li, Bo, et al. Otter: A multi-modal model with in-context instruction tuning. In arXiv preprint, 2023.
[6] Zhou, Bolei, et al. Scene parsing through ade20k dataset. In CVPR, 2017.
[7] Caesar, Holger, Jasper Uijlings, and Vittorio Ferrari. Coco-stuff: Thing and stuff classes in context. In CVPR, 2018.
[8] Kazemzadeh, Sahar, et al. Referitgame: Referring to objects in photographs of natural scenes. In EMNLP, 2014.
雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





