米兰·(milan)中国官方网站-上科大何旭明团队新作:克服简单样本偏置,让多模态模型学会「难题优先」
多模态模子于感知、理解与天生等方面的能力连续晋升,但其输出中仍遍及存于与客不雅事实纷歧致的内容,即多模态幻觉征象。
当模子面临信息缺掉、语义迷糊或者视觉细节繁杂的场景时,往往会经由过程臆测举行补全,从而假造其实不存于的病灶、物体或者情节。这种问题并不是偶发掉误,而是偏好优化练习历程中逐渐堆集的布局性误差而至:模子更易从数目重大、差异较着的简朴样本中得到进修收益,却对于真正坚苦、歧义性强的样本存眷不足,成果是于繁杂真实场景中的靠得住性遭到限定。
缭绕这一问题,上海科技年夜学信息科学与技能学院何旭明传授领导团队于论文《DA-DPO: Cost-efficient Difficulty-aware Preference Optimization for Reducing MLLM Hallucinations》中开展了体系研究。这项事情指出,现有偏好优化要领的焦点症结不于在数据范围的不足,而于在样本难度漫衍掉衡。
为此,团队提出了 DA-DPO 框架,经由过程预练习模子对于样本难度举行预计,并于练习历程中动态调解样本权重,使模子的进修重点自顺应地转向繁杂且更容易堕落的样本,从而减缓简朴样本主导练习所带来的偏置。
值患上留意的是,DA-DPO 不依靠分外人工标注,也无需练习自力的奖励模子或者引入繁杂的强化进修流程,于是具备显著的成本效率。于多项多模态评测基准上,该要领不仅显著降低了幻觉发生频率,同时于很年夜水平上连结甚至晋升了模子的总体理解与推理能力。

论文地址:https://arxiv.org/pdf/2601.00623v1
按捺幻觉,但不按捺能力终极的试验成果注解,研究团队提出的 DA-DPO 要领于降低多模态年夜语言模子幻觉征象方面实现了不变而显著的改良,同时于连结甚至晋升模子综合能力方面也揭示出较着上风。
研究职员起首于多个幻觉评测基准上开展了充实试验,包括 AMBER、MMHalBench、Object HalBench 及 POPE 等,这些基准笼罩图象描写、开放式视觉问答以和方针级别幻觉辨认等差别使命类型,所采用的评价指标涵盖幻觉率、笼罩率、F1 分数和一致性患上分等多个维度。
于这些评测中,与原始模子及传统 DPO 要领比拟,DA-DPO 于降低幻觉率及晋升事实一致性两方面均体现出显著晋升。例如,于针对于物体幻觉的测试中,模子较着削减了对于图象中其实不存于物体或者属性的臆造描写,特别于繁杂场景及存于遮挡的环境下,DA-DPO 对于随便性、想象式回覆的按捺效果越发凸起。
同时,于综合能力评估方面,包括 LLaVA-Bench、SeedBench、GQA 及 MME 等基准测试显示,传统 DPO 要领虽然可以或许必然水平上按捺幻觉,但往往陪同整体推理与理解能力的降落,比拟之下,DA-DPO 于削减幻觉的同时,可以或许基本连结甚至晋升模子的通用多模态能力,特别于多轮对于话、繁杂视觉推理以和多选视觉问答等使命上体现更为稳健。雷峰网(公家号:雷峰网)
这注解,DA-DPO 并不是以守旧输出或者削减表达为价钱来节制幻觉,而是经由过程改良偏勤学习机制,使模子于忠厚性与综合能力之间告竣更合理的均衡。

此外,试验还有经由过程练习历程中的奖励旌旗灯号动态阐发进一步展现了上述成果暗地里的机制。研究团队将验证集样本根据难度划分为四个等级后发明,于平凡 DPO 练习中,简朴样本的奖励晋升速率较着快在坚苦样本,并于练习后期形成较年夜差距。
而 DA-DPO 的练习曲线则显示坚苦样本的奖励晋升越发显著,简朴样本的增加趋缓,从而有用缩小差别难度样本之间的奖励差距。经由过程对于最简朴与最坚苦样本奖励差距举行积分所获得的 AUG 指标,研究职员定量证实 DA-DPO 于整个练习历程中维持了更小的难易差异,这注解练习权重确凿由简朴样本向坚苦样本转移,终极转化为对于细粒度幻觉的显著按捺以和综合能力的不变连结。

试验设计缭绕一个焦点起点睁开:于多模态偏好数据中,年夜量样本属在简朴偏好对于,而传统 DPO 于练习历程中更易拟合这种易在区别的样本,从而减弱了对于坚苦样本的进修力度,致使模子于真实而繁杂的运用场景中仍旧轻易孕育发生幻觉。
为验证这一判定并提出响应改良方案,研究团队从模子选择、数据构建、难度预计要领、练习计谋以和溶解试验五个方面开展了体系而周密的试验结构。

于模子选择方面,研究职员采用了 LLaVA v1.5 7B、LLaVA v1.5 13B 以和 LLaVA-OneVision 7B 等多种具备代表性的多模态年夜语言模子,笼罩差别参数范围及感知能力,以免要领仅对于特定模子布局有用。

于数据层面,团队并未依靠单一偏好数据集,而是综合利用了三类来历差别的数据:BPO 主动组织数据(经由过程弱化图象与注入过错天生负样本)、VLFeedback 主动偏好数据(由多模子天生回覆并经 GPT-4V 评分筛选)以和 LLaVA-RLHF 人工标注数据。跨数据源的试验设计旨于验证样本难度不服衡是偏好数据中的遍及征象,而非个体数据集的偶尔成果。

于此基础上,试验提出了一种无需分外练习的难度预计机制。研究职员同时引入两类预练习视觉语言模子:以 CLIP 为代表的对于比式模子,从图象与文真相关性的角度评估样本,以和以 LLaVA 为代表的天生式模子,从问题与回覆语义一致性的角度权衡样本。雷峰网
针对于每一一对于偏好数据,别离计较当选回覆与被拒回覆的患上分,并以分数差值作为难易水平的依据:差值较年夜暗示样本轻易区别,差值较小则注解样本更为坚苦。随后,研究团队经由过程高斯归一化与漫衍感知投票计谋对于两类模子的输出举行交融,使难度预计于不变性与鲁棒性方面获得统筹。

而于练习阶段,团队将难度评分引入 DPO 框架中的 β 参数,使该参数再也不固定,而是随样本难度自顺应变化,从而形成难度感知练习机制:坚苦样本被付与更高的优化权重,而简朴样本的过拟合趋向则遭到按捺。

为验证要领的真实有用性而非偶尔征象,研究职员开展了年夜范围溶解试验。例如,他们别离考查仅利用对于比式模子、仅利用天生式模子以和二者结合举行难度预计的效果,成果注解结合方式较着优在单一来历,同时还有构建了直接删除了简朴样本的过滤计谋举行比照,发明这一做法粉碎数据多样性并致使成果颠簸,而 DA-DPO 的软加权方式则可以或许连续带来不变晋升。

此外,研究团队还有经由过程难度分桶练习进一步注解,当练习数据集中以中等难度样本为主时,幻觉按捺效果最为显著,从而进一步撑持了如许一个要害不雅点:相较在纯真扩展数据范围,样本难度布局的合理性对于模子机能晋升具备更为要害的作用。

总体来看,这项研究具备主要的学术意义及现实运用价值。起首,从理论层面看,研究团队经由过程对于练习动态、奖励变化轨迹以和样本难度漫衍的体系阐发,展现了一个此前于多模态偏好优化范畴未被充实器重的问题:传统 DPO 虽然于情势上实现了偏好对于的优化,但于练习历程中存于较着的难度偏置,模子更偏向在进修简朴、差异较着的样本,而对于语义繁杂、区别细微、切近真实运用情境的坚苦样本进修不足。
恰是这类偏置,使患上即便于年夜量偏好数据练习以后,幻觉问题仍旧难以获得有用按捺。DA-DPO 的提出并不是纯真的工程技巧,而是将样本难度作为显式因素引入偏好优化方针之中,从底子上重构了偏勤学习问题的视角,夸大晋升模子对于齐能力的要害不于在一味扩展数据范围,而于在合理设计样本难度布局与权重分配。
这一理念对于后续研究具备较着开导意义,自顺应采样、坚苦样本挖掘以和于线难度建模等标的目的均可于此基础长进一步成长。
其次,从要领及工程实现角度看,DA-DPO 具备成本低、效率高、可落地性强的特色。该要领不依靠新增人工标注,也无需分外练习完备的奖励模子,更不需要引入繁杂的强化进修流程,而是使用现有预练习模子对于样本难度举行评估,并于原有 DPO 框架中插手简便有用的 β 动态调治机制,便可得到不变的机能晋升。这类低成本与高收益并存的特色,使其很是合适于工业级多模态体系中部署与推广。
末了,从运用层面来看,多模态模子的幻觉问题直接影响其于安全要害使命中的实用性与靠得住性。例如,医疗影像描写中若闭门造车病灶,主动驾驶体系若误判门路要素,或者法令辅助体系若臆测事实细节,均可能带来严峻后果。
DA-DPO 于不显著减弱模子能力的条件下有用降低幻觉发生频率,从而显著晋升模子于此类高危害范畴中的可托度与安全性。固然,研究团队也指出该要领的局限性:难度评估依靠在当前预练习模子的判定能力,当方针范畴与预练习语料存于较年夜差异时,难度评估可能不敷正确。是以,将来事情有须要摸索范畴自顺应的难度预计要领以和自监视式难度建模机制。
整体而言,这项研究不仅提供了一条切实可行的技能线路,更提出了一个对于多模态偏勤学习方式孕育发生主要影响的焦点不雅点,这也是其最为要害的学术意义地点。
于多模态世界里寻觅谜底的人本文的第一作者是 Longtian Qiu。他是上海科技年夜学信息科学与技能学院 PLUS Group 的硕士研究生,师从何旭明传授,今朝攻读人工智能标的目的的硕士学位。
本科阶段一样就读在上海科技年夜学计较机科学专业,Longtian Qiu 的重要研究兴致涵盖少样本/低样本进修、视觉—语言预练习以和提醒进修等范畴,而这些标的目的也是当前多模态进修与视觉语言理解研究中的主要议题。

参考链接:https://faculty.sist.shanghaitech.edu.cn/plus/author/longtian-qiu/
这篇文章的通信作者是何旭明。他是上海科技年夜学信息科学与技能学院的副传授、研究员及博士生导师,同时担当学院副院长及学位委员会主任。
他在 2008 年于加拿年夜多伦多年夜学得到计较机科学博士学位,随后于加州年夜学洛杉矶分校(UCLA)从事博士后研究。今后,他前后于Australia国度信息通讯技能研究院(NICTA)及Australia国立年夜学担当研究员和高级研究员,堆集了富厚的国际科研与互助经验。自 2016 年起插手上海科技年夜学,并在 2017 年起任副传授,持久于 PLUS Lab 领衔团队开展前沿研究事情。
何旭明传授的研究兴致重要集中于计较机视觉、呆板进修与科学智能等范畴,特别存眷开放世界场景理解、多模态数据的理解与天生、少样本与非平衡数据进修、终身进修以和新种别发明等具备挑战性的科学问题。于这些标的目的上,他已经发表一百余篇学术论文,涵盖 Nature Co妹妹unications、IEEE TPAMI、Nano Letters、NeurIPS、ICLR、CVPR、ICCV 等国际顶级期刊预会议,于学术界孕育发生了广泛影响。
其科研结果被广泛援用,并引导学生屡次得到主要学术奖励,包括 IEEE CVPR Workshop 最好论文奖、IEEE FG 最好学生论文奖和 ICCV OOD-CV 竞赛冠军等。除了此以外,何旭明传授还有曾经获上海市优异讲授结果一等奖,屡次担当 ICCV、ECCV、CVPR、NeurIPS 等国际顶级集会的范畴主席,并担当国际期刊 TMLR 副主编,现任上海市智能视觉与影像工程技能研究中央主任。

参考链接:https://faculty.sist.shanghaitech.edu.cn/faculty/hexm/index.html
雷峰网原创文章,未经授权禁止转载。详情见转载须知。





