米兰·(milan)中国官方网站-让 AI “读懂”人类价值观！朱松纯团队工作登上 Science 头条

作者：米兰·(milan)文化更新时间：2026-03-24 14:30:52 点击数：

导语：本论文提出了一个可注释的人工智能体系，论述了一种呆板及时理解人类价值不雅的计较框架。让 AI “读懂”人类价值观！朱松纯团队工作登上 Science 头条

今日（7月14日），国际顶级学术期刊 Science Robotics 发表了朱松纯团队（UCLA袁路遥、高晓丰、北京通用人工智能研究院郑子隆、北京年夜学人工智能研究院朱毅鑫等作者）的最新研究结果——及时双向人机价值对于齐 In-situ bidirectional human-robotvalue alignment。论文同时被Science官网及Science Robotics官网头条登载。

让 AI “读懂”人类价值观！朱松纯团队工作登上 Science 头条

论文地址：https://www.science.org/doi/10.1126/scirobotics.abm4183

本论文提出了一个可注释的人工智能（XAI）体系，论述了一种呆板及时理解人类价值不雅的计较框架，并展示了呆板人怎样与人类用户经由过程及时沟通完成一系列繁杂人机协作使命。朱松纯团队持久从事可注释人工智能相干事情。此文是团队第二篇发表于 Science Robotics 的关在可注释人工智能的论文。这项研究涵盖了认知推理、天然语言处置惩罚、呆板进修、呆板人学等多学科范畴，是朱松纯传授团队交织研究结果的集中表现。

于这小我私家机共存的时代，为了让呆板更好地办事在人类，抱负的人机协作应该是甚么样的？咱们没关系借鉴一下人类社会的协作，于人类团队互助历程中，配合的价值不雅及方针是包管团队之间同心合力、高效互助的基础。当前呆板智能年夜大都基在数据驱动（且许多环境下获取不了数据）、且是片面接管人类指令（一种是人类不雅测受限的环境下是无法给到指令的）

为相识决上述问题，以和为了让呆板可以或许举行更好地“自立”摸索，咱们要让呆板学会“读懂”人类价值不雅，是以咱们提出“及时双向价值对于齐”。这就要求人类要想措施一次次地给到AI反馈，逐渐地教会AI“读懂”人类的价值不雅，也就是让呆板及人类的“价值不雅”连结一致。

这个问题也被称为价值对于齐（value alignment），即怎样包管人工智能于履行使命历程中所实现的价值及用户地点意的价值是一致的？

可以说，价值对于齐是人机协作历程中告竣共鸣（co妹妹on ground）的基础，具备很是主要的研究价值。价值对于齐也是将来的一个主要成长标的目的，是让呆板实现“自立智能”的要害地点，也是实现通用人工智能的必经之路。鉴在此，北京通用人工智能研究院院长朱松纯团队一直于致力在此标的目的的研究。

1研究配景

抱负的人机协作应该是甚么样的？于人工智能成长方兴日盛之时，节制论之父诺伯特-维纳（Norbert Wiener）就提出了人机协作的基础：

“假如咱们利用一个呆板来实现咱们的方针，但又不克不及有用地干涉干与其运作方式...那末咱们最佳能笃定，输入给呆板的方针是咱们真正所预期的。”

近几年来，一系列研究进展都注解：高效的人机协作依靠在团队之间拥有一致的价值不雅、方针，以和对于使命近况的理解。这就要求人类经由过程与呆板的沟通来高效地成立整个团队对于使命的共鸣，每一个团队成员都采纳其他伙伴更易理解的举动决议计划来完成协作。于年夜大都环境下，队友之间的沟经由过程程都是双向的，即每一个成员都要饰演着谛听者及表达者两种脚色。如许的双向价值对于齐决议了人机协作中的沟通是否可以或许乐成，即呆板人是否能正确地揣度出用户的价值方针，并有用地注释本身的举动。假如这两个前提没有获得满意，队友间相互的不睬解及误判极可能会致使协作掉败。是以，想要令人工智能更好地办事在人类社会，必需让它们于与人类互动时饰演好这两种脚色。

从谛听者的角度来看，传统人工智能算法（如逆强化进修（IRL）等）可以或许将交互数据与呆板进修算法相联合，以进修特定使命顶用户的价值方针，即经由过程输入用户于特定使命中的举动方式，来恢复举动暗地里的奖励函数。然而，于浩繁现实且主要（如军事及医疗范畴）的运用中，数据的获取常常十分昂贵。这些呆板进修要领对于年夜型数据集的依靠是没法应答即时互动的人机协作场景的。

从表达者的角度来看，可注释人工智能（XAI）的引入是为了促成人机之间告竣共鸣。当前的XAI体系凡是夸大的是对于“模子怎样孕育发生决议计划历程”的注释。然而，无论用户有几多自动的输入或者互动，都只能影响呆板“天生注释”的历程，而不影响呆板“做出决议计划”的历程。这是一种单向的价值方针对于齐，咱们称之为静态呆板-动态用户的交流，即于这类协作历程中只有效户对于呆板或者使命的理解发生了变化。

2研究要领

为了完成人与呆板之间价值方针的双向对于齐，需要一种人类价值主导的、动态呆板-动态用户的交流模式。于如许一种新的模式中，呆板人除了了展现其决议计划历程外，还有将按照用户的价值方针即时调解举动，从而使呆板及人类用户可以或许互助实现一系列的配合方针。为了即时把握用户信息，咱们采用通信进修代替了传统数据驱动的呆板进修要领，呆板将按照所揣度出的用户的价值方针举行合理注释。这类互助导向的人机协作要求呆板具备心智理论（ToM），即理解别人的生理状况（包括情绪、信奉、用意、愿望、伪装与常识等）的能力。心智理论最早于生理学及认知科学中被研究，现已经泛化到人工智能范畴。心智理论于多智能体及人机交互情况中尤为主要，由于每一个智能体都要理解其他智能体（包括人）的状况及用意才能更好地履行使命，其决议计划举动又会影响其他智能体做出判定。设计拥有心智理论的体系不仅于在注释其决议计划历程，还有旨于理解人类的互助需求，以此形成一个以人类为中央、人机兼容的协作历程。

为了成立一个具备上述能力的AI体系，本文设计了一个人机协作摸索游戏。于这个游戏中，用户需要与三个侦探呆板人互助完成摸索使命并最年夜化团队收益。本游戏设定：一、只有侦探呆板人能直接与游戏世界互动，用户不克不及直接节制呆板人的举动；二、用户将于游戏初始阶段选择本身的价值方针（例如：最小化摸索时间，网络更多的资源，摸索更年夜的区域等），呆板人团队必需经由过程人机互动来揣度这个价值方针。如许的设置真实地模拟了实际世界中的人机互助使命，由于很多AI体系都需要于人类用户的监视下，自立地于伤害的情况中运行（如于核电站有核走漏的环境下）。

要乐成地完成游戏，呆板人需要同时把握“听”及“说”的能力来实现价值双向对于齐。起首，呆板人需要从人类的反馈中提取有效的信息，揣度出用户的价值函数（描写方针的函数）并响应地调解它们的计谋。其次，呆板人需要按照它们当前的价值揣度，有用地注释它们已经经做了甚么及规划做甚么，让用户知道呆板人是否及人类有不异的的价值函数。同时，用户的使命是批示侦查呆板人达到目的地，而且使团队的收益最年夜化。是以，用户对于呆板人的评价也是一个双向的历程，即用户必需即时揣度侦探呆板人的价值函数，查抄其是否与人类的价值函数相一致。假如纷歧致，则选择适量的指令来调解他们的方针。终极，假如体系运行优良，侦探呆板人的价值函数应该与人类用户的价值函数连结一致，而且用户应该高度信托呆板人体系自立运行。

图1. 人机价值对于齐历程总览。

图1先容了游戏中的双向价值调解历程。于游戏互动历程中，存于着三个价值方针，别离是：用户的真实价值；：呆板人对于用户价值的预计（于游戏中，侦探呆板人没有本身的价值，以是他们以人类用户价值的预计为依据采纳步履）；：用户对于呆板人价值的预计。基在这三个价值方针孕育发生了两种价值对于齐—— ：呆板人从用户给出的反馈中进修用户的价值；: 用户从呆板人给出的注释及互动中相识呆板人的价值。终极，三种价值方针将会聚在，人-机团队将形成彼此信托及高效的协作。

本文提出的XAI体系旨于配合解决如下两个问题：

于即时互动及反馈历程中，呆板怎样正确预计人类用户的用意？

呆板怎样注释本身，以便人类用户可以或许理解呆板的举动，并提供有效的反馈来帮忙呆板做出价值调解？

于本文提出的体系中，呆板人提出使命规划的建议，并要求人类用户给出反馈（接管或者拒绝建议），从人类反馈中揣度出使命方针暗地里人类真正的价值用意。于协作游戏中，假如用户知道呆板人正于踊跃进修他的价值方针，那末用户就会偏向在提供越发有效的反馈，以促成价值连结对于齐。尤其地，每一条信息都转达了两方面的意义，包括（1）基在价值方针的语义信息及（2）基在差别注释方式之间区分的语用信息。使用这两方面的寄义，XAI体系以一种多轮的、即时的方式展示了价值的一致性，于一个问题搜刮空间年夜的团队互助使命中实现了高效的人机互动交流。为了使呆板人的价值方针与用户连结一致，XAI体系天生注释、展现呆板人对于人类价值确当前预计、并证实提出计划的合理性。于每一一步的互动中，为了不注释内容过在冗长，呆板人会提供定制化的注释，好比省略反复的已经知信息并夸大主要的更新。于收到呆板人的注释并向它们发送反馈后，用户向呆板人提供提醒，申明他们对于最新建议及注释的满足水平。使用这些反馈，呆板人会不停地更新注释的情势及内容。

为了评估本文XAI体系的机能，咱们约请了人类用户举行了一系列试验，以此考查人类-呆板双向价值协调是否乐成。咱们采用了三种类型的注释，并将用户随机分配到三组中的一组。试验成果注解，咱们所提出的XAI体系可以或许以有用地实现即时双向的价值对于齐，并用在协作使命；呆板人可以或许揣度出人类用户的价值，并调解其价值预计被用户所理解。此外，有须要举行多样化的注释，以提高呆板的决议计划机能及它们的社会智能。互助式的人工智能的方针是削减人类的认知承担，并协助完成使命，咱们信赖，自动即时揣度人类的价值方针，并促成人类对于体系的理解，将会为通用智能体的人机互助摊平门路。

3游戏设置

如图2所示，于咱们设计的互助游戏中，包罗一小我私家类批示官及三个侦探呆板人。游戏的方针是需要于一张未知的舆图上找到一条从基地（位在舆图的右下角）到目的地（位在舆图的左上角）的安全路径。该舆图被暗示为一个部门可见的20×20网格图，每一个格子均可能有一个差别的装配，只有于侦探呆板人接近它以后才可见。

于游戏中，人类批示官及侦探呆板人具备布局性的彼此依靠瓜葛，一方面人类批示官需要依赖侦探呆板人摸索伤害区域并解除爆炸物，另外一方面，侦探呆板人需要依靠人类批示官提供的反馈更好地舆解当前使命的方针。

让 AI “读懂”人类价值观！朱松纯团队工作登上 Science 头条

图 2：侦探摸索游戏的用户界面。从左到右，图例面板显示游戏舆图中的图例。价值函数面板显示这局游戏的价值函数，侦探呆板人不知道这个函数，用户也不克不及修改。中央舆图显示当前舆图上的信息。分数面板显示了用户确当前分数。总分的计较要领是将各个方针的分数用价值函数加权后的总及。状况面板显示体系确当前状况。提议面板显示侦探呆板人当前的使命规划提议，用户可以接管/拒绝每一个建议。注释面板显示侦探呆板人提供的注释。

咱们为侦探呆板人制订了于寻觅到路径时分外的一系列方针，包括1）尽快达到目的地，2）查询拜访舆图上的可疑装配，3）摸索更年夜的区域，以和4）网络资源。游戏的体现是由侦探呆板人完成这些方针的环境及它们的相对于主要性（权重）来权衡的，此中的权重就是人类用户的价值函数。例如，假如人类批示官更看重时效而不是获取更多的资源，那末侦探呆板人则应该纰漏沿途上的部门资源以包管尽快达到目的地。（注，这个价值函数只于游戏最先时向人类用户吐露，而不合错误侦探呆板人吐露。图 3总结了人机互动的流程。）

于不清晰人类批示公价值取向的环境下，呆板人侦探兵小队必需快速揣度出人类的价值判定，于每一一步步履中，呆板人侦探小队每个成员都要给出下一步步履方案，由人类批示官选择。为了帮忙批示官举行决议计划，侦探呆板人小队将注释步履方案的依据。联合批示官的反馈，以往的互动汗青及当前的舆图环境，侦探呆板人小队将调解其对于批示官当前价值不雅的判定，并采纳响应的步履。

图3：侦查摸索游戏的设计。时间线（A）暗示于一轮游戏中发生的事务，从呆板人收到情况旌旗灯号最先，到它们的下一步动作竣事。时间线（B）及（C）别离描写了呆板人及用户的心智变化历程。

4即时双向价值对于齐模子

为了预计人类批示官于通讯历程中的价值函数，咱们将两个条理的心智理论整合到咱们的计较模子中。第1层心智理论思量互助性假定。也就是说，给定一个互助的人类批示官，被他接管的来自呆板人的提议，更有可能与准确的价值函数相一致。第2层心智理论进一步将用户的教诲要领纳入模子，使呆板人更靠近人类批示官真实价值的反馈比其他反馈更易被人类批示官选择。建模人类批示官的教诲偏向（pedagogical inclination）需要更高一层的心智理论。联合这两个条理的心智理论，咱们将人类批示官的决议计划函数写成一个由价值函数参数化的漫衍，并开发出一种新的进修算法。

值患上留意的是，与咱们的人机互助框架有可比性但差别的要领是逆强化进修。逆强化进修的目的是于一个被动的进修情况中，按照预先录制的、来自专家的演示（demonstration）来恢复底层的奖励函数（reward function）。与之差别的是，于咱们的情况中，侦探呆板人被设计为从人类批示官给出的稀缺监视中举行交互进修。更主要的是，咱们的设计要求呆板人于使命举行的历程中即时地、自动地揣度人类批示官的价值。此外，为了完成互助，侦探呆板人不仅必需迅速理解人类批示官的用意，还有要阐明本身的决议计划依据，以确保于整个游戏历程中与人类批示官顺遂沟通。整体来看，呆板人的使命是经由过程揣度人类用户的心智模子，踊跃提出建议，并评估人类用户的反馈来举行价值调解。这些都需要呆板对于人类用户举行繁杂的心智建模，并具备即时更新模子的能力。

让 AI “读懂”人类价值观！朱松纯团队工作登上 Science 头条

5总结

本文提出的XAI体系乐成地证实了双向人机价值对于齐框架的可行性。从谛听者的角度来看，所有三个注释组中的呆板人均可以于游戏进度到达25%时，经由过程对于至少60%的方针主要性举行准确排序，快速与用户的价值举行对于齐。从表达者的角度来看，经由过程提供适量的注释，呆板人可以向用户申明其用意，并帮忙人类更好的感知呆板人的价值，当给呆板提供”完备注释“时，只需于游戏进度到达50%时便可实现人类用户价值与呆板人价值的同一，而当只提供”扼要注释“时，游戏进度需要到达75%时才能完成价值的同一。

咱们从上述两个角度获得了使人信服的证据，实现了双向价值对于齐的历程，详细来讲：

经由过程吸收人类的反馈，呆板人逐渐更新其价值函数来与人类的价值连结一致；

经由过程不停地与呆板人交互，人类用户逐渐形成对于体系能力及用意的感知。虽然呆板人体系的价值于游戏的上半场没有与人类用户实现同一，但用户对于呆板人价值评估能力的感知仍旧可以提高。

终极，当呆板人的价值变患上不变时，用户对于呆板人的评估也变患上不变。从呆板人对于用户价值的评估到用户价值的真实值，以和从用户对于呆板人价值的评估到呆板人当前价值的收敛配对于，形成为了由用户真实价值锚定的双向价值对于齐。

总的来讲，咱们提出了一个双向人机价值对于齐框架，并利用XAI体系验证其可行性。咱们提出的XAI体系注解，当把心智理论集成到呆板的进修模块中，并向用户提供适量的注释时，人类及呆板人可以或许经由过程即时交互的方式实现心智模子的对于齐。咱们提出的计较框架经由过程促成人及呆板之间同享心智模子的形成，为解决本文的焦点问题抱负的人机协作应该是甚么样的？提供了全新的解答。

于这个游戏使命中，咱们的事情偏重在以价值及用意为焦点对于心智举行建模，对于齐这些价值可以极年夜地帮忙人类及呆板为面向使命的协作成立配合基础，使其可以胜任越发繁杂的场景何使命。是以，咱们的事情是于人机协作中朝着更通用的心智模子对于齐迈出的第一步。于将来的事情中，咱们规划摸索哪些因素可以或许进一步加强人类用户信托（例如，答应对于呆板人举行反事实查询），验证对于齐对于使命机能的影响，并将咱们的体系运用在触及更繁杂情况及价值函数的使命。

6将来畅想：打造“AI明白”

于科幻影戏《超能陆战队》中，有一个“明白”智能陪伴呆板人，“明白”可以陪影戏男主角一路进修、顽耍、做游戏，具备很高的及时互动性。而当影戏男主角情绪掉落时，“明白”还有能“读懂”他的感情价值需求，自动慰藉，给一个年夜年夜的拥抱。

让 AI “读懂”人类价值观！朱松纯团队工作登上 Science 头条

“明白”实在是一个很智能的通用智能体。朱松纯团队地点的北京通用人工智能研究院，结合北京年夜学人工智能研究院等单元，致力追寻人工智能的同一理论与认知架构，实现具备自立的感知、认知、决议计划、进修、履行及社会协作能力，切合人类感情、伦理与品德不雅念的通用智能体。本研究从传统AI的“数据驱动”改变为“价值驱动”，让XAI体系理解了人类价值不雅，朝着通用人工智能迈出了一年夜步。

雷峰网(公家号：雷峰网) 让 AI “读懂”人类价值观！朱松纯团队工作登上 Science 头条

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

-米兰·(milan)中国官方网站

加入收藏

Tag：米兰·(milan)

上一篇：中国人民抗日战争暨世界反法西斯战争胜利80周年专题（四）

下一篇：暂无

返回列表

米兰·(milan)中国官方网站-让 AI “读懂”人类价值观！朱松纯团队工作登上 Science 头条

随便看看

产品推荐

哆啦A梦：伴我同行

八月未央

夏洛特烦恼

风再起时

云飞丝路天