米兰·(milan)中国官方网站-斯坦福李飞飞新作登 PNAS：AI 与人类互动才能提高智能水平

作者：米兰·(milan)文化更新时间：2026-03-18 13:19:31 点击数：

作者 | 李梅编纂 | 陈彩娴人类从与别人的互动中进修，而今朝的人工智能却经常只能于与社会断绝的情况中进修。以是当咱们把一个智能体放到真实世界中时，它会不成防止地于碰到年夜量新的数据，没法应答不停变化的新需求。怎样将智能体从只有一堆书的房间里“解放”出来，让它于广漠的社会情境中进修，是一个新的挑战。近来，斯坦福年夜学计较机系的 Ranjay Krishna、Donsuk Lee、李飞飞、Michael Bernstein 等人针对于此问题提出了一种新的研究框架：社会化人工智能（socially situated AI），即智能体经由过程于实际社会情况中与人的连续互动来进修。论文“Socially situated artificial intelligence enables learning from human interaction”已经发表于美国科学院院刊（PNAS）上。

斯坦福李飞飞新作登 PNAS：AI 与人类互动才能提高智能水平

论文地址：https://www.pnas.org/doi/epdf/10.1073/pnas.2115730119

于这项事情中，研究团队将社会化 AI 情势化为一个强化进修的历程，即智能体经由过程从社会互动中获取的奖励来进修辨认有信息量的问题。于一个视觉问答使命的测试中，与其他智能体比拟，社会化智能体辨认新视觉信息的机能提高了 112%。

1社会化 AI 的强化进修框架今朝，于迭代扩大模子能力时，自动进修是最经常使用的一个框架。它的方针是优化一系列标注哀求以获取新的数据，并将新数据将用在以尽可能少的哀求来提高模子的机能。自动进修已经经被情势化为强化进修的历程，此中，真实的人类脚色被移除了，只假定存于一个能为所有哀求提供标签的“预言机”。只管纯粹的自动进修要领也能够经由过程社会情况中的互动来网络新数据，但从用户角度看，他们其实不原意充任“预言机”的脚色来做反复提供标签的劳动，这就打破了自动进修的基本假定。以是，咱们必需摸索智能体真正与人交互的进修要领。要开发社会化的 AI，智能体不仅要网络数据来进修新观点，还有要进修怎样与人互动来网络数据。并且，智能体必需要于交互进修（interacting to learn）及进修交互（learning to interact）这两个方针之间举行衡量。这很是具备挑战性，由于智能体要遍历的可能交互空间是巨年夜的，只有一部门社会交互空间是有效的，而且信息交互空间还有会跟着智能体的进修进程而不停变化。于强化进修中，咱们将可能的交互情势化为步履空间，将反馈情势化为奖励，需要数亿次交互才能得到具备信息量及亲社会的交互的子空间，这让许多研究职员望而生畏。以是，今朝从与人类交互中进修的要领，凡是只局限在人工标注或者者小的事情空间（如只有几十个动作的游戏及仿真情况）。为此，研究团队将社会化的 AI 情势化为一个迭代强化进修问题。

斯坦福李飞飞新作登 PNAS：AI 与人类互动才能提高智能水平

图注：社会化 AI 的强化进修框架其框架描写以下：一个智能体被放置于社会情况 E=(S，A，P，P0) 傍边，它的方针是网络数据，以尽可能少的交互来优化模子的机能；S 是情况状况，如对于话智能体的对于话汗青，或者呆板人智能体于三维世界中当前位置；A 是智能体可以倡议的与人交互的可能空间，如对于话智能体可以扣问的一组语句，或者呆板人智能体可以履行的一组动作。；P：S × A → S 是过渡动力学（transition dynamics），如利用过渡函数（transition function）编码人们对于智能体汗青举动的反映以和情况的变化。；末了，P0 是初始状况漫衍的几率揣测。总结而言，如许一个迭代强化进修的历程包括三个主要的方面：改良底层模子、发明社会规范、更新交互计谋。它们贯串着智能体的整个生命周期。此中，智能体于人们可能会或者可能不会做出信息回应的社会情况中与人举行互动，从而改良底层模子。只有当人的回应包罗对于智能体有效的新信息时，回应才是有效的。是以，智能体必需与情况中数十万人的单次交互，从中选择可以或许激发对于模子有效的新观点的社会互动。为了均衡智能体的交互进修及进修交互两个方针，咱们可以引入常识奖励（knowledge reward）来指导智能体举行交互以得到有效的新观点；同时采用交互奖励（interaction reward）来指导智能体举行切合情况中社会规范的交互。于利用新观点改良模子的基础上，智能领会更新其计谋，最先进修怎样就人们有兴致回应的新观点提出问题，来改良自身机能还有比力差的部门。

2从问答互动中改良视觉模子为了验证社会化 AI 框架于计较机视觉中的实用性，作者于照片同享社交收集运用 Instagram 上部署了一个社会化智能体，它向人们提出天然语言问题，并从人的回应中提取谜底，网络视觉常识。这类利用天然语言来获取视觉常识的要领，可以用来测试许多计较机视觉辨认使命，如对于象检测（“图象中有甚么？”）、细粒度辨认（“花瓶里是甚么花？”）、属性分类（“这张桌子是用甚么质料做的？”）、常识库推理（“这份食品是素食吗？”）及知识推理（“这张照片是于冬天拍摄的吗？”）等等。于这项事情中，研究团队设计了一个计较机视觉问答模子，其输入是一张图象及响应的天然语言问题，输出是一个天然语言谜底。智能体提出的问题很是多样，以下图。

斯坦福李飞飞新作登 PNAS：AI 与人类互动才能提高智能水平

图注：社会化智能体于社交媒体上倡议的互动示例智能体的方针是从与人的交互中得到数据，提高模子辨认视觉观点的能力。为了到达这个方针，智能体需要一些“奖励”。如上文所述的框架，作者引入了常识奖励及互动奖励。常识奖励权衡模子的于辨认使命中简直定性。于刚最先，辨认模子不知道怎样辨认任何观点，但跟着看到的特定观点的增加，它会对于本身的判定越发必定。好比，假如人们帮忙智能体将图象中的动物辨认为鹿，那末它的不确定性就会削减。交互奖励则指导智能体的举动切合社区规范。如于社交收集中，人们更喜欢回覆较短的问题、提供事实常识以和逃避暗昧不清的问题。以是智能体的每一一次交互城市被标志为踊跃（孕育发生了新信息）或者消极（未得到新信息），从而被不停练习成亲社会的。末了，是怎样寻觅有效的语言交互问题。这是一个组合性的搜刮问题。一种直接的要领可以将智能体的计谋设计成一个从图象到发问的天生模子。跟着模子机能的晋升，信息交互的空间会不停变化，是以组合搜刮历程需要重复反复。为了使搜刮历程更容易在处置惩罚，作者利用现有的信息最年夜化变分主动编码器来进修实际中人与人交互的暗示：经由过程从头配置计谋将输入图象映照到暗示空间中，并经由过程设计解码器从暗示空间映照到单词序列。

3更少的交互，更高的辨认正确率于社会化 AI 的框架中，智能体同时有两个方针：一个倡议社交互动，让人们按照信息数据作出回应；另外一个是经由过程网络有效的数据来改良其基础模子。这两个方针同样成了智能体的评估指标。起首，为了评估该智能体得到回应的能力，咱们需要丈量对于它所发问题的信息回应率（Informative Response Rate），也就是它收到问题谜底（即得到有效的交互）的交互百分比。较高的信息回应率象征着对于智能体对于隐性社会规范有更好的理解，而较低的信息回应率则象征着人们不赐与回应，这会减慢甚至住手智能体的进修进程。其次，为了评估智能体辨认新的视觉观点的能力，研究职员利用由 Amazon Mechanical Turk 的解释器网络的 50104 个社交媒体图象、问题及谜底，组成测试集，来评估视觉辨认模子的正确率。此外，为了比照及比力利用社会化 AI 框架所触及的社会化智能体与其他智能体的区分，作者还有部署了一个仅利用交互奖励的人类偏好智能体，一个仅利用常识奖励的自动进修智能体，以和一个基线智能体。这个基线智能体不利用预练习的交互暗示作为动作空间，它答应微调整码器的参数，利用整个组合辞汇空间作为动作空间。并且，它同时利用交互奖励及常识奖励，并分外添加了语言建模奖励，以鼓动勉励它天生语法准确的语言。所有这些智能体都利用近端计谋梯度（proximal policy gradients）举行练习，并且都利用不异数目的数据举行初始化，并具备不异的计谋及解码器架构。试验举行了 8 个月，每一个智能体可以倡议至少 20 万次交互。当它们与人交互、并网络新的视觉常识时，信息回应率及辨认正确率的变化成果注解，社会化智能体总体上优在其他智能体。信息回应率更高以下图，于 236000 次互动中，社会化智能体的信息回应率从最初的 22% 提高到 33%，相对于提高了 50%。比拟之下，自动进修及基线智能体于每一次迭代后得到的回应较少，别离为 6% 及 12.3%。

斯坦福李飞飞新作登 PNAS：AI 与人类互动才能提高智能水平

图注：信息回应率与倡议的交互次数的瓜葛。社会化智能体（绿色）及人类偏好的智能体（紫色）都利用交互奖励，于交互次数提高的同时信息回应率也更高；其他智能体的信息回应率跟着交互次数的增长而降落，这是由于交互会拦阻它们的数据收罗。详细来看，基线智能体于极力摸索所有可能的语言交互组合空间时，不成防止地会孕育发生不联贯的问题，这致使了回应率的降落，并孕育发生一个恶性轮回，从而没法辨认有效的交互。回应率降落到 6% 之后，研究职员将其终止。自动进修智能体的毛病则于在它会提出更长、更难的问题，没法引起热人们的兴致。例如，要回覆“这些东西是为左撇子还有是右撇子设计的？”这个问题，还有得悉道有关特定东西的常识以和是否可以用任何一只手操作。人类偏好智能体的回应率最高，但它的发问又太简朴了。好比，它会问“这件衬衫是甚么颜色的？”可以看到，当前试验中智能体的最高回应率是 33%，那末这一数值还有有几多上升空间呢？研究职员又举行了一项试验，礼聘标注职员来人工编纂问题，以增长智能体得到回应的可能性。终极，智能体得到了 37% 的回应率，这代表了人类从既定社会情况中得到回应的平均能力。以是，智能体还有有 4% 的社交能力晋升空间。辨认正确率更高再来看这些智能体于利用网络的数据来改良视觉模子方面体现怎样。与其他智能体比拟，社会化智能体能利用更少的交互来提高辨认正确率。它于 236000 次交互中实现了 39.44% 的模子机能（下图 B），从中收到了 70000 条回应（下图 C）。

斯坦福李飞飞新作登 PNAS：AI 与人类互动才能提高智能水平

图注：视觉模子机能与智能体倡议的交互次数之间的瓜葛。社会化智能体及自动进修智能体（橙色）都利用常识奖励来网络有效数据，但自动进修智能体自己缺乏交互，要到达一样机能，它需要更多交互。

斯坦福李飞飞新作登 PNAS：AI 与人类互动才能提高智能水平

图注：视觉模子机能与来自人的回应数目的瓜葛。社会化智能体需要衡量常识与交互两种奖励，其正确率的提高与自动进修智能体相称，尔后者只能最年夜化常识奖励。

比拟之下，自动进修智能体共倡议了 274893 次交互，但仅收到 30000 条回应，而且机能最先饱及，到达 31.4%，回应率也降落到 12.3%。这再次注解，于某些社会情况中，纯粹的自动进修要领是不成行的。而人类偏好智能体每一次交互虽然城市收到更多回应，但它网络的数据并无改善视觉模子。由于它偏向在网络一小部门问题的谜底，是以它的底层视觉模子最先过拟合，末了只天生与时间相干或者与颜色相干的输出。基线智能体也袒露出它的问题，即不联贯，网络的数据也没有效。获取比传统数据集更多的新信息末了，研究团队对于利用社会化智能体网络的数据举行的练习与利用现有数据集中的数据举行的练习作了比力。成果注解，前者的辨认正确率远高在后者，这申明社会化智能体可以得到传统数据集中不存于的新信息。

斯坦福李飞飞新作登 PNAS：AI 与人类互动才能提高智能水平

图注：从社会互动中网络的数据与从传统数据集中的数据举行练习的正确率比力。利用来自现有数据集的不异数目的标签举行练习，仅将正确度从 11.24% 提高到 17.45%；而利用来自社会互动的数据举行练习时，正确度从 18.13% 提高到 39.44%。总结一下，这项研究的主要立异的地方于在它提出了一个智能体从与人的交互中进修的情势框架，并经由过程利用语言交互的视觉模子验证了该框架的实用性。作者信赖，这项事情将有助在更广泛的交互式智能体的研究。更多内容，点击下方存眷：扫码添加 AI 科技评论微旌旗灯号，投稿进群：

斯坦福李飞飞新作登 PNAS：AI 与人类互动才能提高智能水平

雷峰网(公家号：雷峰网)

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

-米兰·(milan)中国官方网站

加入收藏

Tag：米兰·(milan)

上一篇：中国人民抗日战争暨世界反法西斯战争胜利80周年专题（四）

下一篇：暂无

返回列表

米兰·(milan)中国官方网站-斯坦福李飞飞新作登 PNAS：AI 与人类互动才能提高智能水平

随便看看

产品推荐

哆啦A梦：伴我同行

八月未央

夏洛特烦恼

风再起时

云飞丝路天