米兰·(milan)中国官方网站-斯坦福李飞飞新作登 PNAS:AI 与人类互动才能提高智能水平
作者:米兰·(milan)文化
更新时间:2026-03-18 13:19:31
点击数:
作者 | 李梅编纂 | 陈彩娴人类从与别人的互动中进修,而今朝的人工智能却经常只能于与社会断绝的情况中进修。以是当咱们把一个智能体放到真实世界中时,它会不成防止地于碰到年夜量新的数据,没法应答不停变化的新需求。怎样将智能体从只有一堆书的房间里“解放”出来,让它于广漠的社会情境中进修,是一个新的挑战。近来,斯坦福年夜学计较机系的 Ranjay Krishna、Donsuk Lee、李飞飞、Michael Bernstein 等人针对于此问题提出了一种新的研究框架:社会化人工智能(socially situated AI),即智能体经由过程于实际社会情况中与人的连续互动来进修。论文“Socially situated artificial intelligence enables learning from human interaction”已经发表于美国科学院院刊(PNAS)上。

论文地址:https://www.pnas.org/doi/epdf/10.1073/pnas.2115730119
于这项事情中,研究团队将社会化 AI 情势化为一个强化进修的历程,即智能体经由过程从社会互动中获取的奖励来进修辨认有信息量的问题。于一个视觉问答使命的测试中,与其他智能体比拟,社会化智能体辨认新视觉信息的机能提高了 112%。1社会化 AI 的强化进修框架今朝,于迭代扩大模子能力时,自动进修是最经常使用的一个框架。它的方针是优化一系列标注哀求以获取新的数据,并将新数据将用在以尽可能少的哀求来提高模子的机能。自动进修已经经被情势化为强化进修的历程,此中,真实的人类脚色被移除了,只假定存于一个能为所有哀求提供标签的“预言机”。只管纯粹的自动进修要领也能够经由过程社会情况中的互动来网络新数据,但从用户角度看,他们其实不原意充任“预言机”的脚色来做反复提供标签的劳动,这就打破了自动进修的基本假定。以是,咱们必需摸索智能体真正与人交互的进修要领。要开发社会化的 AI,智能体不仅要网络数据来进修新观点,还有要进修怎样与人互动来网络数据。并且,智能体必需要于交互进修(interacting to learn)及进修交互(learning to interact)这两个方针之间举行衡量。这很是具备挑战性,由于智能体要遍历的可能交互空间是巨年夜的,只有一部门社会交互空间是有效的,而且信息交互空间还有会跟着智能体的进修进程而不停变化。于强化进修中,咱们将可能的交互情势化为步履空间,将反馈情势化为奖励,需要数亿次交互才能得到具备信息量及亲社会的交互的子空间,这让许多研究职员望而生畏。以是,今朝从与人类交互中进修的要领,凡是只局限在人工标注或者者小的事情空间(如只有几十个动作的游戏及仿真情况)。为此,研究团队将社会化的 AI 情势化为一个迭代强化进修问题。




图注:视觉模子机能与来自人的回应数目的瓜葛。社会化智能体需要衡量常识与交互两种奖励,其正确率的提高与自动进修智能体相称,尔后者只能最年夜化常识奖励。
比拟之下,自动进修智能体共倡议了 274893 次交互,但仅收到 30000 条回应,而且机能最先饱及,到达 31.4%,回应率也降落到 12.3%。这再次注解,于某些社会情况中,纯粹的自动进修要领是不成行的。而人类偏好智能体每一次交互虽然城市收到更多回应,但它网络的数据并无改善视觉模子。由于它偏向在网络一小部门问题的谜底,是以它的底层视觉模子最先过拟合,末了只天生与时间相干或者与颜色相干的输出。基线智能体也袒露出它的问题,即不联贯,网络的数据也没有效。获取比传统数据集更多的新信息末了,研究团队对于利用社会化智能体网络的数据举行的练习与利用现有数据集中的数据举行的练习作了比力。成果注解,前者的辨认正确率远高在后者,这申明社会化智能体可以得到传统数据集中不存于的新信息。

雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





