米兰·(milan)中国官方网站-剑桥高级机器学习讲师Ferenc Huszár评马腾宇新作：它改变了我对上下文学习的思考方式

作者：米兰·(milan)文化更新时间：2026-04-08 04:29:12 点击数：

剑桥高级机器学习讲师Ferenc Huszár评马腾宇新作：它改变了我对上下文学习的思考方式

不久前，剑桥高级呆板进修讲师 Ferenc Huszár 于小我私家博客上力荐斯坦福马腾宇与 Percy Liang 团队的事情《将上下文进修视作隐式贝叶斯推理的阐释》（被 ICLR 2022 吸收），称其转变了他“对于上下文进修以和将语言模子练习成小样本进修东西的思索方式”。对于一项事情的深切思索与出色点评，一样是科学前进的源泉。偕行探讨，堪比西岳论剑。为此，AI科技评论将马腾宇团队的新作举行简朴先容，并收拾了 Ferenc Huszár 的评论条记，但愿对于该范畴的研究者有所开导。

作者 | 丛末

编纂 | 陈彩娴

1从隐式贝叶斯推理看上下文进修

按照 Ferenc Huszár 的先容，他是于 ICLR 审稿时期浏览到马腾宇等人的这篇事情，感觉该论文所取患上的结果十分令人着迷，并举行了深切思索。

ICLR 2022 于去年11月宣布初审成果，马腾宇团队有3篇事情入选，《将上下文进修视作隐式贝叶斯推理的阐释》（An Explanation of In-Context Learning as Implicit Bayesian Inference）即是此中之一。

剑桥高级机器学习讲师Ferenc Huszár评马腾宇新作：它改变了我对上下文学习的思考方式

作者：Sang Michael Xie, Aditi Raghunathan, Percy Liang，马腾宇

论文地址：https://arxiv.org/pdf/2111.02080.pdf

马腾宇与Percy Liang别离为斯坦福年夜学计较机系的助理传授与副传授，是人工智能范畴的闻名新秀，都曾经得到斯隆研究奖，其研究事情遭到偕行存眷。

图注：马腾宇

如AI科技评论此前对于马腾宇的专访先容，马腾宇重要从事人工智能基础理论的研究事情，课题笼罩非凸优化、深度进修和理论等等。这篇被 ICLR 2022 吸收的事情也是从理论出发，研究上下文进修/语境进修（In-Context Learning）与隐式贝叶斯推理之间的瓜葛。

当前，GPT-3等年夜范围预练习语言模子举行上下文进修的体现惊人：模子只需基在由输入—输出示例构成的提醒举行练习，进修完成下流使命。于没有明确颠末这类预练习的环境下，语言模子会于正向流传历程中进修这些示例，而不会基在“漫衍外”提醒更新参数。

但研究者尚不清晰是甚么机制让上下文进修患上以实现。

于这篇论文中，马腾宇等人研究了于预练习文本具备长途联贯性的数学设置下，预练习漫衍对于上下文进修的实现所起到的作用。于该研究中，对于语言模子举行预练习需要从前提文本中揣度出潜于的文档级别观点，以天生有联贯性的下一个标志。于测试时，该机制经由过程揣度提醒示例之间同享的潜于观点，并运用该观点对于测试示例举行猜测，从而实现上下文进修。

他们证实了：当预练习漫衍是混淆隐马尔可夫模子时，上下文进修是经由过程对于潜于观点举行贝叶斯推理隐式地孕育发生的。即便提醒及预练习数据之间的漫衍不匹配，这类环境依旧建立。

与天然语言顶用在上下文进修的杂乱的年夜范围预练习数据集差别，他们天生了一系列小范围合成数据集（GINC），于这个历程中，Transformer 及 LSTM 语言模子都利用了上下文进修。除了了聚焦预练习漫衍效果的理论以外，他们还有实证发明，当预练习丧失不异时，缩放模子的巨细可以或许提高上下文（猜测）的正确性。

2Ferenc Huszár 的评价

Ferenc Huszár 是剑桥年夜学计较机系的高级呆板进修讲师，对于贝叶斯呆板进修有深切的研究。2016年与2017年，他于基在深度进修的图象超分辩率与压缩技能上取患上两年夜冲破（以下），google学术援用了跨越1万4。

Photo-realistic single image super-resolution using a generative adversarial network（google学术援用7.5k+）

Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network（3.5k+）

图注：Ferenc Huszár

Ferenc Huszár 对于马腾宇等人的事情赐与了高度评价。AI科技评论对于 Ferenc 的点评做了不改原意的收拾：

我喜欢这篇论文，由于它与可互换性（exchangeability）相干，这是我最喜欢的观点及设法之一。它让我想起了我于2015年（其时还有处在深度进修的成长初期）的设法——使用可互换序列模子实现年夜范围通用进修机。于那篇旧博文中，我对于可互换模子做了以下思索：

假如咱们有一个可互换的轮回神经收集（RNN），咱们就能够于统一输入空间的多个无监视进修问题上对于它举行练习。这个体系实在就学会了进修。假如想于一个新的数据集上利用该体系，只需将它输入到轮回神经收集中，它就可以输出贝叶斯猜测几率，无需任何分外的计较。以是，它就是一个最终通用推理机。现实上，最终通用推理机（很光荣我给它注册了牌号）跟 OpenAI 的 GPT-3 有时给人出现的样子及利用的方式并无太年夜区分。实践显示，利用者可以于多种多样的使命中将它们从头调解为小样本（或者于某些环境下为零样本）进修东西。语言模子的这类经由过程输入精心设计的提醒来解决差别使命的能力，有时辰被称为“提醒黑客”（prompt-hacking）或者“上下文进修”。

诚实说，于我读到马腾宇等人发表的这篇论文以前，我从来没有把年夜型可互换序列模子视作通用进修东西的念头及利用GPT-3举行上下文进修的最新趋向接洽起来。事实上，我对于后者深表思疑，认为它素质上就是一定存于底子缺陷的另外一种黑客举动。可是这篇论文将这些点都接洽起来了，这也是它为何云云吸引我的缘故原由，由于我永远没法想到“提醒黑客举动”及上下文进修居然彻底同样。

1）将可互换序列作为隐式进修机

于切磋这篇论文前，让咱们先来复习下关在可互换序列及隐式进修的已经有观点。

可互换序列模子是一个序列几率漫衍剑桥高级机器学习讲师Ferenc Huszár评马腾宇新作：它改变了我对上下文学习的思考方式，于序列中，对于在肆意一个置换 π，该漫衍都是对于标志的置换稳定量。

de Finetti 定理将这些序列模子与贝叶斯推理接洽于一路，假定肆意漫衍均可以分化成混淆自力同漫衍（I.I.D.）序列模子：

剑桥高级机器学习讲师Ferenc Huszár评马腾宇新作：它改变了我对上下文学习的思考方式

是以，前一步的猜测漫衍（用来猜测序列的下一个标志）总能分化成贝叶斯积分：

剑桥高级机器学习讲师Ferenc Huszár评马腾宇新作：它改变了我对上下文学习的思考方式

此中，剑桥高级机器学习讲师Ferenc Huszár评马腾宇新作：它改变了我对上下文学习的思考方式是由先验计较获得的贝叶斯后验，计较的贝叶斯公式为：

剑桥高级机器学习讲师Ferenc Huszár评马腾宇新作：它改变了我对上下文学习的思考方式

于这类环境下，假如咱们有一个可互换序列模子，就能够将这些前一步的猜测漫衍视作隐式履行的贝叶斯推理。要害是，即便咱们其实不知道θ个 π 是甚么，以和可能性剑桥高级机器学习讲师Ferenc Huszár评马腾宇新作：它改变了我对上下文学习的思考方式是甚么，也能实现这一操作。咱们没必要明确指出公式的这些构成部门是甚么，de Finetti 定理都可以或许确保这些构成部门都存于，而只需要让猜测剑桥高级机器学习讲师Ferenc Huszár评马腾宇新作：它改变了我对上下文学习的思考方式与可互换序列模子连结一致。

这一设法差遣我经由过程构建这一模子，来测验考试设计老是可以或许孕育发生可变换漫衍的轮回神经收集（其时Transformer 还有没有呈现）。终极证实这类设法很难实现，不外这一设法末了衍生出了 BRUNO（名字取自Bruno de Finetti）这一事情。

剑桥高级机器学习讲师Ferenc Huszár评马腾宇新作：它改变了我对上下文学习的思考方式

论文地址：https://arxiv.org/pdf/1802.07535.pdf

BRUNO 是一个用在可互换数据的矫捷的元练习模子，拥有小样本观点进修能力。这个设法厥后于 Ira Korshunova 的博士论文中获得多种方式的拓展。

2）从可互换序列到混淆隐马尔可夫模子（HMM）

但GPT-3是一个语言模子，很较着语言标志是不成互换的，以是二者接洽是甚么？

陪同着de Finetti 型定理呈现了一些惹人存眷的泛化结果，可互换性的观点也呈现了一些有趣的扩大。Diaconis、Freedman（1980）等人界说，偏导可互换性（Partial exchangeability），指的是能确保序列可被别离为混淆马尔可夫链的序列漫衍的稳定属性。是以，可以说，利用偏导可互换历程对于马尔可夫链举行贝叶斯推理，与利用可互换历程对于自力同漫衍（I.I.D.）数据天生历程举行推理的方式很是相似。

马腾宇等人于这篇论文中，假定利用的序列模子是混淆隐马尔可夫模子。这比 Diaconis 及Freedman 提出的偏导可互换混淆马尔可夫链更具泛化性。

我不知道是否混淆隐马尔可夫模子能用可互换性此类的稳定性来表征，但这不打紧。现实上这篇论文底子没有说起可互换性，其关在隐式贝叶斯推理的焦点论点是：每一当利用由简朴漫衍构成的序列模子时，可以将前一步的猜测阐释为“对于一些参数隐式地举行贝叶斯推理”。虽然互联网上人类语言的漫衍不太可能遵照多不雅察隐马尔可夫模子（Multi Observation Hidden Markov Model，MoHMM）漫衍，但假定GPT-3输出的序列多是混淆隐马尔可夫模子的某些部门，这类说法就是合理的。而且假如真是如许，猜测下一个标志就会对于一些参数（作者所指的“观点”）隐式地举行贝叶斯推理。

3）上下文进修及隐式贝叶斯推理

这篇论文的焦点思惟是，或许上下文推理可以或许使用这类与语言统计模子紧密亲密相干的隐式贝叶斯推理来解决问题。语言模子可以或许进修隐式地对于任何观点举行几率推理，由于要想于猜测下一个标志的使命上体现患上好，就必需举行这类推理。假如模子具有这类隐式进修能力，那它就可以把持这类能力去履行其他一样需要这类推理的使命，包括小样天职类等等。

我认为这是一个很是成心思的泛化设法。但令我稍感遗憾的是，作者聚焦的要害问题是特定性及报酬性：虽然多不雅察隐马尔可夫模子可以用来“补全”从某个特定的隐马尔可夫模子（混淆构成部门的此中一个）中提取的序列，但若让多不雅察隐马尔可夫模子补全它们底子没法直接天生的序列，例如一小我私家为构建的嵌入了小样天职类使命的序列，会发生甚么？这就酿成了一个漫衍不匹配的问题。

论文要害的发明于在，即便这类漫衍不匹配，多不雅察隐马尔可夫模子中的隐式推理机制也可以辨认准确的观点，而且能于小样本使命中利用这类漫衍来做出准确的猜测。

这一阐发为嵌入序列中的上下文进修使命与多不雅察隐马尔可夫模子漫衍的相干性，做出了强有力的假定（详细细节请浏览原论文）。从某种水平上来讲，作者研究的上下文使命，与其说是一个分类使命，不如说是一个小样本序列补全使命。

总而言之，这是一篇值患上思索的、成心思的论文，它显著地转变了我对于整个上下文进修以和将语言模子练习成小样本进修东西的研究标的目的的思索方式。

各人怎么看？

参考链接：

1.https://www.inference.vc/implicit-bayesian-inference-in-sequence-models/

2.https://www.inference.vc/exchangeable-processes-via-neural-networks/

雷峰网(公家号：雷峰网)

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

-米兰·(milan)中国官方网站

加入收藏

Tag：米兰·(milan)

上一篇：中国人民抗日战争暨世界反法西斯战争胜利80周年专题（四）

下一篇：暂无

返回列表

米兰·(milan)中国官方网站-剑桥高级机器学习讲师Ferenc Huszár评马腾宇新作：它改变了我对上下文学习的思考方式

随便看看

产品推荐

哆啦A梦：伴我同行

八月未央

夏洛特烦恼

风再起时

云飞丝路天