米兰·(milan)中国官方网站-理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远
作者:米兰·(milan)文化
更新时间:2026-03-22 14:10:18
点击数:

编译|黄楠
编纂|陈彩娴上世纪九十年月,斯坦福年夜学的知名生物信息学传授 Rob Tibshirani 曾经拟了一个辞汇表,将呆板进修与统计学中的差别观点作了简朴而粗鲁的对于应瓜葛:
一方面,这个表格为理解呆板进修提供了基础的熟悉,但同时,其简朴地将深度进修或者呆板进修中的观点归纳为统计学中的词义,也引起了年夜大都人对于深度进修素质的认知误差:即深度进修是“简朴的统计”。然而,于深切切磋中,如许的认知于必然水平上拦阻了研究者理解深度进修乐成的素质缘故原由。于本年六月的一篇文章“The uneasy relationship between deep learning and (classical) statistics”中,哈佛年夜学知名传授、理论计较机科学家 Boaz Barak 就将深度进修与统计学举行了对于比区别,指出深度进修的底子组成因素就与统计学有诸多差别。Boaz Barak 提出一个主要的不雅察:从模子的用途来看,假如是偏重猜测与不雅察,那末具有黑匣子特征的深度进修模子多是最佳的选择;但若是但愿获取对于事物的因果瓜葛理解、提高可注释性,那末“简朴”的模子可能体现更佳。这与马毅、曹颖、沈向洋三位科学家于上个月提出的组成智能两年夜道理之一的“简约性”看法不约而合。与此同时,Boaz Barak 经由过程展示拟合统计模子及进修数学这两个差别的场景案例,切磋其与深度进修的匹配性;他认为,虽然深度进修的数学及代码与拟合统计模子险些不异,但于更深条理上,深度进修中的极年夜部门均可于“向学生教授技术”场景中被捕捉。统计进修于深度进修中饰演着主要的脚色,这是无庸置疑的。但可以必定的是,统计角度没法为理解深度进修提供完备的画面,要理解深度进修的差别方面,仍需要人们从差别的角度出发来实现。下面是 Boaz Barak 的阐述:1模子拟合中的猜测与注释几千年来,科学家们一直于为不雅测成果拟合模子。好比于科学哲学书皮中所提到的,埃和天文学家托勒密提出了一个巧妙的行星运动模子。托勒密的模子是地心的(即行星缭绕地球扭转),但有一系列“旋钮”(knobs,详细来讲就是“本轮”),使其具备精彩的猜测正确性。比拟之下,哥白尼最初的日心说模子则是假定行星缭绕太阳的圆形轨道。它比托勒密的模子更简朴(“可调治旋钮”更少)、且总体上更准确,但于猜测不雅察方面却不太正确。(哥白尼于厥后也添加了他本身的本轮,从而与托勒密的体现可以相媲美。)托勒密及哥白尼的模子是无与伦比的。当你需要一个“黑匣子”来举行猜测时,那托勒密的地心模子更胜一筹。而假如你想要一个可以“窥视内部”的简朴模子,并作为注释星星运动的理论出发点,那哥白尼的模子就更好。事实上,开普勒终极将哥白尼的模子改良为椭圆轨道,并提出了他的行星运动三定律,这使患上牛顿可以或许利用地球上合用的不异引力定律来注释它们。为此,至关主要的是,日心模子其实不仅是一个提供猜测的“黑匣子”,而是由险些没有“勾当部件”的简朴数学方程给出的。多年来,天文学一直是成长统计技能的灵感来历。高斯及勒让德(自力地)于 1800 年摆布发现了最小二乘回归,用在猜测小行星及其他天体的轨道;柯西于1847年发现的梯度降落,也是遭到了天文猜测的鞭策。于物理学中,(至少有时)你可以“拥有一切”——找到可以或许实现最好猜测正确性及数据最好注释的“准确”理论,这被诸如奥卡姆剃刀道理之类的不雅点所捕获,假定简朴性、猜测能力及注释性洞察力都是彼此一致的。然而于很多其他范畴,注释(或者一般环境下称,洞察力)及猜测的两重方针之间存于张力。假如只是想猜测不雅察成果,“黑匣子”多是最佳的选择。但若你提取因果模子、一般道理或者主要特性,那末一个轻易理解及注释的简朴模子可能会更好。模子的准确选择取决在其用途。例如,思量一个包罗很多个别的基因表达及表型(好比某种疾病)的数据集,假如其方针是猜测小我私家生病的概率,往往会但愿为该使命利用最好模子,无论它有多繁杂或者它依靠在几多基因。比拟之下,假如你的方针是于湿试验室中辨认一些基因来进一步研究,那末繁杂的黑匣子的用途将是有限的,纵然它很是正确。2001年, Leo Breiman 于关在统计建模两种文化的闻名文章“Statistical Modeling: The Two Cultures”中,就有力地论述了这一点。“数据建模文化”偏重在注释数据的简朴天生模子,而“算法建模文化 ”对于数据是怎样孕育发生的其实不相识,而是专注在寻觅可以或许猜测数据的模子。Breiman 认为,统计数据太受第一文化的支配,而这类存眷“致使了不相干的理论及有问题的科学结论” 及“制止统计学家研究使人高兴的新问题。”可是,Breiman 的论文布满争议。虽然 Brad Efron 对于部门不雅点暗示附和,但“看第一遍,Leo Breiman 那篇使人振奋的论文看起来像是否决简约及科学洞察力,撑持许多旋钮可把持的黑盒子。而看第二遍,还有是阿谁样子” 。但于近期一篇文章(“Prediction, Estimation, and Attribution”)中,Efron 年夜方认可“事实证实,Breiman 比我更有先见之明:纯粹的猜测算法于 21 世纪盘踞了统计的风头,其成长标的目的与 Leo 此条件到的差未几。”2经典及现代猜测模子不管呆板进修是否“深度”,它都属在 Breiman 所说的第二种文化,即专注在猜测,这类文化已经传播很长一段时间。例如 Duda 及 Hart 1973 年的教科书《Deconstructing Distributions: A Pointwise Framework of Learning》、以和Highleyman 1962 年《The Design and Analysis of Pattern Recognition Experiments》的论文片断,对于在今天的深度进修从业者来讲,其辨识度很是高:
一样地,Highleyman 的手写字符数据集及被用来与数据集拟合的架构 Chow(正确率约为 58%)也引起了现代读者的共识。
3为何深度进修差别?1992 年,Stuart Geman、Elie Bienenstock 及 Rene Doursat 配合写了一篇题为“Neural Networks and the Bias/Varian Dile妹妹a”的论文,此中谈到一些灰心的见解,例如,“当前的前馈神经收集,于很年夜水平上不足以解决呆板感知及呆板进修中的难题”;详细来讲,他们认为通用神经收集没法乐成解决坚苦的使命,神经收集乐成的独一路子是经由过程手工设计特性。用他们的话来讲,便是:“主要的特性必需是内置的或者‘硬连线的’(hard-wired)……而不是经由过程统计的要领来进修。”过后看来,他们的不雅点彻底错了。并且,现代神经收集的架构如 Transformer 甚至比其时的卷积收集更通用。但理解他们犯错的暗地里缘故原由是颇有趣的。我认为,他们犯错的缘故原由是深度进修确凿与其他进修要领差别。一个先验的征象是:深度进修好像只是多了一个猜测模子,像近来的邻人或者随机丛林。它可能有更多的“旋钮”(knobs),但这好像是数目上而不是质量上的差异。用 PW Andreson 的话来讲,就是“more is different”(多的就是差别的)。于物理学中,一旦范围发生了几个数目级的变化,咱们往往只需要一个彻底差别的理论就能够注释,深度进修也是云云。事实上,深度进修与经典模子(参数或者非参数)的运行历程是彻底差别的,纵然从更高的角度看,方程(及 Python 代码)看起来不异。为相识释这一点,咱们来看两个很是差别例子的进修历程: 拟合统计模子,与讲授生进修数学。场景A:拟合统计模子凡是来讲,将统计模子与数据举行拟合的步调以下:一、咱们不雅察一些数据 x 与y。可将 x 视为一个 n x p 的矩阵,y 视为一个 n 维向量;数据来历在一个布局及噪声模子:每一个坐标
的获得情势是
,此中
是对于应的噪声,为简朴起见利用了加性噪声,而
是准确的真实标签。)二、经由过程运行某种优化算法,咱们可以将模子
拟合到数据中,使
的经验危害最小。也就是说,咱们利用优化算法来找到
的最小化数目
,此中
是一个丧失项(捕获
间隔 y 有多近),
是一个可选的规范化项 (试图使患上
倾向更简朴的模子)。三、咱们但愿,咱们的模子能具备优良的整体丧失,由于泛化偏差/丧失
很小(这类猜测是基在试验数据地点的整体数据来得到的)。
图注:Bradley Efron颠末对于噪音的不雅察所复现的牛顿第必然律漫画
这类很是通用的范式包罗了很多设置,包括最小二乘线性回归、近来邻、神经收集练习等等。于经典的统计设置中,咱们指望不雅察到如下环境:误差/方差衡量:将 F 作为优化的模子集。(当咱们处在非凸设置及/或者有一个正则器项,咱们可让 F作为这类模子的调集,思量到算法选择及正则器的影响,这些模子可以由算法以不成纰漏的几率实现。)F 的误差是对于准确标签的最好类似,可以经由过程元素
来实现。F 的类越年夜,误差越小,当
,误差甚至可所以零。然而,当 F 类越年夜, 则需要越多样原来缩小其成员规模,从而算法输出模子中的方差就越年夜。整体泛化偏差是误差项及方差孝敬的总及。是以,统计进修凡是会显示误差/方差衡量,并经由过程准确模子繁杂性的“金发密斯选择”来最小化总体偏差。事实上,Geman 等人也是这么做的,经由过程说“误差-方差困境致使的基本限定合用在包括神经收集于内的所有非参数推理模子”来证实他们对于神经收集的灰心情绪是合理的。更多并不是老是最佳的。于统计进修中,得到更多的特性或者数据其实不必然能提高机能。例如,从包罗很多不相干特性的数据中进修更具挑战性。近似地,从混淆模子中进修,此中数据来自两个漫衍之一(例如
及
),比自力进修单个更难。收益递减。于很多环境下,将猜测噪声降低到某个参数
,其所需的数据点数目于某些参数 k 下以
的情势拓展。于这类环境下,需要约莫 k 个样原来“腾飞”,而一旦如许做,则碰面临收益递减的轨制,即假定花耗 n 个点来到达(好比)90%的正确度,那末想要将正确度提高到95%,则约莫需要别的 3n 个点。一般来讲,跟着资源增长(不管是数据、模子的繁杂性,还有是计较),咱们但愿捕获到更多更细的区分,而不是解锁新的质量上的能力。对于丧失、数据的强烈依靠。于将模子拟合到高维数据时,一个很小的细节就有可能造成成果的很年夜差别。统计学家知道,诸如 L1 或者 L2 正则化器之类的选择很主要,更不消说利用彻底差别的数据集,差别数目的高维优化器将具备极年夜的差异性。数据点没有天然的“难度”(至少于某些环境下)。传统上认为,数据点是自力在某个漫衍举行采样的。只管接近决议计划界限的点可能更难分类,但思量到高维度的丈量集中征象,可估计年夜大都点的间隔将存于相似的环境。是以,至少于经典数据漫衍中,其实不指望点于其难度程度上有很年夜差异。然而,混淆模子可以显示这类差异的差别难度级别,以是与上述其他问题差别,这类差异于统计设置中不会很是使人惊奇。场景B:进修数学与上述相反,咱们来谈谈讲授生一些特定的数学标题问题(如计较导数),赐与他们通例引导和要做的训练。这不是一个正式界说的设置,但可思量它的一些定性特性:
图注:从IXL 网站进修特定命学技术的训练
进修一项技术,而不是类似漫衍。于这类环境下,学生是进修一种技术,而非某个数目的预计器/猜测器。虽然界说“技术”不是一项眇乎小哉的使命,但倒是一个性子差别的方针。尤其是,纵然函数映照训练不克不及用作解决某些相干使命 X 的“黑匣子”,但咱们信赖,学生于解决这些问题时所形成的内部表征,仍是对于 X 有效的。越多越好。一般来讲,学生训练更多问题及差别类型问题,会取患上更好的成就。但事实上,“混淆模子”——做一些微积分问题及代数问题——不会影响学生于微积分上的体现,反而会帮忙他们进修。“摸索”或者解锁功效,转向主动暗示。虽然于某些时辰解决问题也会呈现收益递减,但学生好像确凿履历了几个阶段,有的阶段做一些问题有助在观点“点击”并解锁新功效。别的,当学生们反复某一特定类型的问题时,他们好像将本身的能力及对于这些问题的表述转移至较低的程度,使他们可以或许对于这些问题孕育发生某些之前所没有的主动性。机能部门自力在丧失及数据。传授数学观点的要领不止一种,纵然学生利用差别册本、教诲要领或者评分体系进修,但终极仍可进修到不异的质料及相似的内部暗示。一些问题更难。于数学训练中,咱们常常可以看到差别学生于解决统一个问题时所采纳的要领存于很强的相干性。一个问题的难度好像是固定的,解决难题的挨次也是固定的,这就使进修的历程可以或许优化。这事实上也是IXL等平台正于做的工作。4深度进修更像统计预计还有是学生进修技巧?那末,上述两个比方中,哪一个更得当地描写了现代深度进修,尤其是它云云乐成的缘故原由呢?统计模子拟合好像更切合数学及代码。现实上,规范的 Pytorch 练习轮回,就是经由过程如上所述的经验危害最小化来练习深度收集的:
然而,于更深条理上,这两种设置之间的瓜葛其实不那末清晰。详细而言,可以经由过程修复一个特定的进修使命来睁开,利用“自监视进修 + 线性探头(linear probe)”的要领练习分类算法,其算法练习以下:一、假定数据是一个序列
,此中
是某个数据点(例如详细的图象)、
是一个标签。二、起首找到一个深度神经收集来暗示函数
,这个函数的练习只利用数据点
而不利用标签,经由过程最小化某种类型的自监视丧失函数。这类丧失函数的例子是重修或者画中画(从另外一个输入 x 的某些部门恢复)或者对于比进修(找到
使
显著更小,当
是统一个数据点的增量时,并列瓜葛比两个随机点的并列瓜葛要小患上多)。三、然后咱们利用完备的标志数据
来拟合线性分类器
(此中 C 是类的数目),使交织熵丧失最小。终极的分类器患上出了
的映照。第 3 步仅合适线性分类器,是以“邪术”发生于第 2 步(深度收集的自监视进修)。于自监视进修中,可以看到的一些属性包括:进修一项技术,而不是迫近一个函数。自监视进修不是迫近一个函数,而是进修可用在各类下流使命的暗示。假定这是天然语言处置惩罚中的主导范式,那末下流使命是经由过程线性探测、微调还有是提醒得到,都是次要的。越多越好。于自监视进修中,表征的质量跟着数据量的增长而提高。并且,数据越多样越好。
图注:google PaLM 模子的数据集
解锁能力。跟着资源(数据、计较、模子巨细)的拓展,深度进修模子的不持续改良一次又一次地被看到,这于一些合成情况中也获得了证实。



图注:Meta 的练习日记节选下面切磋两种环境:环境1:监视进修到今朝为止,咱们只会商了自监视进修,但深度进修的典型例子仍旧是监视进修,究竟深度进修的 “ImageNet时刻”是来自ImageNet。那末,咱们上面所切磋的内容是否合用在监视进修呢?起首,有监视的年夜范围深度进修的呈现,于某种水平上是一个汗青性的不测,这患上益在年夜型高质量标志数据集(即 ImageNet)的可用性。可以想象另外一种汗青:深度进修起首经由过程无监视进修于天然语言处置惩罚方面取患上冲破性进展,然后才转移到视觉及监视进修中。其次,有一些证据注解,纵然监视进修与自监视进修利用彻底差别的丧失函数,它们于“幕后”的举动也相似。二者凡是都能到达不异的机能。于“Revisiting Model Stitching to Compare Neural Representations”这篇论文中也发明,它们进修了相似的内部暗示。详细来讲,对于在每个
,均可以将经由过程自监视练习的深度 d 模子的首 k 层数与监视模子的末了 d-k 层数“缝合”起来,而且使机能险些连结原有程度。
图注:来自 Hinton 团队论文“Big Self-Supervised Models are Strong Semi-Supervised Learners”的表格。请留意监视进修、微调 (100%) 自监视及自监视 + 线性探测于机能上的遍及相似性

https://windowsontheory.org/2022/06/20/the-uneasy-relationship-between-deep-learning-and-classical-statistics/
更多内容,点击下方存眷:扫码添加 AI 科技评论 微旌旗灯号,投稿 进群:
雷峰网(公家号:雷峰网)雷峰网版权文章,未经授权禁止转载。详情见转载须知。





