米兰·(milan)中国官方网站-理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

作者：米兰·(milan)文化更新时间：2026-03-22 14:10:18 点击数：

理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

作者｜Boaz Barak

编译｜黄楠

编纂｜陈彩娴上世纪九十年月，斯坦福年夜学的知名生物信息学传授 Rob Tibshirani 曾经拟了一个辞汇表，将呆板进修与统计学中的差别观点作了简朴而粗鲁的对于应瓜葛：理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

一方面，这个表格为理解呆板进修提供了基础的熟悉，但同时，其简朴地将深度进修或者呆板进修中的观点归纳为统计学中的词义，也引起了年夜大都人对于深度进修素质的认知误差：即深度进修是“简朴的统计”。然而，于深切切磋中，如许的认知于必然水平上拦阻了研究者理解深度进修乐成的素质缘故原由。于本年六月的一篇文章“The uneasy relationship between deep learning and (classical) statistics”中，哈佛年夜学知名传授、理论计较机科学家 Boaz Barak 就将深度进修与统计学举行了对于比区别，指出深度进修的底子组成因素就与统计学有诸多差别。Boaz Barak 提出一个主要的不雅察：从模子的用途来看，假如是偏重猜测与不雅察，那末具有黑匣子特征的深度进修模子多是最佳的选择；但若是但愿获取对于事物的因果瓜葛理解、提高可注释性，那末“简朴”的模子可能体现更佳。这与马毅、曹颖、沈向洋三位科学家于上个月提出的组成智能两年夜道理之一的“简约性”看法不约而合。与此同时，Boaz Barak 经由过程展示拟合统计模子及进修数学这两个差别的场景案例，切磋其与深度进修的匹配性；他认为，虽然深度进修的数学及代码与拟合统计模子险些不异，但于更深条理上，深度进修中的极年夜部门均可于“向学生教授技术”场景中被捕捉。统计进修于深度进修中饰演着主要的脚色，这是无庸置疑的。但可以必定的是，统计角度没法为理解深度进修提供完备的画面，要理解深度进修的差别方面，仍需要人们从差别的角度出发来实现。下面是 Boaz Barak 的阐述：

1模子拟合中的猜测与注释几千年来，科学家们一直于为不雅测成果拟合模子。好比于科学哲学书皮中所提到的，埃和天文学家托勒密提出了一个巧妙的行星运动模子。托勒密的模子是地心的（即行星缭绕地球扭转），但有一系列“旋钮”（knobs，详细来讲就是“本轮”），使其具备精彩的猜测正确性。比拟之下，哥白尼最初的日心说模子则是假定行星缭绕太阳的圆形轨道。它比托勒密的模子更简朴（“可调治旋钮”更少）、且总体上更准确，但于猜测不雅察方面却不太正确。（哥白尼于厥后也添加了他本身的本轮，从而与托勒密的体现可以相媲美。）托勒密及哥白尼的模子是无与伦比的。当你需要一个“黑匣子”来举行猜测时，那托勒密的地心模子更胜一筹。而假如你想要一个可以“窥视内部”的简朴模子，并作为注释星星运动的理论出发点，那哥白尼的模子就更好。事实上，开普勒终极将哥白尼的模子改良为椭圆轨道，并提出了他的行星运动三定律，这使患上牛顿可以或许利用地球上合用的不异引力定律来注释它们。为此，至关主要的是，日心模子其实不仅是一个提供猜测的“黑匣子”，而是由险些没有“勾当部件”的简朴数学方程给出的。多年来，天文学一直是成长统计技能的灵感来历。高斯及勒让德（自力地）于 1800 年摆布发现了最小二乘回归，用在猜测小行星及其他天体的轨道；柯西于1847年发现的梯度降落，也是遭到了天文猜测的鞭策。于物理学中，（至少有时）你可以“拥有一切”——找到可以或许实现最好猜测正确性及数据最好注释的“准确”理论，这被诸如奥卡姆剃刀道理之类的不雅点所捕获，假定简朴性、猜测能力及注释性洞察力都是彼此一致的。然而于很多其他范畴，注释（或者一般环境下称，洞察力）及猜测的两重方针之间存于张力。假如只是想猜测不雅察成果，“黑匣子”多是最佳的选择。但若你提取因果模子、一般道理或者主要特性，那末一个轻易理解及注释的简朴模子可能会更好。模子的准确选择取决在其用途。例如，思量一个包罗很多个别的基因表达及表型（好比某种疾病）的数据集，假如其方针是猜测小我私家生病的概率，往往会但愿为该使命利用最好模子，无论它有多繁杂或者它依靠在几多基因。比拟之下，假如你的方针是于湿试验室中辨认一些基因来进一步研究，那末繁杂的黑匣子的用途将是有限的，纵然它很是正确。2001年， Leo Breiman 于关在统计建模两种文化的闻名文章“Statistical Modeling: The Two Cultures”中，就有力地论述了这一点。“数据建模文化”偏重在注释数据的简朴天生模子，而“算法建模文化 ”对于数据是怎样孕育发生的其实不相识，而是专注在寻觅可以或许猜测数据的模子。Breiman 认为，统计数据太受第一文化的支配，而这类存眷“致使了不相干的理论及有问题的科学结论” 及“制止统计学家研究使人高兴的新问题。”可是，Breiman 的论文布满争议。虽然 Brad Efron 对于部门不雅点暗示附和，但“看第一遍，Leo Breiman 那篇使人振奋的论文看起来像是否决简约及科学洞察力，撑持许多旋钮可把持的黑盒子。而看第二遍，还有是阿谁样子” 。但于近期一篇文章（“Prediction, Estimation, and Attribution”）中，Efron 年夜方认可“事实证实，Breiman 比我更有先见之明：纯粹的猜测算法于 21 世纪盘踞了统计的风头，其成长标的目的与 Leo 此条件到的差未几。”

2经典及现代猜测模子不管呆板进修是否“深度”，它都属在 Breiman 所说的第二种文化，即专注在猜测，这类文化已经传播很长一段时间。例如 Duda 及 Hart 1973 年的教科书《Deconstructing Distributions: A Pointwise Framework of Learning》、以和Highleyman 1962 年《The Design and Analysis of Pattern Recognition Experiments》的论文片断，对于在今天的深度进修从业者来讲，其辨识度很是高：理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

一样地，Highleyman 的手写字符数据集及被用来与数据集拟合的架构 Chow（正确率约为 58%）也引起了现代读者的共识。理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

3为何深度进修差别？1992 年，Stuart Geman、Elie Bienenstock 及 Rene Doursat 配合写了一篇题为“Neural Networks and the Bias/Varian Dile妹妹a”的论文，此中谈到一些灰心的见解，例如，“当前的前馈神经收集，于很年夜水平上不足以解决呆板感知及呆板进修中的难题”；详细来讲，他们认为通用神经收集没法乐成解决坚苦的使命，神经收集乐成的独一路子是经由过程手工设计特性。用他们的话来讲，便是：“主要的特性必需是内置的或者‘硬连线的’(hard-wired）……而不是经由过程统计的要领来进修。”过后看来，他们的不雅点彻底错了。并且，现代神经收集的架构如 Transformer 甚至比其时的卷积收集更通用。但理解他们犯错的暗地里缘故原由是颇有趣的。我认为，他们犯错的缘故原由是深度进修确凿与其他进修要领差别。一个先验的征象是：深度进修好像只是多了一个猜测模子，像近来的邻人或者随机丛林。它可能有更多的“旋钮”（knobs），但这好像是数目上而不是质量上的差异。用 PW Andreson 的话来讲，就是“more is different”（多的就是差别的）。于物理学中，一旦范围发生了几个数目级的变化，咱们往往只需要一个彻底差别的理论就能够注释，深度进修也是云云。事实上，深度进修与经典模子（参数或者非参数）的运行历程是彻底差别的，纵然从更高的角度看，方程（及 Python 代码）看起来不异。为相识释这一点，咱们来看两个很是差别例子的进修历程：拟合统计模子，与讲授生进修数学。场景A：拟合统计模子凡是来讲，将统计模子与数据举行拟合的步调以下：一、咱们不雅察一些数据 x 与y。可将 x 视为一个 n x p 的矩阵，y 视为一个 n 维向量；数据来历在一个布局及噪声模子：每一个坐标理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

的获得情势是

，此中

是对于应的噪声，为简朴起见利用了加性噪声，而理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

是准确的真实标签。）二、经由过程运行某种优化算法，咱们可以将模子理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

拟合到数据中，使

的经验危害最小。也就是说，咱们利用优化算法来找到理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

的最小化数目

，此中

是一个丧失项（捕获

间隔 y 有多近)，理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

是一个可选的规范化项（试图使患上理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

倾向更简朴的模子）。三、咱们但愿，咱们的模子能具备优良的整体丧失，由于泛化偏差/丧失理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

很小（这类猜测是基在试验数据地点的整体数据来得到的）。

理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

图注：Bradley Efron颠末对于噪音的不雅察所复现的牛顿第必然律漫画

这类很是通用的范式包罗了很多设置，包括最小二乘线性回归、近来邻、神经收集练习等等。于经典的统计设置中，咱们指望不雅察到如下环境：误差/方差衡量：将 F 作为优化的模子集。(当咱们处在非凸设置及/或者有一个正则器项，咱们可让 F作为这类模子的调集，思量到算法选择及正则器的影响，这些模子可以由算法以不成纰漏的几率实现。)F 的误差是对于准确标签的最好类似，可以经由过程元素理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

来实现。F 的类越年夜，误差越小，当理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

，误差甚至可所以零。然而，当 F 类越年夜，则需要越多样原来缩小其成员规模，从而算法输出模子中的方差就越年夜。整体泛化偏差是误差项及方差孝敬的总及。是以，统计进修凡是会显示误差/方差衡量，并经由过程准确模子繁杂性的“金发密斯选择”来最小化总体偏差。事实上，Geman 等人也是这么做的，经由过程说“误差-方差困境致使的基本限定合用在包括神经收集于内的所有非参数推理模子”来证实他们对于神经收集的灰心情绪是合理的。更多并不是老是最佳的。于统计进修中，得到更多的特性或者数据其实不必然能提高机能。例如，从包罗很多不相干特性的数据中进修更具挑战性。近似地，从混淆模子中进修，此中数据来自两个漫衍之一（例如理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

及

），比自力进修单个更难。收益递减。于很多环境下，将猜测噪声降低到某个参数理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

，其所需的数据点数目于某些参数 k 下以理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

的情势拓展。于这类环境下，需要约莫 k 个样原来“腾飞”，而一旦如许做，则碰面临收益递减的轨制，即假定花耗 n 个点来到达（好比）90%的正确度，那末想要将正确度提高到95%，则约莫需要别的 3n 个点。一般来讲，跟着资源增长（不管是数据、模子的繁杂性，还有是计较），咱们但愿捕获到更多更细的区分，而不是解锁新的质量上的能力。对于丧失、数据的强烈依靠。于将模子拟合到高维数据时，一个很小的细节就有可能造成成果的很年夜差别。统计学家知道，诸如 L1 或者 L2 正则化器之类的选择很主要，更不消说利用彻底差别的数据集，差别数目的高维优化器将具备极年夜的差异性。数据点没有天然的“难度”（至少于某些环境下）。传统上认为，数据点是自力在某个漫衍举行采样的。只管接近决议计划界限的点可能更难分类，但思量到高维度的丈量集中征象，可估计年夜大都点的间隔将存于相似的环境。是以，至少于经典数据漫衍中，其实不指望点于其难度程度上有很年夜差异。然而，混淆模子可以显示这类差异的差别难度级别，以是与上述其他问题差别，这类差异于统计设置中不会很是使人惊奇。场景B：进修数学与上述相反，咱们来谈谈讲授生一些特定的数学标题问题（如计较导数），赐与他们通例引导和要做的训练。这不是一个正式界说的设置，但可思量它的一些定性特性：

理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

图注：从IXL 网站进修特定命学技术的训练

进修一项技术，而不是类似漫衍。于这类环境下，学生是进修一种技术，而非某个数目的预计器/猜测器。虽然界说“技术”不是一项眇乎小哉的使命，但倒是一个性子差别的方针。尤其是，纵然函数映照训练不克不及用作解决某些相干使命 X 的“黑匣子”，但咱们信赖，学生于解决这些问题时所形成的内部表征，仍是对于 X 有效的。越多越好。一般来讲，学生训练更多问题及差别类型问题，会取患上更好的成就。但事实上，“混淆模子”——做一些微积分问题及代数问题——不会影响学生于微积分上的体现，反而会帮忙他们进修。“摸索”或者解锁功效，转向主动暗示。虽然于某些时辰解决问题也会呈现收益递减，但学生好像确凿履历了几个阶段，有的阶段做一些问题有助在观点“点击”并解锁新功效。别的，当学生们反复某一特定类型的问题时，他们好像将本身的能力及对于这些问题的表述转移至较低的程度，使他们可以或许对于这些问题孕育发生某些之前所没有的主动性。机能部门自力在丧失及数据。传授数学观点的要领不止一种，纵然学生利用差别册本、教诲要领或者评分体系进修，但终极仍可进修到不异的质料及相似的内部暗示。一些问题更难。于数学训练中，咱们常常可以看到差别学生于解决统一个问题时所采纳的要领存于很强的相干性。一个问题的难度好像是固定的，解决难题的挨次也是固定的，这就使进修的历程可以或许优化。这事实上也是IXL等平台正于做的工作。

4深度进修更像统计预计还有是学生进修技巧？那末，上述两个比方中，哪一个更得当地描写了现代深度进修，尤其是它云云乐成的缘故原由呢？统计模子拟合好像更切合数学及代码。现实上，规范的 Pytorch 练习轮回，就是经由过程如上所述的经验危害最小化来练习深度收集的：理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

然而，于更深条理上，这两种设置之间的瓜葛其实不那末清晰。详细而言，可以经由过程修复一个特定的进修使命来睁开，利用“自监视进修 + 线性探头（linear probe）”的要领练习分类算法，其算法练习以下：一、假定数据是一个序列理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

，此中

是某个数据点（例如详细的图象）、理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

是一个标签。二、起首找到一个深度神经收集来暗示函数理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

，这个函数的练习只利用数据点理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

而不利用标签，经由过程最小化某种类型的自监视丧失函数。这类丧失函数的例子是重修或者画中画（从另外一个输入 x 的某些部门恢复）或者对于比进修（找到理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

使

显著更小，当

是统一个数据点的增量时，并列瓜葛比两个随机点的并列瓜葛要小患上多）。三、然后咱们利用完备的标志数据理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

来拟合线性分类器

（此中 C 是类的数目），使交织熵丧失最小。终极的分类器患上出了理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

的映照。第 3 步仅合适线性分类器，是以“邪术”发生于第 2 步（深度收集的自监视进修）。于自监视进修中，可以看到的一些属性包括：进修一项技术，而不是迫近一个函数。自监视进修不是迫近一个函数，而是进修可用在各类下流使命的暗示。假定这是天然语言处置惩罚中的主导范式，那末下流使命是经由过程线性探测、微调还有是提醒得到，都是次要的。越多越好。于自监视进修中，表征的质量跟着数据量的增长而提高。并且，数据越多样越好。

理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

图注：google PaLM 模子的数据集

解锁能力。跟着资源（数据、计较、模子巨细）的拓展，深度进修模子的不持续改良一次又一次地被看到，这于一些合成情况中也获得了证实。

理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

图注：跟着模子巨细的增长，PaLM 模子于一些基准测试中显示出一些不持续的改良（上述图中只有三个巨细的正告），并解锁了一些使人惊奇的功效，好比注释笑话。机能于很年夜水平上与丧失或者数据无关。不止一种自监视丧失，有几种对于比性及重修性丧失被用在图象。语言模子有时采用单面重修（猜测下一个标志），有时则是利用遮蔽模子，其方针是猜测来自摆布标志的遮蔽输入。也能够利用轻微差别的数据集，这可能会影响效率，但只要做出“合理”的选择，通例环境下，原始资源比利用的特定丧失或者数据集更能猜测机能。有些实例比其他实例更难。这一点不只限在自监视进修，数据点或者存于一些固有的“难度级别”。事实上，有几个现实证据注解，差别的进修算法有差别的“技术程度”，差别的点有差别的“难度程度”（分类器 f 对于 x 举行准确分类的几率，跟着 f 的技术单向递增，随 x 的难度单向递减）。“技术与难度”范式是对于 Recht 及 Miller 等人所发明的“线上正确性”征象最清楚的注释，于我同 Kaplun、Ghosh、Garg 及 Nakkiran 的合著论文中，还有展示了数据集中的差别输入怎样具备固有的“难度特性”，通例环境下，该特性好像对于差别的模子来讲是稳健的。

理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

图注：Miller 等人的图表显示了于 CIFAR-10 上练习并于 CINIC-10 上测试的分类器的线征象正确性

理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

图注：将数据集解构为来自 Kaplun 及 Ghosh 等人于论文“Deconstructing Distributions: A Pointwise Framework of Learning”中的差别“难度概况”点，以得到愈来愈多的资源分类器。顶部图表描写了最可能类的差别 softmax 几率，作为由练习时间索引的某个种别分类器的全局精度的函数；底部饼图展示了将差别数据集分化为差别类型的点。值患上留意的是，这类分化对于在差别的神经架构是相似的。练习即讲授。现代对于年夜模子的练习好像更像是于讲授生，而不是让模子顺应数据，于学生不睬解或者看起来疲惫（练习偏离）时采纳“歇息”或者测验考试其他方式。Meta 年夜模子的练习日记颇有开导性——除了了硬件问题外，还有可以看到一些干涉干与办法，例如于练习历程中切换差别的优化算法，甚至思量“热互换”激活函数（GELU 到 RELU）。假如将模子练习视为拟合数据而不是进修暗示，则后者没有多年夜意义。理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

图注：Meta 的练习日记节选下面切磋两种环境：环境1：监视进修到今朝为止，咱们只会商了自监视进修，但深度进修的典型例子仍旧是监视进修，究竟深度进修的 “ImageNet时刻”是来自ImageNet。那末，咱们上面所切磋的内容是否合用在监视进修呢？起首，有监视的年夜范围深度进修的呈现，于某种水平上是一个汗青性的不测，这患上益在年夜型高质量标志数据集（即 ImageNet）的可用性。可以想象另外一种汗青：深度进修起首经由过程无监视进修于天然语言处置惩罚方面取患上冲破性进展，然后才转移到视觉及监视进修中。其次，有一些证据注解，纵然监视进修与自监视进修利用彻底差别的丧失函数，它们于“幕后”的举动也相似。二者凡是都能到达不异的机能。于“Revisiting Model Stitching to Compare Neural Representations”这篇论文中也发明，它们进修了相似的内部暗示。详细来讲，对于在每个理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

，均可以将经由过程自监视练习的深度 d 模子的首 k 层数与监视模子的末了 d-k 层数“缝合”起来，而且使机能险些连结原有程度。理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

图注：来自 Hinton 团队论文“Big Self-Supervised Models are Strong Semi-Supervised Learners”的表格。请留意监视进修、微调 (100%) 自监视及自监视 + 线性探测于机能上的遍及相似性

理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

图注：摘自论文“Revisiting Model Stitching to Compare Neural Representations”的自监视与监视模子。左图——假如自监视模子的正确度比监视模子低3%，那末，彻底兼容的暗示将造成 p·3% 的拼接处罚（p层来自自监视模子时）。假如模子彻底不兼容，那末跟着更多模子的缝合，估计正确度会急剧降落。右图——拼接差别自监视模子的现实成果。自监视 + 简朴模子的上风于在，它们可以将特性进修或者“深度进修邪术”（深度暗示函数的成果）与统计模子拟合（由线性或者其他“简朴”分类器完成，分散出来于此暗示之上）。末了，虽然是推测，但“元进修”好像凡是等同在进修暗示这一事实（详情看论文“Rapid Learning or Feature Reuse? Towards Understanding the Effectiveness of MAML”），可以视为另外一个撑持本文不雅点的证据，无论模子外貌上优化的方针是甚么。环境2：过分参数化读者可能已经经留意到，我跳过了统计进修模子与深度进修模子于现实运用中存于差异的典型例子，即缺乏“误差-方差衡量”以和过分参数化模子精彩的泛化能力。我不具体讲这些例子的缘故原由有两个：一是假如监视进修确凿等在自监视 + 简朴的“底层”进修，那末就能够注释它的泛化能力（详情请看论文“For self-supervised learning, Rationality implies generalization, provably”）；二是我认为过分参数化其实不是深度进修乐成的要害。深度收集之以是尤其，其实不是由于它们与样本数目比拟很年夜，而是由于它们的绝对于值很年夜。现实上，无监视/自监视进修模子中凡是没有过分参数化。纵然是年夜范围的语言模子，它们也只是数据集更年夜，但这也并无削减它们机能的神秘性。

理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远

图注：于“The Deep Bootstrap Framework: Good Online Learners are Good Offline Generalizers”这篇论文中，研究者的发明注解，如今的深度进修架构于“过分参数化”与“欠采样”状况下体现相似（此中，模子于有限数据上练习多代，直到过分拟合：也就是上图所示的“真实世界”），于“参数化不足”与“于线”环境下也云云（此中，模子只练习一代，每一个样本只看到一次：也就是上图中的“抱负世界”）

5总结毫无疑难，统计进修于深度进修中饰演着主要的脚色。可是，假如仅仅将深度进修视为一个比经典模子拟合更多旋钮（knobs）的模子，则会纰漏其乐成暗地里的很多因素。所谓的“人类学生”隐喻更是不得当表述。深度进修与生物进化相似，虽然对于统一法则（即经验丧失的梯度降落）有很多反复的运用，但会孕育发生高度繁杂的成果。于差别的时间内，神经收集的差别构成部门好像会进修差别的内容，包括暗示进修、猜测拟合、隐式正则化及纯噪声等。今朝咱们仍于寻觅准确的视角来提出有关深度进修的问题，更别说回覆这些问题了。任重道远，与君共勉。原文链接：

https://windowsontheory.org/2022/06/20/the-uneasy-relationship-between-deep-learning-and-classical-statistics/

更多内容，点击下方存眷：扫码添加 AI 科技评论微旌旗灯号，投稿进群：理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远