米兰·(milan)中国官方网站-Aquarium华人CEO分享：机器学习在自动驾驶中落地，核心不是模型，是管道

作者：米兰·(milan)文化更新时间：2026-03-29 15:27:44 点击数：

Aquarium华人CEO分享：机器学习在自动驾驶中落地，核心不是模型，是管道

作者 Peter Gao 是 Aquarium 公司的结合开创人及首席履行官（CEO），Aquarium 公司成立了寻觅及修复深度进修数据集问题的东西。于 Aquarium 以前，Peter 曾经从事主动驾驶汽车、教诲及社交媒体的呆板进修，就职在 Cruise 等公司。本文是他联合数年于工业范畴出产实践的经验，总结出关在深度进修的心患上体会。作者 | Peter Gao编译 | 刘冰一

编纂 | 陈彩娴

当我年夜学卒业后最先第一份事情时，我自认为对于呆板进修相识不少。我曾经于 Pinterest 及可汗学院（Khan Academy）有过两次实习，事情内容是成立呆板进修体系。于伯克利年夜学的末了一年，我睁开了计较机视觉深度进修的研究，并于 Caffe 上事情，这是最早风行的深度进修库之一。卒业后，我插手了一家名为“ Cruise ”的小型创业公司，Cruise专弟子产主动驾驶汽车。此刻我于 Aquarium，帮忙多家公司部署深度进修模子来解决主要的社会问题。这些年来，我成立了相称酷的深度进修及计较机视觉仓库。与我于伯克利做研究的时辰比拟，此刻有更多的人于出产运用步伐中利用深度进修。此刻他们面对的很多问题，与我2016年于 Cruise 所面对的问题是同样的。我有许多于出产中举行深度进修的经验教训想与你们分享，但愿各人可以没必要经由过程艰巨的方式来进修它们。

Aquarium华人CEO分享：机器学习在自动驾驶中落地，核心不是模型，是管道

图注：作者团队开发第一个部署于汽车上的呆板进修模子

1将ML模子部署到主动驾驶车上的故事起首，让我谈谈 Cruise 公司有史以来第一个部署于汽车上的ML模子。于咱们开发模子的历程中，事情流程觉得很像我于研究期间所习气的那样。咱们于开源数据上练习开源模子，将之集成到公司产物软件仓库中，并部署到汽车上。颠末几个礼拜的事情，咱们归并的终极 PR，于汽车上运行模子。“使命完成为了！”我心想，咱们该继承毁灭下一场年夜火。我不知道的是，真实的事情才方才最先。模子投入出产运行，咱们的 QA 团队最先留意到它的机能方面的问题。可是咱们还有有其他的模子要成立，还有有其他使命要做，以是咱们没有当即去解决这些问题。3个月后，当咱们研究这些问题时，咱们发明练习及验证剧本已经经全数瓦解，由于自咱们第一次部署以来，代码库已经经发生了变化。颠末一个礼拜的修复，咱们查看了已往几个月的妨碍，意想到于模子出产运行中不雅察到的很多问题不克不及经由过程修改模子代码轻松解决，咱们需要去网络及标志来自咱们公司车辆的新数据，而不是依赖开放源码的数据。这象征着咱们需要成立一个标签流程，包括流程所需要的所有东西、操作及基础举措措施。又过了3个月，咱们运行了一个新的模子，这个模子是按照咱们从车上随机拔取的数据举行练习的。然后，用咱们本身的东西举行标志。可是当咱们最先解决简朴的问题时，咱们不能不对于哪些变化可能孕育发生成果变患上越发敏锐。约莫90% 的问题是经由过程对于艰巨或者稀有的场景举行细心的数据收拾来解决的，而不是经由过程深度模子架构变动或者超参数调解。例如，咱们发明模子于雨天的体现很差（于旧金山很稀有），以是咱们标志了更多雨天的数据，于新的数据上从头练习模子，成果模子的体现获得了改善。一样，咱们发明该模子于绿色视锥上的机能较差（与橙色视锥比拟较少见），是以咱们网络了绿色视锥的数据，颠末了一样的历程，模子的机能获得了改善。咱们需要成立一个可以快速辨认及解决这种问题的流程。破费数个礼拜，这个模子的 1.0 版本组装好了，又用了6个月，新推出一个改良版本模子。跟着咱们于一些方面（更好地标志基础举措措施、云数据处置惩罚、培训基础举措措施、部署监控）的事情愈来愈多，约莫每个月到每一周都能从头练习及从头部署模子。当咱们重新最先成立更多的模子管道，并努力改善它们，咱们最先看到一些配合的主题。将咱们所学到的常识运用到新的管道中，更快更省力地运行更好的型号变患上轻易了。

2连结迭代进修

Aquarium华人CEO分享：机器学习在自动驾驶中落地，核心不是模型，是管道

图注：很多差别的主动驾驶深度进修团队，其模子管道的迭代周期都相称相似。从上到下: Waymo，Cruise 及 Tesla。我曾经经认为，呆板进修重要是模子。现实上，工业出产中的呆板进修重要是管道。乐成的最好猜测因素之一是于模子管道上有用迭代的能力。这不单单象征着快速迭代，还有象征着智能迭代，第二部门很要害，不然你的管道很快就会孕育发生糟糕糕的模子。年夜大都传统软件都夸大快速迭代及灵敏交付历程，由于，产物需求是未知的，必需经由过程顺应来发明，以是与其于前期用不不变的假定做详尽的计划，不如快速交付一个MVP并举行迭代。正如传统软件需求是繁杂的同样，呆板进修体系必需处置惩罚的数据输入范畴确凿很重大。与正常的软件开发差别，呆板进修模子的质量取决在它于代码中的实现，以和代码所依靠的数据。这类对于数据的依靠象征着呆板进修模子可以经由过程数据集构建/治理来“摸索”输入范畴，答应它理解使命要求，并跟着时间的推移顺应它，而没必要修改代码。为了使用这个特征，呆板进修需要一个持续进修的观点，这个观点夸大对于数据及代码的迭代。呆板进修团队必需：发明数据或者模子机能中的问题诊断问题发生的缘故原由转变数据或者模子代码以解决这些问题验证模子于从头练习以后变患上更好部署新模子并反复团队应该测验考试至少每一个月都要履历这个周期。假如你体现好，或许每一周都要举行。年夜型公司可以于不到一天的时间内完成模子部署周期，可是对于在年夜大都团队来讲，快速而主动地构建基础举措措施长短常坚苦的。假如更新模子的频率低在这个频率，就可能致使代码腐蚀（模子管道因为代码库的更改而中止）或者数据域转移（出产中的模子不克不及泛化到数据随时间的变化）。年夜型公司可以于一天以内完成模子的部署周期，可是对于在年夜大都团队来讲，快速而主动地构建基础举措措施长短常坚苦的。更新模子的频率假如低在这个频率，就会致使代码腐蚀（模子管道因为代码库的更改而中止）或者数据域转移（出产中的模子不克不及泛化到数据随时间的变化）。然而，假如处置惩罚恰当，团队可以进入一个优良的节拍，他们将改良后的模子部署到出产情况中。

3成立反馈回路

校准模子的不确定性是一个诱人的研究范畴，模子可以标志它认为可能掉败之处。对于模子举行有用迭代的一个要害部门是集中精神解决最具影响力的问题。要改良一个模子，你需要知道它有甚么问题，而且可以或许按照产物/营业的优先级对于问题举行分类。成立反馈回路的要领有许多，可是起首要发明及分类过错。使用特定范畴的反馈回路。假如有的话，这多是得到模子反馈的很是强盛及有用的要领。例如，猜测使命可以经由过程对于现实发生的汗青数据举行练习来“免费 ”得到标签数据，使他们可以或许不停地输入年夜量的新数据，并相称主动地顺应新环境。设置一个事情流程，让人可以审查你的模子的输出，并于发生过错时举行标志。当人们很轻易经由过程很多模子揣度捕捉过错时，这类要领特别合用。这类环境最多见的发生方式是当客户留意到模子输出中的过错并向呆板进修团队投诉。这是不成低估的，由于这个渠道可让您直接将客户反馈纳入开发周期！一个团队可让人类两重查抄客户可能错过的模子输出：想象一下一个操作职员看着一个呆板人于传送带上对于包举行分类，当他们发明一个过错发生时，就点击一个按钮。设置一个事情流程，让人可以审查你的模子的输出，并于发生过错时举行标志。当人类审查很轻易捕获到年夜量模子推论中的过错时，这就尤其适合。最多见的方式是当客户留意到模子输出中的过错并向ML团队投诉时。这一点不容小觑，由于这个渠道可让你直接将客户的反馈纳入开发周期中一个团队可让人类细心查抄客户可能错过的模子输出：想一想一个操作职员看着呆板人于传送带上分拣包裹，每一当他们发明有过错发生时就点击一个按钮。当模子运行的频率过高，以至在人们没法举行查抄时，可以思量设置主动复查。当很轻易针对于模子输出编写“健全性查抄”时，这特别有效。例如，每一当激光雷达方针检测器及二维图象方针检测器纷歧致时，或者者帧到帧检测器与时间跟踪体系纷歧致时，标志。当它事情时，它提供了很多有效的反馈，告诉咱们哪里呈现了妨碍环境。当它不起作历时，它只是袒露了你的查抄体系中的过错，或者者遗漏了所有体系堕落的环境，这长短常低危害高回报的。最通用（但坚苦）的解决方案是阐发它所运行的数据的模子不确定性。一个简朴的例子是查看模子于出产中孕育发生低置信度输出的例子。这可以体现出模子确凿不确定之处，但不是100% 切确。有时辰，模子多是自傲地过错的。有时模子是不确定的，由于缺少可用的信息举行优良的推理（例如，人们很难理解的有噪声的输入数据）。有一些模子可以解决这些问题，但这是一个活跃的研究范畴。末了，可以使用模子对于练习集的反馈。例如，查抄模子与其练习/验证数据集（即高丧失的例子）的纷歧致注解高可托度掉败或者标志过错。神经收集嵌入阐发可以提供一种理解练习/验证数据集中妨碍模式模式的要领，而且可以发明练习数据集及出产数据集华夏始数据漫衍的差异。

4主动化及委托

Aquarium华人CEO分享：机器学习在自动驾驶中落地，核心不是模型，是管道

图注：年夜大都人的时间很轻易从一个典型的再练习周期中移除了。纵然如许做的价钱是降低呆板时间的效率，它也消弭了很多手工操作的疾苦。加速迭代的重要内容是削减完成一个迭代周期所需的事情量。然而，老是有措施让工作变患上更简朴，以是你必需优先思量要改良甚么。我喜欢用两种方式来思索努力：时钟时间及人类时间。时钟时间指的是运行某些计较使命所需的时间，如数据的 ETL、练习模子、运行推理、计较指标等。人工时间指的是人工必需自动参与以经由过程管道运行的时间，好比手动查抄成果、运行号令或者于管道中间触发剧本。例如，多个剧本必需经由过程手动于步调之间挪动文件按挨次手动运行，这类环境很是常见，可是很华侈。一些纸巾反面的数学: 假如一个呆板进修工程师每一小时破费90美元，手工运行剧本每一周华侈2个小时，那末每一个人每一年加起来就是9360美元！将多个剧本及人工中止联合成一个全主动剧本，可以更快、更易地运行一个模子管道轮回，节省年夜量资金，而且使您的呆板进修工程师不那末离奇。比拟之下，时钟时间凡是需要“合理”（例如，可于一晚上之间完成）。独一的破例是呆板进修工程师正于举行年夜量的试验，或者者存于极度的成本/缩放约束。这是由于时钟时间凡是与数据范围及模子繁杂性成正比。当从当地处置惩罚转移到漫衍式云处置惩罚时，时钟时间会显著削减。于此以后，云中的程度扩大往往可以解决年夜大都团队的年夜大都问题，直到问题的范围扩展。不幸的是，将某些使命彻底主动化是不成能的。险些所有的出产呆板进修运用步伐都是监视式进修使命，而且年夜部门依靠在必然数目的人机交互来告诉模子它应该做甚么。于某些范畴，人机交互是免费的（例如，社交媒体保举用例或者其他有年夜量直接用户反馈的运用步伐）。于其他环境下，人类的时间更有限或者更昂贵，例如练习有素的放射科医师为练习数据“标志”CT 扫描。不管哪一种方式，将改良模子所需的人工时间以和其他成本最小化都很主要。虽然初期的团队可能依靠呆板进修工程师来治理数据集，可是让一个没有呆板进修常识的操作用户或者者范畴专家来负担数据治理的繁重事情凡是更经济（或者者对于在放射学家来讲，是须要的）。于这一点上，利用优良的软件东西成立一个操作历程来标志、查抄、改良及版本节制数据集就变患上很是主要。

5鼓动勉励ML工程师健身

Aquarium华人CEO分享：机器学习在自动驾驶中落地，核心不是模型，是管道

图注：ML工程师于举重时，也于晋升他们的模子进修的权重构建充足的东西来撑持一个新的范畴或者一个新的用户组可能需要破费年夜量的时间及精神，可是假如做患上好，成果将长短常值患上的。于 Cruise 公司，我的一名工程师尤其智慧（有人会说他很懒）。这个工程师成立了一个迭代轮回，于这个轮回中，操作反馈及元数据查询的组合将从模子机能较差之处抽取数据举行标志。然后，一个离岸功课团队将标志数据，并将其添加到新版本的练习数据集中。今后，工程师成立基础举措措施，答应他们于电脑上运行一个剧本，并启动一系列云使命，主动对于新添加的数据举行再练习及验证一个简朴的模子。每一周，他们城市运行 retrain 剧本。然后，于模子练习及验证本身的时辰，他们去了健身房。颠末几个小时的健身及晚饭后，他们会回来查抄成果。无独占偶，新的及改良的数据将致使模子的改良，颠末快速的两重查抄确保一切都成心义，然后他们将新模子输送到出产中，汽车的驾驶机能将获得改善。然后，他们花了一周的时间来改良基础举措措施，试验新的模子架构，并成立新的模子管道。这名工程师不仅于本季度末得到了提升，并且状况很好。

6结语总结一下: 于研究及原型开发阶段，重点是成立及发布一个模子。可是，跟着一个体系进入出产阶段，焦点使命是成立一个体系，这个体系可以或许以最小的努力按期发布改良的模子。这方面你做患上越好，你可以制作的模子就越多！为此，咱们需要存眷如下方面:以纪律的节拍运行模子管道，并专注在比之前更好的运输模子。每一周或者更短的时间内得到一个新的改良型号投入出产！成立一个优良的从模子输出到开发历程的反馈回路。找出模子于哪些示例上做患上欠好，并向您的培训数据集中添加更多的示例。主动化管道中尤其繁重的使命，并成立一个团队布局，使您的团队成员可以或许专注在他们的专业范畴。特斯拉的Andrej Karpathy称抱负的终极状况为“假期步履”。我建议，成立一个事情流程，让你的呆板进修工程师去健身房，让你的呆板进修管道来完成繁重的事情！末了，需要夸大一下，于我的经验中，绝年夜大都关在模子机能的问题可以用数据来解决，可是有些问题只能经由过程修改模子代码来解决。这些变化往往长短常非凡的模子架构于手头，例如，于图象对于象检测器事情了若干年后，我花了太多的时间担忧最好先前的盒子分配为某些方位比及提高特性映照对于小对于象的分辩率。然而，跟着Transformer显示出成为很多差别深度进修使命的全能模子架构类型的但愿，我思疑这些技巧中的更多将变患上不那末相干，呆板进修成长的重点将进一步转向改良数据集。参考链接：https://thegradient.pub/lessons-from-deploying-deep-learning-to-production/Kendall, A. Gal, Y. (2017). What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision? Advances in Neural Information Processing Systems, 5574-5584. Aquarium华人CEO分享：机器学习在自动驾驶中落地，核心不是模型，是管道

雷峰网(公家号：雷峰网)

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

-米兰·(milan)中国官方网站

加入收藏

Tag：米兰·(milan)

上一篇：中国人民抗日战争暨世界反法西斯战争胜利80周年专题（四）

下一篇：暂无

返回列表

米兰·(milan)中国官方网站-Aquarium华人CEO分享：机器学习在自动驾驶中落地，核心不是模型，是管道

随便看看

产品推荐

哆啦A梦：伴我同行

八月未央

夏洛特烦恼

风再起时

云飞丝路天