米兰·(milan)中国官方网站-DeepMind用深度强化学习研究“人造太阳”！据说这是秘密进行了3年的工作

作者：米兰·(milan)文化更新时间：2026-04-09 20:09:01 点击数：

“AI+物理”乐成破圈，DeepMind 怕是要上天。

作者 | 王晔

编纂 | 陈彩娴

北京时间凌晨四点，DeepMind于官方推特上发布动静，称其与瑞士洛桑联邦理工学院（EPFL）互助研究出第一个可以于托卡马克（Tokamak）装配内连结核聚变等离子体不变的深度强化进修体系，为推进核聚变研究斥地了新路子，事情已经发表于Nature！

动静一出，马上引起围不雅，收成一千多点赞、数百转发：

DeepMind用深度强化学习研究“人造太阳”！据说这是秘密进行了3年的工作

据该事情的此中一名成员@317070披露，该事情已经经奥秘举行了三年，并兴冲冲地暗示：“它真的乐成了！深度强化进修真的很擅长弄定这些人类火急想实现的科空想法。”

DeepMind用深度强化学习研究“人造太阳”！据说这是秘密进行了3年的工作

咱们都知道，DeepMind是全世界最早将人工智能运用在科学研究（即“AI for Science”）的研究机构之一，于已往的几年也取患了很多使人瞩目的成绩，乐成地于生物、化学、数学与物理模仿等等范畴扎下了AI的影子，并吸引一多量学者投身“AI for Science”标的目的的研究事情。

此前，于DeepMind兼职担当高级研究科学家的华人学者王梦迪便曾经对于AI科技评论谈到，DeepMind有强盛的决定信念将人工智能用在鞭策人类文明的前进，这类自傲也传染了很多年青的科学家：

DeepMind的价值不雅就是要鞭策人类文明的前进。我觉得研究人工智能的学者都很是自傲，感觉本身有能力解决世界上最难的问题。这类自傲很是棒，会赐与本身主不雅能动性，也会传染其他学者，帮忙差别学科的人更快、更好地结合于一路，去解决原先以为难在登天的问题。

而近日DeepMind于难度更高的核物理发布冲破结果，无疑越发证实、巩固了其于“AI for Science”标的目的的领头羊职位地方！

更成心思的是，AI科技评论编纂组还有发明，早于五年前（2017年），就有中国网友于知乎上提出将深度强化进修体系用在进修可控核聚变装配制作技能的假想。难道 DeepMind 的科研是随着知乎走的……（手动狗头）

DeepMind用深度强化学习研究“人造太阳”！据说这是秘密进行了3年的工作

言归正传，咱们来看看DeepMind此次又弄出了甚么花腔！

1甚么是托卡马克装配？

起首，为了更好地相识DeepMind这次的冲破，以和“AI+核聚变”的玄妙，咱们需要知道：甚么是托卡马克（Tokamak）装配？

此前，知乎上还有有一个关在托卡马克的会商：“刘慈欣于《三体》中为何不待见托卡马克装配？（托卡马克装配有甚么毛病）”：

DeepMind用深度强化学习研究“人造太阳”！据说这是秘密进行了3年的工作

链接：https://www.zhihu.com/question/31056640/answer/56816872

其时就有网友@Shigen Chin回覆：

起首，超导托卡马克的质料成真相对于较高，比拟之下激光核聚变只是装备一次性投资高，而超导托卡马克对于在设备自己损耗比力严峻，对于在后续投入是倒霉因素（特别是三体成为实际威逼亟需技能冲破的环境下）。其次，理论瓶颈，智子已经经为物理理论研究成立壁垒，而超导托卡马克作为一种相对于而言于可控核聚变研究中呈现较早的思绪，一直到此刻没有猛进展，很年夜水平上也是受理论研究所累，于没有取患上理论冲破的环境下，托卡马克装配投入实用的可能性不年夜再次，托卡马克自己的小型化好不容易，由于托卡马克的实用功率及约束时间及设备体积正相干，超低温制冷，磁约束需要较为重大的装备，而实现装备小型化也需要质料等基础科学的前进，这些方面的前进又依靠在物理理论的前进（好比成立在原子标准研究及量子力学基础上的电子计较机的发现及量子计较机观点的提出动员了对于在晶体管及光量子质料的工艺研究）。多是基在以上的缘故原由，年夜刘认为托卡马克不适在负担领导人类走入聚变时代的重担（笑）。

言归正传：

托卡马克，又称“环磁机”，俄语原文“Токамак”，是一种使用磁约束来实现磁约束聚变的环形容器，最早由位在苏联莫斯科库尔恰托夫研究所（NRC KI）的物理学家伊戈尔·塔姆、安德烈·萨哈罗夫及列夫·阿齐莫维齐等人于1950年月发现。

按照baidu百科的描写，托卡马克的中心是一个环形的真空室，外面环绕纠缠着线圈（以下面动图）。通电时，托卡马克的内部会孕育发生巨年夜的螺旋型磁场，将此中的等离子体加热到很高的温度，以到达核聚变的目的：

图注：托卡马卡装配维基百科先容，托卡马克是当前用在出产受控热核核聚变能中研究最深切的磁约整装置类型。磁场被用在约束是由于等离子体冷却会使反映住手，而超导托卡马克可永劫间约束等离子体。世界上第一个超导托卡马克为俄制的T-7（托卡马克7号）： DeepMind用深度强化学习研究“人造太阳”！据说这是秘密进行了3年的工作

听起来是否是很玄乎？一个更直白的例子是，2019年，新闻上报导中国耗资千亿的“人造太阳”，就是可控托卡马克装配：

DeepMind用深度强化学习研究“人造太阳”！据说这是秘密进行了3年的工作

图注：中国“人造太阳”因而可知，可控托卡马克装配的研发用度极高、实现难度也极高。以中国举行的试验为例，试验中核燃料的最高温度到达了1.3亿℃，压力高达100个年夜气压，整个宇宙中没有任何一种物资可以蒙受云云卑劣的前提。那末，为何咱们要造一个如许的装配呢？缘故原由也很简朴：只有成长可控的核聚变技能，才有望解决当前人类社碰面临着的严重能源危机及环保压力。

2AI+可控核聚变的前世事实上，早于AlphaGo击败人类世界的围棋冠军李世石后，就有网友于知乎上发问：听说AlphaGo是从零最先自学，应用了深度神经收集与蒙特卡洛树状搜刮相联合的技能，那末是否能让AlphaGo从零最先进修可控核聚变装配制作技能呢？ DeepMind用深度强化学习研究“人造太阳”！据说这是秘密进行了3年的工作

链接：https://www.zhihu.com/question/41295369/answer/142572075底下有网友@刘亚问回覆，高温等离子体高自由能与约束的问题是托卡马克技能的重要难点，深度进修收集可能有助在解决这些问题，但难点于在：托卡马克装配于今朝的约束技能前提下，难以小型扮装置造价，以和氘耗损、等离子体加温等其它方面运行的成本，使试验装配的数目、运行次数均受限，难以撑持盲目的重复运行试验触及高温等离子体，今朝约束技能前提下反复重复运行有安全性问题缺少获取年夜样本的前提综上所述，深度进修技能纷歧定合适解决托卡马克可控核聚变装配。比拟托卡马克，另外一类核聚变装配——反场箍缩装配（Reversedfieldpinch，RFP）更合适用深度进修举行研究，由于：“其表里两套磁场标的目的相反的磁体合成的非凡磁场，可以不变等离子体的边沿，体积相对于小、运行成真相对于低、安全性相对于高。” DeepMind用深度强化学习研究“人造太阳”！据说这是秘密进行了3年的工作

他还有分享了资料，称呆板进修的研究者从上世纪90年月末就最先将呆板进修要领用在反场箍缩研究不变等离子体的边沿的反馈节制：Barana O, Manduchi G, Serri A, et al. A neural network approach for the detection of the locking position in RFX[C]// Fusion Engineering, 1999. Symposium on. IEEE, 1999:575-578.Olofsson K E J. Nonaxisy妹妹etric experimental modal analysis and control of resistive wall MHD in RFPs : System identification and feedback control for the reversed-field pinch[J]. Fusion Plasma Physics, 2012.除了了以上研究，从2014年起，google就及核聚变公司TAETechnology举行互助，将呆板进修运用在差别类型的聚变反映堆，以加快实验数据的阐发；此外英国中部欧洲环面JET结合举措措施也于使用人工智能来猜测等离子体的举动。跟着核聚变反映堆范围的增年夜，托卡马克装备愈来愈繁杂，对于在靠得住性及正确性节制的要求也于不停提高，人工智能于此中将起到愈来愈要害的作用。

3DeepMind怎样做？2月16日，DeepMind与EPFL互助研究的深度强化进修体系助力可控核聚变的事情于Nature上发布： DeepMind用深度强化学习研究“人造太阳”！据说这是秘密进行了3年的工作

链接：https://www.nature.com/articles/s41586-021-04301-9那末，他们是怎样用深度强化进修实此刻托卡马克装配内连结核聚变等离子体不变的呢？托卡马克装配研究的一个重要标的目的是将等离子体的漫衍构建成差别配置的效果，以优化不变性、关闭性及能量排放，并为第一个燃烧等离子体试验ITER提供通知。而要于托卡马克内限定每一个配置，需要设计一个反馈节制器，经由过程切确节制几个与等离子体磁耦合的线圈来把持磁场，以到达抱负的等离子体电流、位置及外形。这个问题也就是闻名的“托卡马克磁节制问题”。于传统要领中，要解决这个时变的、非线性的、多变量的节制问题，起首要解决一个反问题，即：预先计较一组前馈线圈电流及电压，然后设计一组自力的、单输入、单输出的PID节制器，使等离子体连结垂直位置，并节制径向位置及等离子体电流，所有这些节制器于设计时也要留意不克不及彼此滋扰。年夜大都节制布局城市增长对于等离子体外形的外部节制回路，这就需要对于等离子体均衡举行及时预计，以调制前馈线圈电流。节制器的设计成立于线性化模子动力学的基础之上，需要举行增益调理以跟踪时间变化的节制方针。只管这些节制器于年夜大都环境下体现不错，但每一当方针等离子体配置发生变化，就需要破费年夜量的工程努力、设计努力及专业常识，同时还有要举行繁杂的均衡预计及时计较。这时候，深度强化进修就派上了用处：强化进修可以作为一种全新的要领，用来设计非线性反馈节制器，可以直不雅地设置机能方针，将重点转移到“应该实现甚么”，而不是“怎样实现”。此外，强化进修技能极年夜简化了节制体系，计较成本低的节制器代替了嵌套的节制布局，而内部化的状况重修消弭了对于自力均衡重修的要求。一句话：这些上风可削减节制器的开发周期，加快对于替换性等离子体配置的研究。于这个事情中，他们提出了一个由强化进修设计的磁性节制器，可以自立进修批示全套的节制线圈，既可以实现高程度节制，也能满意物理及操作的约束前提，于出产等离子体配置时年夜年夜削减了设计的事情量。

DeepMind用深度强化学习研究“人造太阳”！据说这是秘密进行了3年的工作

图注：DeepMind的架构为设计托卡马克磁约束节制器提供了一种变通要领。该要领重要有三个步调：1）设计者为试验指定节制方针，该方针可能陪同着时间而变化；2）深度强化进修算法与托卡马克模仿器互动，找到一个满意指定方针的近乎最优的节制计谋；3）神经收集情势的节制计谋（零样本）直接于托卡马克硬件上运行。颠末三年的研发试验，他们于托卡马克 à 的配置变量（TCV）上乐成天生并节制了一系列差别的等离子体配置，有外形传统、颀长的，也有进步前辈的，如负三角形及 “雪花”配置，深度强化进修体系可以对于这些配置的位置、电流及外形举行切确地跟踪。 DeepMind用深度强化学习研究“人造太阳”！据说这是秘密进行了3年的工作

图注：经由过程深度强化进修，托卡马克装配中的等离子体电流、垂直不变性、位置及外形节制环境此外，他们还有先容了TCV上的可连续“雨滴” （droplets’），此中两个自力的等离子体可同时连结于容器： DeepMind用深度强化学习研究“人造太阳”！据说这是秘密进行了3年的工作

图注：于 200 毫秒节制窗口中连续节制 TCV 上的两个自力“雨滴”

4写于末了今朝为止，于可控核聚变上取患上的最佳成就来自欧洲结合环状反映堆（JET），本年的2月9日，JET中的聚变反映于5秒内以中子的情势开释出统共59兆焦耳的能量——这个数值其实不高，年夜概只能烧开几十壶开水罢了。人类早已经实现了输出能量小在输入能量的可控核聚变，以JET创下的世界纪录为例，其Q值（聚变能增益系数，输出能量与输入能量之比）约为0.33摆布。要实现真正可用的核聚变清洁能源，需要经由过程新的范式的研究，不停提高核聚变的Q值。DeepMind 团队坚信：他们的深度强化进修体系为托卡马克装配中的等离子体磁约束提供了一个新的范式。更主要的是，他们的节制设计注解了基在呆板进修的节制要领的上风。要实现AI+核聚变，需要科学与工程的左右开弓，硬件与算法缺一不成。他们信赖，深度强化进修框架有可能塑造将来的核聚变研究与托卡马克装配的研究成长。各人怎么看？参考链接：1.https://www.zhihu.com/question/31056640/answer/568168722.https://scitechdaily.com/science-made-simple-what-is-a-tokamak/3.https://www.zhihu.com/question/41295369/answer/142572075

DeepMind用深度强化学习研究“人造太阳”！据说这是秘密进行了3年的工作

雷峰网(公家号：雷峰网)

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

-米兰·(milan)中国官方网站

加入收藏

Tag：米兰·(milan)

上一篇：中国人民抗日战争暨世界反法西斯战争胜利80周年专题（四）

下一篇：暂无

返回列表

米兰·(milan)中国官方网站-DeepMind用深度强化学习研究“人造太阳”！据说这是秘密进行了3年的工作

随便看看

产品推荐

哆啦A梦：伴我同行

八月未央

夏洛特烦恼

风再起时

云飞丝路天