米兰·(milan)中国官方网站-计算所严明玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不一定更快
跟着年夜语言模子逐渐走向真实运用,推理阶段的机能问题正于成为制约落地的要害因素。
模子范围不停增年夜、上下文连续拉长,再加之 RAG、MoE 等新用法的引入,使患上延迟、吞吐及能耗再也不只是“调一调参数”的问题,而是直接影响体系架谈判算力成本的焦点挑战。
缭绕这些问题,来自中国科学院计较所的严正玉团队,结合中国电信云计较研究院、浙江试验室及北京年夜学的研究者,于论文《A Systematic Characterization of LLM Inference on GPUs》中,对于年夜语言模子于 GPU 上的推理举动举行了体系研究。
差别在以往偏重单一模子、单一算子或者局部优化的研究路径,严正玉团队从体系及硬件协同的视角出发,经由过程年夜范围试验,对于年夜语言模子于 GPU 上的推理举动举行了周全描画,试图从底子上回覆一个持久困扰工程实践的问题:年夜模子推理为何会出现呈现于如许的机能特性。
这项事情并无直接给出怎样优化的现成谜底,而是起首成立了一套同一、可注释的机能认知框架,将 Prefill 与 Decode 的差异上升为体系级的基本纪律,并于差别模子范围、差别硬件平台以和 MoE、RAG 等新型推理范式下举行了验证。
于这一框架下,推理延迟、资源使用率及能耗再也不是伶仃的指标,而是跟着事情负载及体系配置发生有纪律的变化。这类从征象出发、终极回到体系根因的研究方式,使患上这项事情更像是于为年夜模子推理成立一张可理解、可推演的机能全景图,而不是提供某个场景下的经验结论。

论文链接:https://arxiv.org/pdf/2512.01644v1
一次对于年夜模子推理机能的体系性拆解严正玉团队的这项事情经由过程年夜量有构造的试验,体系地总结了年夜语言模子于推理阶段的机能纪律,而不是逗留于零星的经验不雅察上。研究团队发明,LLM 的推理历程于素质上可以分成两个彻底差别的阶段,并且这类差异其实不是靠优化就能消弭的。

详细来讲,第一个阶段是 Prefill 阶段,重要使命是一次性处置惩罚用户输入的 prompt。这个阶段可以并行履行,焦点计较是年夜范围矩阵乘法,是以计较量年夜、算患上很满,GPU 的计较单位使用率很高,总体机能重要受限在算力自己。

第二个阶段是 Decode 阶段,用来逐个天生输出 token。因为天生历程是一步一步举行的,每一一步都需要拜候已经经缓存的上下文信息(KV Cache),现实计较量不年夜,但内存拜候很是频仍,是以机能瓶颈从算力转移到了内存带宽及拜候延迟上。

于此基础上,论文进一步指出,推理历程中究竟是 Prefill 慢还有是 Decode 慢,其实不是固定的,而是取决在详细的输入及输出环境。当输入较短时,虽然每一一步 Decode 的计较未几,但需要履行许多步,是以 Decode 往往成为重要耗时部门。
而当输入变永劫,Prefill 阶段需要处置惩罚的 token 数迅速增长,其计较量增加更快,于跨越某个长度以后就会反过来成为总体延迟的重要来历。这类从 Decode 主导到 Prefill 主导的改变申明,机能瓶颈更可能是由事情负载决议的,而不是模子自己生成慢于哪。

假如进一步拆到模子内部的算子层面,研究团队发明瓶颈一样不是固定的。于常见的上下文长度下,Prefill 阶段的重要时间往往花于前馈收集(FFN)上,但于上下文尤其长的环境下,因为留意力计较的繁杂度增加更快,Attention 会逐渐成为重要瓶颈。

Decode 阶段的环境则及模子范围有关:对于在较小的模子,频仍拜候 KV Cache 的 Attention 更易成为瓶颈;而对于在年夜模子,因为前馈收集权重更年夜,FFN 的内存加载成本反而更凸起。这申明,纯真地说 Attention 是瓶颈或者 FFN 是瓶颈都是禁绝确的,必需联合所处阶段、上下文长度及模子范围来判定。雷峰网

于机能可猜测性方面,论文发明 Prefill 阶段的举动很是纪律。它的履行时间险些只由真正需要计较的输入 token 数目决议,并且两者之间出现很是不变的线性瓜葛。这象征着,只要知道输入长度及缓存掷中环境,就能够比力正确地猜测 Prefill 的延迟,这对于体系调理及资源计划很是有效。比拟之下,Decode 阶段因为是慢慢天生,而且遭到采样及串行依靠的影响,机能颠簸更年夜,也更难提早猜测。

于能耗阐发中,论文给出了一个很是直不雅但主要的结论:整个推理历程耗损的能量,险些全数来自 Decode 阶段。输入有多长,对于总能耗影响很小,而输出天生了几多 token,险些直接决议了能耗巨细。同时,模子参数越多,总能耗也会随之增长。这申明,于真实体系中,假如想要降低推理能耗,限定输出长度往往比优化 Prefill 更有用。

于多 GPU 扩大试验中,研究团队发明并行化其实不是于所有环境下都有用。Prefill 阶段因为计较量年夜,把计较分摊到多张 GPU 上凡是能带来收益,但 Decode 阶段每一一步计较都很小,多 GPU 之间的通讯及同步反而会成为承担,致使机能晋升不较着甚至变慢。是以,于 Decode 为主的场景下,利用单 GPU 或者较轻量的流水并行往往更适合,这也打破了GPU 越多越快的直觉。

末了,论文还有阐发了新的推理范式。对于在 MoE 模子,推理速率重要取决在每一次现实介入计较的参数范围,而不是模子的总参数目,这带来了较着的机能上风,但同时,于 Decode 阶段会分外引入专家选择及调理的开消,使机能体现越发繁杂。

对于在 RAG 事情流,研究团队发明跟着外部常识范围变年夜,体系瓶颈会从 GPU 推理转移到 CPU 侧的检索及内存拜候上,形成新的机能限定。只管推理流程变患上越发繁杂,但 Prefill 及 Decode 于机能上的底子差异依然存于,仍旧是理解总体举动的要害。

面向体系理解的年夜模子推理试验框架
为了让结论更完备、也更易理解,这篇论文于试验设计上采用了一种由浅入深的阐发思绪。研究团队其实不是一最先就研究底层硬件细节,而是先不雅察总体推理机能体现,再慢慢深切到 GPU 的履行及存储举动,末了把获得的纪律放回到真实体系及新型推理场景中举行验证。雷峰网(公家号:雷峰网)
于试验平台方面,论文同时利用了数据中央级的 GPU(A100)及边沿装备上的 GPU(Jetson AGX Orin)。如许做的目的,是查验前面总结出的机能纪律是否只于高端办事器上建立,还有是于算力及内存前提更受限的装备上一样合用。

模子选择上,研究团队笼罩了多种主流的 dense 模子(从 7B 到 32B),同时还有引入了一个具备代表性的 MoE 模子,以不雅察差别参数范围及差别架构设计对于推理机能的影响。为了包管对于比公允,所有试验都于统一套推理框架及不异精度设置下举行,只管即便削减实现细节带来的滋扰。

于事情负载设计上,研究团队并无简朴地跑几组固定 benchmark,而是有针对于性地设计了多种输入及输出组合。例如,有的使命输入短、输出长,有的输入长、输出短,还有有真实对于话数据及可控的合成数据。如许的设计是为了成心识地制造 Prefill 占主导或者 Decode 占主导的差别场景,从而验证两阶段于差别前提下是否始终体现出差别的机能特性。

于机能阐发要领上,论文彩用了分层剖析的方式。起首于总体层面上,丈量端到真个延迟、吞吐量及能耗,成立对于体系举动的直不雅熟悉;接着于阶段及算子层面,阐发 Prefill 及 Decode 各自占用了几多时间,以和差别算子于此中的作用;末了深切到硬件层面,经由过程 Roofline 模子、warp 搁浅阐发,以和缓存掷中率及内存带宽利用环境,来判定机能毕竟是受限在计较还有是受限在内存。

于能耗阐发中,研究职员经由过程高频功率采样并扣除了余暇功耗的方式,只管即便包管丈量成果的正确性。于触及 RAG 的试验中,还有分外利用了 CPU 侧的机能阐发东西,专门阐发检索阶段的瓶颈来历。
经由过程这类从“看征象”到“找缘故原由”的慢慢阐发历程,论文防止了只凭经验判定或者简朴相干性阐发下结论的问题,使患上每个宏不雅层面的机能征象,都能于底层硬件履行机制上找到清楚的注释。
当问题被看清,优化才有标的目的
这篇论文的意义不于在提出某一种新的优化技巧,而于在成立了一套同一、可注释的年夜模子推理机能认知框架。它初次将 Prefill 与 Decode 的阶段差异晋升为体系级基本纪律,并证实这一纪律于差别模子范围、硬件平台及新兴推理范式下均建立。
从工程角度看,论文改正了多个持久存于的直觉性曲解,例如Attention 永远是瓶颈、多 GPU 必然更快、Prefill 是重要能耗来历等,并给出了明确的反例及机制注释。这些结论对于现实推理办事的部署计谋、资源配置及成本节制具备直接引导意义。
从体系研究角度看,这篇内容为后续事情提供了清楚的问题分化方式:优化 Prefill 及优化 Decode 不该等量齐观,而应针对于各自的底子瓶颈别离设计机制。这一思惟对换度器设计、并行计谋选择以和新硬件特征使用都具备开导作用。
从将来成长看,论文指出了 MoE 及 RAG 等新范式怎样重塑瓶颈位置,提醒研究者于模子及体系协同设计时需要存眷路由开消、内存局部性及 CPU–GPU 协同,而不单单是算力范围。
整体而言,这是一篇以试验为基础、以注释为焦点、以体系认知为方针的论文,其价值于在回覆了“为何 LLM 推理会如许体现”,而不仅是“怎样让它更快一点”。
事情暗地里的研究者本文通信作者为 中国科学院计较技能研究所的严正玉传授。他重要从事计较机系统布局相干研究,研究标的目的涵盖图呆板进修、设计空间摸索以和繁杂计较体系的机能阐发等问题。

参考链接:https://mingyuyan-ict.github.io/MingyuYan-ICT/
于学术研究方面,严正玉传授已经于多个国际顶级集会及期刊上发表近 20 篇论文,相干结果发表在 MICRO、HPCA、DAC、ICCAD、IJCAI、IEEE TC、IEEE TPDS 等主要学术平台,笼罩系统布局、体系与运用交织等多个研究范畴。
除了科研事情外,严正玉传授也是 IEEE 及中国计较机学会(CCF)的高级会员,并屡次担当 HPCA、ISCA、MICRO、IJCAI、ISPASS 等国际集会的技能步伐委员会委员或者审稿人,持久介入相干范畴的学术评审与社区设置装备摆设。
于学术造就与科研履历方面,他在中国科学院年夜学得到博士学位,并曾经赴美国加州年夜学圣塔芭芭拉分校举行结合造就。其博士论文曾经得到中国计较机学会优异博士论文奖。此外,他还有入选北京市科技新星规划、中国科学院青年立异促成会,并主持或者介入中国科学院青年团队项目等科研规划。
整体而言,严正玉传授持久致力在从体系视角理解繁杂计较负载于硬件平台上的履行举动,夸大经由过程体系性试验及硬件举动阐发展现机能瓶颈的形成机理,其研究结果兼具理论深度与工程实践价值。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。





