米兰·(milan)中国官方网站-上海AI Lab胡侠:KV Cache压缩之后,可让价格2万美金的GPU发挥出20万美金的价值
上海AI Lab胡侠:KV Cache压缩以后,可以让价格2万$的GPU阐扬出20万$的价值 | GAIR 2025
今朝,差别年夜模子厂商发布的年夜语言模子于处置惩罚超长上下文方面已经经有显著冲破,最高的已经能撑持数百万 Token 的输入,例如 MiniMax-M一、Qwen2.5-1M 系列模子,均撑持百万Token(1M)级另外超长上下文处置惩罚能力。
可是这场有关晋升年夜模子上下文长度的“武备赛”依然不会住手,这是一项巨年夜的工程与效率之战。由于超长下文为模子智能提供了最广漠的阐扬空间——于处置惩罚如金融、法令、医疗等范畴的长语境使命是体现更好。以是谁能率先冲破更长上下文处置惩罚能力,便有时机创造出更年夜的贸易与技能价值。
胡侠团队便针对于这一方针提出了一项最新研究方案——“经由过程有损计较(Lossy Computation)来提高峻语言模子的推理效率”。这项研究的基本思绪是,使用年夜语言模子对于来自低精度计较等“有损”操作孕育发生的噪声具备极强鲁棒性这一特色,自动引入可控的、不侵害机能的信息丧失,以换取显著的效率晋升。
年夜模子中的“有损计较”是经由过程有选择地捐躯一部门精度来年夜幅降低计较或者者存储成本,从而晋升推理效率,重要缭绕模子参数目化、KV Cache 压缩、模子剪枝与常识蒸馏等焦点路径睁开。
胡侠认为,年夜语言模子虽已经实现类人对于话能力,但于处置惩罚医疗范畴长篇文献信息提取等长语境使命时,面对着“预练习长度限定”与“推理内存需求激增”的两重挑战。
针对于这两项挑战,团队提出的“经由过程有损计较(Lossy Computation)来提高峻语言模子的推理效率”方案,实现了两项要害技能冲破:一是于算法层面,经由过程粗化远间隔标志的位置信息,乐成将年夜语言模子的语境长度扩大至原有程度的 8 倍;二是于体系层面,将过往标志的中间状况(KV Cache)量化为 2 比特数字,实现了 8 倍内存效率的晋升及 3.5 倍时钟时间加快的庞大进展。
胡侠是人工智能范畴的国际知论理学者,持久从事数据挖掘、呆板进修及人工智能研究,今朝是上海人工智能试验室主任助理、领军科学家,曾经担当美国莱斯年夜学正传授、数据科学中央主任,亦是AIPOW公司结合开创人兼首席科学家。其主导开发的开源体系 AutoKeras 成为最经常使用的主动呆板进修框架之一(跨越 8000 次 star 和 1000 次 fork),开发的 NCF 算法和体系(单篇论文被援用超 8000 余次)成为主流人工智能框架 TensorFlow 的官方保举体系,主导开发的异样检测体系于通用、Trane、苹果等公司的产物中获得广泛运用。
关在这两项要害技能的相干细节以和运用远景,近日咱们跟胡侠传授聊了聊,如下内容颠末不转变原意的编纂、收拾:
从恍惚的上下文位置信息以和恍惚的 KV Cache 两点入手做“有损计较”雷峰网:请您先简朴先容下 经由过程有损计较实现高效年夜语言模子推理 的详细思绪?
胡侠:咱们按照年夜语言模子对于来自低精度计较等 有损操作 孕育发生的噪声具备极强鲁棒性这一特色,自动引入可控的、不侵害机能的信息丧失,可以或许极高地提供推理效率,现实上是用精度换取效率的思绪。咱们的 有损计较 重要实行方式是两种,一是于算法层面,不要用上下文切确的相对于间隔来举行计较,而是经由过程粗化远间隔标志的位置信息,乐成将年夜语言模子的语境长度扩大至本来程度的 8 倍;二是于体系层面,将已往令牌的中间状况(KV Cache)做响应的量化,量化为 2 比特数字,可以实现 8 倍内存效率晋升及 3.5 倍现实速率加快,且不影响模子机能。
雷峰网(公家号:雷峰网):“有损计较”的灵感是否部门源在对于年夜模子自己作为一种“有损世界压缩器”的理论认知?
胡侠:整个方案的灵感来历在深度进修,深度进修中有两个主要的发明。一个是模子的参数目现实上比模子的精度更主要,咱们做了许多试验,此中一堆试验都注解相对于年夜的模子比相对于切确的模子,它的推理不管是效率还有是正确度来说都更好。
第二个主要发明是于深度模子中,当咱们把许多参数删失之后,模子的正确率丧失很是小。
在是咱们就想到了如何从恍惚的上下文信息以和恍惚的 KV Cache 这两点入手做有损计较。详细举个例子,好比咱们念书时,当咱们试图影象上下文,好比想知道上一章呈现了一个甚么故事,但咱们不需要知道这个故事发生于第 265 个字以前还有是第 257 个字以前,我只需要知道年夜概两三百个字以前呈现了这么一个故事就好了。
雷峰网:您的 有损计较 方案重要经由过程两种方案,此中经由过程粗化位置信息来扩大上下文,这类粗化计谋是静态,还有是按照文本内容动态调解的?
胡侠:都不是,它现实上是按照其时上下文的需要举行动态调解的。
雷峰网:第二种要领是将 KV Cache 压缩到 2 比特,这是一项很是激进的优化,于这个历程中您以和您团队碰到最年夜的挑战是甚么?
胡侠:整个研究最年夜的挑战就是压缩到 2 比特之后,于这类低精度暗示的环境下是否还有可以或许让模子连结响应的正确率,以是必需经由过程年夜量试验来解决。
虽然咱们于试验情况下压缩到 2 比特是可行的,但于实际运用中很少有人这么做,工业界主流的优化手腕例如 DeepSeek 是压缩到 8 比特,于现实运用中压缩到 4 比特已经经很是激进了,2 比特此刻更多还有是一个试验室的成果。
压缩可以或许提高模子的事情效率,这已经经形成为了广泛共鸣,压缩要领是最年夜的挑战,以是咱们的事情最年夜的孝敬就是对于 Key Cache 及 Value Cache 的压缩方式是纷歧样的。
雷峰网:压缩 KV Cache 后,能实现甚么价值?
胡侠:KV Cache 是年夜模子练习及推理中最主要的一个中间存储状况,KV Cache 直接跟 GPU 的内存相干,例如A100 80GB,此中的 80GB 就是它的内存,而 80GB 傍边可能有 90% 以上的用途都是用来存 KV Cache,它是计较中一个最主要的中间存储计较东西。
假如从 16 比特压到 2 比特,就相称在压缩了近 10 倍,就相称在可以或许让 80GB A100 的 GPU 增长了 10 倍的存储量,这就很是有价值了,由于一块平凡的 GPU 就是两三万$,假如能增长 10 倍存储量的话,粗算下来相称在把 2 万$的 GPU 直接增值到 20 万$。
雷峰网:这两个要领重要于哪些模子上试验过?
胡侠:咱们重要的成果是于 llama 上做的。两篇文章都是 2024 年发的。
雷峰网:您团队开发的 AutoKeras 等开源项目已经被广泛采用。对于在这项有损计较技能,您是否也规划经由过程近似的路径来鞭策其工业界采取?
胡侠:已经经有许多主流的开源软件包都于利用了,像 hugging face 的 transformer,llama.cpp 都于利用这两个要领。
雷峰网:您的方案跟当前其他一些推理要领,好比混淆专家模子 MoE,模仿计较等,于哲学及技能路径有及底子差别?
胡侠:哲学上是差未几的,有句话叫 no free lunch,咱们获得的是它的效率,丧失的是精度,就看丧失的精度会不会影响模子的正确性。可是咱们寻求的其实不是模子的精度,而是末了的正确率。以是哲学上都是经由过程一些要领来让模子效率更快,于快的同时还有不失点,即正确率还有不会降落。
技能上就彻底纷歧样了,MoE 是经由过程 sparsity(稀少性)来解决问题。举个例子,好比你读篇文章,sparsity 象征着有些词就彻底不读,删失,而咱们的粗化位置信息要领则是都要读完,可是读的很是快,不消去记正确的位置,我只知道它可能于 1~10 之间,20~30 之间,但不需要去记位置是 5 还有是 16。
“有损计较”于模子处置惩罚差别使命的正确率差别雷峰网:假如模子于天生历程中忽然需要回首一个以前被判断为“不主要”并抛弃的信息,您的算法怎样应答这类“年夜海捞针(Needle- in-a-Haystack)”的掉败危害?
胡侠 :模子不消非要去看以前的绝对于位置,所有的模子的方针都是于末了天生准确的谜底便可。
雷峰网:该“有损计较”方案对于在模子处置惩罚差别使命的影响是不异的吗?
胡侠:此刻咱们的方案更可能是针对于语言年夜模子,但对于在多模态年夜模子或者者其他智能体的效果是差别的,其他的咱们也没有试验去支撑,以是很难讲效果会好还有是欠好。但从机理上来说,咱们年夜概的思绪就是用精度换效率,但这个丧失的精度并无侵害到模子的正确率。以是从年夜的逻辑上来说对于许多使命应该没有太多影响,但详细使命也要详细阐发。
雷峰网:从柯氏繁杂度及最小描写长度的角度看,练习年夜模子是寻觅数据暗地里的最短步伐,那末您认为于推理阶段举行有损计较,是否可以理解为于特定使命及上下文约束下进一步寻觅“最短的运行时步伐”?
胡侠:我感觉可以这么讲,这个讲法对于我来讲还有挺新奇。
雷峰网:怎样评估并确保这些“有损操作”没有过分?
胡侠:这是个很好的问题。咱们更可能是用年夜量试验来看是否过分,好比说此刻常见的是 16 比特,毕竟要压缩到 8 比特、还有是 4 比特、还有是 2 比特,这就要按照现实需求来判定,由于模子正确率的降落曲线于差别的使命上也是差别的。当试验时模子的正确率已经经最先年夜幅降落了,就压过甚了,就不克不及再压了。
雷峰网:您提到压缩时,模子正确率的降落曲线于差别使命上差别,是否可以举例于哪些使命上呈现较着差别?
胡侠:咱们试验比力多的使命,包括多模态的使命、classification 的使命,重要是回覆问题,即 chatbot 的正确率于压缩到 2 比特的时辰不会失点,可是可能用来做天生步伐比力坚苦。咱们的有损要领对于天生步伐这类对于精度要求很是高的使命可能会影响其正确性,咱们没做响应的试验,但我觉得可能比力坚苦。
雷峰网:履历了几多次试验才发明将 KV Cache 压缩到 2 比特的时辰失点很少?
胡侠:很难讲,由于这个项目也不是平空重新最先做的,也是基在咱们以前许多其他事情堆集出来的。咱们于经由过程差别方式跑通年夜模子的历程中不停做各类试验,然后发明了这个征象,但咱们也不是第一个做压缩的人,做压缩的人许多。但咱们重要孝敬了一种新的压缩要领,就是 Key 跟 Value 这两种 Cache,以是叫它 KV Cache,以前各人都用统一种要领来压缩这两种 Cache,但咱们比力立异地将 Key 跟 Value 根据差别的压缩要领压缩,可让它于 2 比特的时辰失点很是少或者者险些不失点,这是最年夜的一个孝敬。
雷峰网:那有无试验证实压缩到 1 比特的时辰,最先呈现年夜的失点?
胡侠:不成能 1 比特,1 比特就相称在只用 0 及 1 来暗示,整个矩阵就是 0、1,信息量太少了。
该“有损方案”运用的潜力怎样雷峰网:于法令、医疗这类瞄准确性要求极高的场景,您的有损计较方案是否彻底不克不及运用到这些场景?
胡侠:现实上,法令跟医疗没有各人想象的瞄准确性要求那末高,由于它还有是基在年夜量统计信息,好比要判定某小我私家是否患有某种疾病,信息来历很是多,这就是为啥中医、西医均可以判定有无病,做血检也能够。以是不需要那末多的信息就能够做出很是精准的判定了。
这跟各人想象的可能不太同样,反而需要切确地节制的好比说做一道数学题,写一个步伐,而判定一小我私家有无甚么疾病,于大都环境下数据好的话是一个比力简朴的使命。
雷峰网:您的有损计较方案可以运用到哪些场景?
胡侠:此刻重要是 chatbot,咱们于医疗康健范畴运用的是一个基在稀有病的问诊体系,假如一小我私家呈现一些症状,他是否可能有某种稀有病就能够问这个体系,效果还有长短常好的。医疗范畴现有的体系、有关稀有病的数据创立患上尤其少,由于一个大夫没措施席卷几千种稀有病,可是年夜模子可以,并且具备了长上下文能力的年夜模子可以或许做患上更好。
雷峰网:您的研究结果是否思量了与特定硬件(如内存计较、低精度AI芯片)的协同设计?要阐扬最年夜潜力,是否需要硬件层面的响应厘革?
胡侠:此刻还有没有思量硬件。但 KV Cache 存于在 GPU 上,现实上是专用在 GPU 的一种要领,这个层面是思量了硬件的。
雷峰网:假如推理阶段咱们可以抛弃 80% 的信息而不影响效果,这是否反向申明,今朝的模子架构于预练习阶段就存于巨年夜的效率华侈,将来的架构是否应该直接把这类稀少性设计于预练习阶段,而不是留给推理阶段来调停?
胡侠:这却是一个好问题,你可以这么讲,可能有一个新的架构会更好地使用这些信息让预练习变患上更高效,而不光是推理阶段。
雷峰网:您的这个研究是否对于在年夜模子部署得手机上或者者条记本电脑等端侧的意义更年夜?
胡侠:很难讲,现实上此刻无论用 DeepSeek 还有是其他年夜语言模子,不知道你留意到没,点了发送键后,还有是要等好一下子才会出成果,缘故原由就是它推理太慢了,以是于 server 端还有没解决推理慢的问题,还有没到研究是否到端侧更有效的田地。
雷峰网:您认为有损计较的下一个前沿会是甚么?
胡侠:我认为更多的是好比 2 比特能不克不及真的运用到现实中,甚么环境下能用,甚么环境下不克不及用,此刻还有不是尤其清晰。还有有就是理论研究患上跟上,此刻更可能是试验型的研究。从哲学上来说有太多可以有损之处,但详细一个体系的实现,从设计出来到末了落地哪些处所可以有损,哪些不克不及有损,这此中还有有蛮多可以做的工作。
雷峰网:您的高效推理方案是“即插即用”的还有是要针对于特定的模子甚至特定的垂直范畴数据举行分外的微调呢?
胡侠:它好就幸亏是“即插即用”的,并且实现的道理很是简朴各人都能理解,由于这些因素此刻用户许多。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。





