米兰·(milan)中国官方网站-对话|从背景到技术储备:深入解析建“十万卡集群”的必要性
前不久,马斯克旗下的xAI122天建成十万卡集群,也让外界意想到算力集群对于AI的主要性。(雷峰网(公家号:雷峰网)雷峰网雷峰网)
以前坊间还有传播一句话:办事器集群的范围越年夜,其练习出来的人工智能体现就越精彩。
于这海浪潮之下,全世界科技巨头纷纷投入巨资设置装备摆设高机能AI计较集群,以晋升AI算法的效率及能力。google推出了其AI Platform,依托多模态天生式AI模子Gemini,年夜幅晋升了于文本、图象、音频及视频处置惩罚上的能力。微软的Azure AI Compute Cluster整合了最新AI技能,为开发者提供了从数据处置惩罚到模子练习的全方位撑持。(添加微信Who123start,解锁独家科技黑幕及行业妙闻)
作为海内最早推出年夜模子之一的baidu,也揭示出其强盛的立异能力。11月6日,于baidu智能云举办的百舸媒体沙龙,深切切磋“十万卡集群”的技能立异、实行历程和其对于AI行业的鞭策作用,并约请baidu卓异体系架构师、baiduAI计较部卖力人王雁鹏于现场做了分享及交流。
如下是媒体与三位佳宾于会上的对于谈实录,雷峰网于不转变原意的环境下做了编纂及调解:
Q:百舸的客户群是哪些?重点的行业客户是否以前有一些乐成案例可以来分享?
A:咱们的客户重要分为两类。一类是年夜模子创企,他们需要万卡范围的计较能力,于是对于快速设置装备摆设及成本节制有较高的需求。这种客户虽然数目较少,但其需求很是明确;
另外一类是典型的互联网客户,他们的需求范围凡是于千卡到5000卡之间。这些客户包括教诲行业的公司。
这些互联网客户的重要需求是使用他们年夜量的自有数据举行后期练习(Post Train),以顺应各类场景及优化,从而构建他们的数据飞轮。今朝,这些练习需求依然是咱们的重要营业,而推理需求相对于较少。这也注释了为何业界对于AI算力落地效果仍存疑虑。估计于本年或者来岁,算力需求仍将以练习为主,而推理及SFT(小范围微调)的长尾客户将会增多,但整体资源需求仍低在头部客户。
Q:百舸客户的重要需乞降痛点是甚么?咱们是怎样解决的?
A:各种客户的需求实在有许多共通的地方,咱们可以一层层来阐发。
1. 基础举措措施层面:这些客户起首需要一个强盛的收集硬件互联架构。企业于测验考试自行搭建年夜范围集群时,经常会碰到收集上的难题。咱们的使命是为他们提供更好的收集硬件互联架构,使他们可以或许乐成搭建一个年夜范围的计较集群。
2. 体系不变性:没有经验的客户于自行搭建体系时,常会碰到有用练习时间太低的问题。这些不变性问题是客户面对的第二浩劫题,咱们需要帮忙他们提高体系的靠得住性及有用练习时间。
3. 加快框架:于提供加快框架方面,咱们帮忙客户优化并行计谋,晋升机能。经由过程更好的框架,咱们能显著晋升计较速率,解决加快问题。
4. 资源使用率:客户采办年夜量资源后,需要有用使用这些资源。他们可能既有推理使命又有练习使命,最初多是为练习使命采办资源,但随后也需要使用这些资源举行推理。咱们经由过程使命混淆部署,晋升资源使用率,确保资源可以或许被高效使用。
Q:您适才花很年夜篇幅讲跨地区收集问题,可否举例申明现实效果?
A: 跨收集问题重要触及两个方面:一是当举行十万卡范围的部署时,确凿需要跨地区的撑持;二是咱们云办事的能力。举例来讲,咱们可以于云上两个机房同时部署计较使命,但客户于利用时彻底感知不赴任异。例如,纵然客户利用的是5000卡的范围,咱们于差别所在分配资源,但利用体验依然一致,这是咱们的一年夜上风。
Q:面临差别客户需求,如1000到5000卡的范围,怎样确保使命级另外混淆调理的效率晋升?
A: 混淆调理咱们已经经做了很多事情,本色上是经由过程混淆集群实现差别特性的事情负载的混淆。
例如,推理使命有波峰波谷,波峰时利用的资源更多,波谷时利用较少;而练习使命则需要固定命量的计较卡(如1000卡),假如资源不足,好比仅有990卡,使命将没法运行。
为相识决这些问题,咱们提供了一个很是矫捷的行列步队机制,将营业视为虚拟行列步队,并配置优先级计谋。这些行列步队按照现实环境动态调解资源分配,当资源再也不需要时,可以被其他行列步队的使命抢占,从而提高资源使用率。此外,咱们的框架可以或许主动从头分配并行计谋。例如,一个需要1000卡的使命,于资源不足时(如仅有900卡),可以或许调解并行计谋以继承运行,从而确保使命的持续性及有用性。
Q: 请具体聊一下Checkpoint环节,各人有差别的计谋,可能有些效果更好,有些则影响练习有用时间及成本,咱们于这方面是怎么做的?
A: 本来的Checkpoint计谋是隔一段时间创立一个Checkpoint,于妨碍发生后恢复。可是,这类要领的错误谬误是,假如每一小时创立一次Checkpoint,呈现妨碍时凡是会华侈一半的时间,即30分钟。是以,咱们但愿Checkpoint越密集越好,但这也带来新的问题。
最初的Checkpoint计谋需要住手练习,将数据写入存储,这会泯灭年夜量时间,由于存储带宽有限。其时停下来写Checkpoint需要几分钟,这显然没法接管,特别于Checkpoint频仍时。
第一阶段:改良为异步Checkpoint,练习历程不中止,先将数据复制到内存,然后异步写入存储。如许可以缩短Checkpoint时间,从本来的两小时一次缩短到每一30分钟一次。但依然存于瓶颈,如存储带宽限定。
第二阶段:引入触发式Checkpoint。于正常环境下不创立Checkpoint,只有于妨碍发生时才创立。许多GPU妨碍不会致使数据丢掉,可以于妨碍点恢复数据并存储。这类要领于年夜大都环境下有用(95%以上),仅于传统Checkpoint保留的环境下无回退及华侈。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。





