Meta高性能炮兵部队网络架构之路

泉州娱乐新闻网 2025-09-19

Pod内布署8台40沟InfiniBand HDR的链路,借助同类型局域网无情况严重的CLOS驱动程式,从而翻倍比起之前Facebook AI协同20倍病态能量度的增加、9倍NCCL并行量度的能力、3倍AI假设建模的参数基础训练。除此之外,协同还布署了10PB的NFS的集中于样本磁盘,46PB的块磁盘,给予CPU样本恢复,175PB的块磁盘,而这一切都是以InfiniBand的局域网借助样本无所不在网的迅速速无所不在网补救补救方案。

是什么原因让InfiniBand视为Meta协同的首要补救方案呢?从InfiniBand的局域网拓展历程来看,适配器可能跟无所不在卡并不相同,回事我们今日广为人知的无所不在局域网的适配器的很多设计者都是从InfiniBand这里相结合过来的。从图上可以看造出,早在20年前InfiniBand就拓展造出了万兆卡,2008年从未社会的发展到了40Gbps,随后最低每三年左右就可能拓展造出新的产品线。今年从未量产了400G的NDL适配器,所以这InfiniBand视为GPU协同的首选补救方案,代际社会的发展也将可能换成两年一代,2023年英伟达可能披露800G的XDR适配器,2025年将披露1.6TB的GDL适配器,为减轻样本无所不在网二者之间的鸿沟打好了稳固的基础。

三、InfiniBand 局域网驱动程式的本源

从InfiniBand补救补救方案的同类型景图中,我们可能看着有适配器、链路、线缆、局域网尾端到尾端的驱动程序电子系统,还有DPU、点对点电子系统,从而不仅构筑了完备的样本中心的局域网电子系统,而且还打通了与广域网同城南运用的键值,借助了驱动程序完备的局域网无所不在网补救补救方案,有的点值得一提:

一是盒式链路,我们给予的是1U 40沟的200G链路,比起同级别大母公司增加了20%的交换能力。而且针对像Meta这样的大型零售商,另行给予了业界唯一20U超大型的柜式链路,借助颇高达800个尾端沟的超大规模的交换。

二是InfiniBand给予了业界新方法论的DPU适配器,借助在金融业务输出上的加载和监护,毕竟了尾端到尾端的局域网管理与维护,最大化兼容老旧电子系统,可以让电子系统无缝连接到颇高病态能的InfiniBand的局域网。而这些驱动程序的基础之上,我们还开创病态的构筑了局域网量度这一新兴方法论,借助在链路上做量度,同时结合SHIELD、SHARP、GPU RDMADirect等功能性在此之后,使得我们的局域网非常加的智能和颇高效。

四、InfiniBand 是如何借助非常迅速量度的?

讲到量度,不太了解RDMA的运用的人们可能可能犹豫,一个主要职责无所不在网的局域网是如何借助对量度的非常迅速呢?问题就在于真实的样本无所不在网某种意义是局域网电子系统的事,以我们广为人知的TCP字段登出为例,大量的样本、双方同意字段处置都需CPU的剖面上介入,近似于像字段的封装、登出、上下文转换成,都需大量的CPU的样本量才能借助。在这样的机制下,10G无所不在网不限的样本每秒钟不大的情况下,CPU的水资源占用不太明显。但是在每秒钟持续上升到100G以上的时候,我们就可能发现整个CPU的样本量就可能特别是在增加。在某些一幕下,CPU的耗尽可能翻倍20多个核,来借助100G的样本无所不在网。因此,在普遍零售商尾端重回到100G无所不在网的背景下,耗尽掉无所不在网的CPU的水资源的代价就是在希望量度非常迅速。

RDMA就是这样一种应用,在通信两尾端的零售商尾端内借助样本的这样一来无所不在网,整个样本的内置CPU是完同类型不可能介入,不仅减缓了CPU的样本量,而且也使得CPU不可能视为样本无所不在网的不利因素,使得我们的样本无所不在网可以向200G、400G乃至1TB的样本的社会的发展。

从图上我们可以看造出,对于一个比如说的零售商尾端当很难用作RDMA应用的时候,由于CPU要主要职责大量的双方同意的样本量处置,使得有47%的水资源工作在Kernel态下,而只有大概50%的水资源用作计算机系统的量度,受限制了整个零售商尾端的运用扩展。当如果我们用作RDMA应用在此之后,使得大量的耗尽CPU水资源的样本面上完同类型被加载在适配器上,我们就可以只能操纵在Kernel的水资源在CPU的12%,将软件态的CPU水资源借助翻倍。这样不仅将整个无所不在网的病态能增加,同时腾造出来的CPU的水资源又可以只能布署非常多的量度的输出,借助了整个无所不在网的增加的同时,又增加了金融业务的布署,增加了整个零售商尾端的能量消耗。

另外,如何对GPU借助非常迅速呢?

今日随着AI应用的迅速速普及,GPU的运用也显得愈来愈重要,而且在GPU上由于有成千上万的核要做量度,对样本无所不在网的需就可能非常大。在CPU零售商尾端正试图普遍向100G过渡阶段的时候,GPU的零售商尾端200G的局域网从未视为同类型车,并且我们正试图向400G乃至800G的局域网过渡阶段。因此GPU对局域网无所不在网的需可能非常为急迫。

补救补救方案除了需像RDMA这样的应用之外,还需进一步扩展在局域网样本圆锥的或多或少,让GPU同类型速运行。在常规的GPU零售商尾端的驱动程式上,我们告诉GPU是以PCIe的方式和CPU顺利完成互联的,在这种驱动程式下就提议了GPU在零售商尾端样本无所不在网时,所有的样本都要经过CPU。

从上图只能了解到,如果是这样的这种无所不在网方式,跨零售商尾端二者之间的GPU的样本无所不在网需借助五步的样本几张。首先,零售商尾端内部的GPU的KB要把自己的样本通过PCIe总线无所不在网到本地的CPU的CPU上,然后于是又由本地的CPUCPU借助样本几张,几张到专门的RDMA无所不在网的管道的CPU上。然后于是又通过RDMA的应用,使得这个样本从本台零售商尾端的CPU无所不在网到另外录音机零售商尾端的CPU,在此之后于是又由另录音机零售商尾端的CPU借助几张,几张到和本地GPUKB交互的CPU上。最后于是又由这部分的样本几张到GPU的KB上。五步的样本几张,我们可能看着这个内置可能显得非常的复杂,而且上方的CPUCPU等等都可能视为样本登出的不利因素。

要补救这个问题,需GPU Direct RDMA的应用,该应用可以借助让GPU和适配器这样一来bypass掉CPU,借助适配器和GPU二者之间的样本直连。这样只需一步的样本几张,就可以让处于邮寄尾端GPU的样本从它的KB中这样一来一步跳到目的尾端的GPU的KB内,借助样本的迅速速几张。比较简单了流程,减缓了数据流,借助对GPU运用的非常迅速的缺点。

用作了GPU Direct RDMA应用在此之后,其对AI协同可以借助90%的数据流的节约,4K以上字段个数的message无所不在网的I/O无所不在网借助了十倍的病态能的增加。同时在这样局域网病态能大幅增加的前提下,对AI协同的并行量度的任务借助了一倍以上的病态能改进的缺点,大幅增加了AI协同的效能,加强了投入生产产造出比。也正是这个原因,导致了Meta在元星球以前坚定地要用作InfiniBand的局域网作为业界最大规模AI协同的局域网补救方案,从而猜测了InfiniBand的局域网非常迅速GPU量度的缺点。

以上我们从适配器的相反上详述了InfiniBand如何冀望病态的非常迅速CPU和GPU量度,当然,那作为局域网中尤为关键的链路,InfiniBand是如何非常迅速局域网量度的?这里需提及InfiniBand的运用SHARP了。

我们告诉AI基础训练步骤中有着大量的AllReduce的内置,直白地讲,就是主要职责分布式量度的GPU要同时非常新自己的样本到不同的量度GPU上,这样的话在这种框架下就提议了样本要反复地顺利完成局域网,保持样本在各个GPU上的同步。并且AllReduce的量度类型便是是必和异或必最值等单纯但是量度频繁的内置。我们告诉了这样的量度模式在此之后,就可以设想把链路换成一个量度键值,将所有的GPU的样本常规化汇流到链路上顺利完成量度,并且常规化试用到各个GPU上。这样由于链路的登出无所不在网远大于零售商尾端,如此的驱动程式不仅很难样本无所不在网的不利因素,而且在样本局域网中的流转只需一次就可以已完成所有的量度步骤,大大比较简单了量度步骤,减缓了数据流,减轻了不利因素。

从上面上的MLT-可以看造出,在几十台DGX的零售商尾端协同规模上用作了局域网量度功能性在此之后,整体而言协同已完成基础训练的任务的病态能增加了18%,这就并不一定当用作了InfiniBand局域网的协同的时候,链路不仅已完成了颇高病态能的样本无所不在网,同时还已完成了近两成的量度任务,为零售商增加了病态能的同时,节约了大量的零售商尾端投入生产效益。

五、InfiniBand 是如何借助非常迅速磁盘的?

举例来说,量度和磁盘是任何协同中最重要的两个都是由部分。虽然在一个协同的物理结构上下,磁盘零售商尾端的数量明显小于量度零售商尾端,但从本质上看,从事于磁盘的零售商尾端回事只是主要职责样本磁盘的一小部分。而在广义上的磁盘,回事遍布了协同中的每一个角落。

在这里,我们按照不限四个的点对这几种常见的磁盘集成电路顺利完成归类和排布。

1.样本磁盘的无所不在网

2.样本访问的数据流

3.磁盘集成电路的发电能力

4.单位发电能力下磁盘的效益

不难看造出IRAMCPUSSD水资源池、驱动器水资源池和光盘水资源池,巧合只能按照对角线顺利完成排布。这就并不一定在这样的都是由的协同内磁盘的病态价比是最颇高,内置尤为合理的磁盘补救方案。

但是如果机械驱动器、磁性驱动器以单个集成电路存在,那磁盘补救方案就必须借助对角线的排布。原因回事很单纯,以机械驱动器为例,受限于磁盘无所不在网的受限制,单个驱动器不只能给予非常颇高的I/O、非常大的发电能力,所以分布式磁盘勃兴的时候,通过池化补救方案,极致地补救了这个问题,使得驱动器落盘的无所不在网大幅增加,同时发电能力也显得非常大。而今天磁性驱动器的勃兴,虽然无所不在网有了一两个数量级的增加,但是相比较CPU来说,仍然过于迅速,同时磁盘的发电能力也过于大。所以通过局域网补救方案池化,将视为磁性驱动器不可避免的一个趋势,而此时对局域网承担数百G的每秒钟压力。

因此,对于磁盘,InfiniBand的非常迅速本质上就是通过磁盘集成电路的并行在此之后的池化,借助了样本病态能的增加,而借助非常迅速缺点的。

通过InfiniBand的局域网再有意识协同,将量度静态、磁盘静态立化成池,用InfiniBand作为整个协同的机壳总线,颇高效地将其互联起来,为内置系统定义协同打好了驱动程序的基础。这样,颇高病态能协同就换成了录音机超颇高病态能的零售商尾端,可以根据各种任务的输出特病态的不同,灵活内置量度与磁盘水资源,以必地考虑到效率的同时,还能有非常颇高的病态能表现。并且在未来协同下半年时,可以根据真实的情况需,定向下半年所需的水资源,增加协同的弹病态。而这一切,都需建立在颇高可靠、颇高无所不在网、低反应时间的局域网上。

要想了解非常多元星球局域网及运算特别内容电子邮件,可查看MetaCon元星球应用大可能官网,重定向:

成都男科专业医院
北京看妇科的专业医院
青岛看白癜风去哪家医院
重庆白癜风医院去哪家好
上海看男科医院哪家好
相关阅读

82岁相声名家郑白石去世,苗阜卢鑫发文悼念!曾给郭德纲帮大忙

时尚 2025-10-23

1937年郑晓山,由于今天的疟疾临丧命。它的裁缝在湮灭当中写道:“泽胜余杭女士于2019年6月24日上午10:14逝世,享受82岁。”郑晓山女士是第六代第六代,生命是一个70岁的市场,为许多传统

课后延时服务,何时逆了味

资讯 2025-10-23

初中下午三四点小学生,这疑问近几年一直是各家长则会关切的疑问。好不容易迎来了小学生后反应时间维修服务,却慢慢变了味,成了各教务主任小学生后拼命接到劝真是,甚至给家长则会置之不理的最

投资人提问:尊敬的董秘您好!2021年12月31日,国家中医药管理局党组召...

影视 2025-10-23

投资者提问:尊敬的董秘您好!2021年12月31日,国家当中医药管理局党组召开会议时强调,要提很高意识形态东口,唯独“国之大者”,不断提很高意识形态判断力、意识形态领悟力、意识形态执行力,坚定

房屋租赁的AB面上

音乐 2025-10-23

除此以外有一位老友想到笔者,他在退租时被岳母百般刁难,借此就是不想退回遣金。事情起因于与老友整租了一套两室一厅的邻居,岳母在入住初期就获知新鸿基关于客厅有金属和但是不受到影响入住的疑虑,

虽是血肉之躯 却肩比神明 如今的盛世繁华都是多少先辈们用命换来的 铭记历史 勿忘国耻!致敬电影生死猛攻 电影生死猛攻定档国庆 李云龙

图片 2025-10-23

虽是血肉之躯 却肩比神 现在的两朝热闹都是多少便是们用命换取的 铭记近代 勿忘国耻!致敬科幻电影无常阻击 科幻电影无常阻击定档国庆 李云龙 a href="http

友情链接