锐捷网络AIGC网络方案深度解读EBET易博app

  新闻资讯     |      2023-09-26 01:54

  2022年底ChatGPT的突然爆火,点燃了全球AIGC的应用热潮,生成式AI技术正在帮助各类应用持续进行产业升级。在这些百花齐放的业态背后,离不开大语言训练模型的技术赋能。

  随着大语言模型的发展迭代,所有参数都在不断扩增。以GPT模型为例,不管是上下文长度、层数、头数以及模型的参数量,包括训练数据的规模都在不断提升,尤其是模型的参数量提升比例非常大。据相关信息爆料GPT-4的模型参数量可以达到1万亿,是GPT-3的十多倍,这个模型参数量非常巨大。

  随着大模型参数量的提升,对算力的消耗也在显著增加。大模型训练对于算力的需求也符合类似“摩尔定律”的特征,从每3~4个月算力消耗翻倍到每2个月算力消耗翻倍。随着模型迭代速度越来越快,对算力的需求也愈发紧迫。算力一般指一颗GPU芯片的峰值算力,GPU利用率指的是一次迭代过程中,GPU的有效使用率。那么可以理解不断提升GPU利用率接近100%,才能达到GPU芯片本身的性能峰值,实现物尽其用。

  GPU通信分成两个关键部分,分别是机内通信和机间通信。以GPT-3训练模型为例,我们做了理论建模并分析了1K和12K规模下A800和H800两种GPU卡不同机内互联带宽对GPU利用率的影响。如图所示,随着机内互联带宽的提升,GPU利用率在持续增加,相对的训练完成时间也在逐渐缩短,因此机内互联带宽是提升GPU利用率的关键指标之一。

  但从图上也不难看出,机内互联带宽对GPU利用率的影响趋势在逐渐变缓,单靠这种手段对GPU利用率的提升也存在一定限度。

  随着大模型训练的参数量逐步增大,MoE(Mixture of Experts,混合专家系统)被引入以扩大参数量。MoE是在神经网络领域发展起来的一种集成学习(Ensemble Learning) 技术。传统的深度学习模型在训练时,对于每个输入样本,整个网络都会参与计算。随着模型越来越大,训练使用的样本数据越来越多,训练的开销越来越难以承受。而MoE可以动态激活部分神经网络,将专家分布到不同的机器上并通过机间All to All通信进行数据交互,实现在不明显增加计算量的前提下大幅度增加模型参数量。机间All to All通信是依靠交换机转发进行传输的,因此网络通信对GPU利用率的影响越发明显。

  从GPT-4模型的理论分析中,我们也可以得到这个结论:GPT-4与GPT-3最关键的差异就是把 MLP 层扩展到 16 个MoE 的专家层,因此实现了参数量的10倍增长。

  从下表中可以看到GPT-4扩展MoE引入了大量的All to all通信,使机内和机间通信的比例几乎达到了1:1,因此机间通信对GPU利用率的影响同样重要。

  由于GPU-4没有公开数据,因此我们在GPT-3模型基础上尝试引入MoE并对训练数据进行分析。如图所示,网络接入带宽从200G升到400G翻一倍,GPU利用率提升近5%。带宽利用率从 70%升到80%,GPU利用率提升了2%。因此,网络接入带宽以及网络中的带宽利用率对GPU利用率影响较大。

  以上是对GPT-3引入MoE模型后的理论分析。那么对于GPT-4来说,本身模型参数量就是GPT-3的十多倍,且扩展了16个MoE专家层,引入了大量的机间all to all的流量,所以会大幅增加机间通信的数据量,机内和机间通信量占比几乎达到1: 1。机间通信占比越高,网络的重要性就越大。所以从理论分析,在GPT-4模型中,网络接入带宽和网络中的带宽利用率对GPU利用率的影响会比GPT-3大很多倍。

  从大模型发展趋势上来看,多元化的行业应用背后是多样化的大模型在提供技术基础,行业应用对大模型训练也提出了更高的需求,即需要更多的训练参数量及更高的算力。而日益扩增的模型参数量需要更大规模的训练集群来承载,随着类似MoE训练方式的应用,机间网络通信的重要性愈发明显,机间网络通信在总体通信中的占比也在持续提升。

  AIGC智算中心的网络整体框架包括了算力网络,存储网络,通用计算网络,带外管理网络以及DCN核心区域网络。随着大模型训练对于算力需求的不断提升,GPU算力网络越发重要。聚焦算力网络,能支撑更大规模的训练集群的大规模智算中心网络是基础,规模之上是两个关键的性能指标:网络接入带宽越大越好;带宽利用率越高越好。这三点构成了AIGC业务对智算中心网络建设的核心需求。

  针对以上三点诉求,锐捷网络301165)推出AIGC智算中心网络方案,囊括高性能以太网络解决方案以及AI-Fabric智算中心网络解决方案。

  针对万卡以上集群规模的建设需求,高性能以太网络解决方案将整体网络分为三个层级,服务器采用多轨组网的接入方式,让GPU服务器内8块GPU卡对应的8张网卡连到8个Server Pod中的Tor设备上,实现同号卡在同一台Tor上通信。为了确保网络高速转发,各层级按照1: 1的收敛比做设计。Tor与leaf设备的端口分配均为64口上行,64口下行。对于Spine平面,128口全做下行用于Server Pod中的设备互联。基于这样的端口规划,整体网络规模可以做到64个平面,8个 Server Pod,服务器侧覆盖64个Server block。整体GPU卡的接入规模就可以做到32768块。

  为了匹配下一代的网卡(如CX7的单口400G以及双口200G的接入需求),锐捷网络发布的RG-S6980-64QC数据中心交换机可以同时应用在TOR、Leaf、Spine三个层级,该设备已经批量交付了很多互联网的客户。此外,为了提升端口接入能力,锐捷网络还开发了下一代数据中心核心交换机,具备128口400G的接入能力。这一代的产品升级到了112G的Serdes,同时也具备更强大的芯片功能,支Connective routing等新特性,能更好地解决拥塞丢包以及负载均衡的问题。

  高性能以太网络解决方案从架构规划、部署实施以及运维优化三个层面进行带宽利用率的提升。

  从架构规划来看,采用多轨网络的接入方式来匹配流量模型,设计各层级 1:1 的低收敛比来优化机间通信,并通过端网协同、在网计算等技术来规划整体的网络。

  在部署实施阶段,目前更多业务还是会部署RDMA应用,为了确保业务的吞吐效率,网络需要实现无损转发,类似PFC、ECN、QoS 等水线的调优就显得尤为重要,另外对于网络中负载的均衡性也需要考虑模式和算法的优化。

  最后考虑运维方面,在网络部署后的运行当中,方案实时关注网络关键指标的监控,以及对丢包重传等周期性事件的订阅和告警上报,并且结合智能运维平台去做流控水线的动态调优,来保证网络宽用率更大化。

  毋庸置疑,高性能以太网络解决方案是性价比高的选择。如果客户追求良好的无损机制和负载均衡,锐捷网络还推出了AI-Fabric智算中心网络解决方案。

  从规模上来看,方案采用三级组网(如图),可支持17k到32k个400G的端口。锐捷网络在国内首发了400G的NCP和NCF设备,以支持AIGC网络的大接入带宽。NCP设备RG-S6930-18QC40F1,支持18口400G的业务口,并支持40口200G的Fabric内联口,用于和NCP之间的互联。NCF设备RG-X56-96F1,支持96口200G的Fabric内联口。

  AI-Fabric智算中心网络解决方案运用了三个关键技术,来提升带宽利用率:

  1.基于AI fabric的架构设计,NCP层面采用1. 1 : 1的超速比缓解网络中Incast的问题规避拥塞,基于Cell的高效路由可以加速互联链路的故障收敛时间,不需要部署复杂低效的BGP路由。

  2.基于Cell的切片技术,优化链路的负载均衡效果提升网络带宽利用率,缩短业务的流完成时间FCT 。

  3.基于VoQ缓存和Credit的拥塞控制机制实现Fabric网络中的数据无损转发,彻底解决丢包重传的问题确保业务持续高吞吐地转发,进而来提升整个算力集群的GPU利用率。

  在全球互联网流量不断增长和数据应用需求日益多样化的背景下,锐捷网络致力于推动网络技术的进步和发展,AIGC智算中心网络整体方案的推出正是其不断探索和创新的有力证明。通过持续的技术研发和产品创新,锐捷网络将继续为全球的数据中心提供更加高效、可靠、智能的网络解决方案,在AIGC时代,助力互联网企业及各行各业的快速发展。

  惠誉评级将信用挂钩票据(CLN)的11个评级从“AAAsf”下调至“AA+”

  已有324家主力机构披露2023-06-30报告期持股数据,持仓量总计1803.35万股,占流通A股29.35%

  近期的平均成本为44.62元。空头行情EBET易博真人平台中,目前正处于反弹阶段,投资者可适当关注。该股资金方面受到市场关注,多方势头较强。该公司运营状况良好,多数机构认为该股长期投资价值较高。

  限售解禁:解禁5亿股(预计值),占总股本比例88.00%,股份类型:首发原股东限售股份。(本次数据根据公告推理而来,实际情况以上市公司公告为准)

  限售解禁:解禁673.9万股(预计值),占总股本比例1.19%,股份类型:首发战略配售股份。(本次数据根据公告推理而来,实际情况以上市公司公告为准)

  投资者关系关于同花顺软件下载法律声明运营许可联系我们友情链接招聘英才用户体验计划

  不良信息举报电话举报邮箱:增值电信业务经营许可证:B2-20090237