半導(dǎo)體

壁仞科技聯(lián)合中國(guó)電信等合作伙伴共同發(fā)布智算異構(gòu)四芯混訓(xùn)解決方案

ainet.cn   2025年01月09日

12月3日-5日,中國(guó)電信在廣州舉辦“2024數(shù)字科技生態(tài)大會(huì)”,本屆大會(huì)以“AI賦能 共筑數(shù)字新生態(tài)”為主題,在“科技創(chuàng)新合作論壇”上,壁仞科技聯(lián)合中國(guó)電信研究院、江蘇電信、中興通訊、上海人工智能實(shí)驗(yàn)室等發(fā)布了“智算異構(gòu)四芯混訓(xùn)解決方案”,打造算力、網(wǎng)絡(luò)、平臺(tái)、通信庫(kù)、框架全棧異構(gòu)方案,實(shí)現(xiàn)異構(gòu)算力的互聯(lián)互通、互調(diào)互算,基于壁仞科技、英偉達(dá)等GPU完成四款異構(gòu)芯片混合訓(xùn)練同一個(gè)大模型的測(cè)試驗(yàn)證,突破大模型算力孤島難題,引領(lǐng)業(yè)界異構(gòu)混訓(xùn)技術(shù)發(fā)展趨勢(shì)。

發(fā)布儀式現(xiàn)場(chǎng) 

面對(duì)高端算力供應(yīng)緊張、國(guó)產(chǎn)芯片百花齊放、智算中心擴(kuò)容混建等導(dǎo)致的異構(gòu)算力孤島問(wèn)題,壁仞科技聯(lián)合中國(guó)電信等共同打造異構(gòu)多芯混池訓(xùn)練解決方案,開創(chuàng)算力使用新模式,緩解因不同芯片體系架構(gòu)及軟件生態(tài)存在較大差異性,導(dǎo)致異構(gòu)算力聚合困難,無(wú)法實(shí)現(xiàn)“超大算力”統(tǒng)一供給的挑戰(zhàn)。異構(gòu)多芯混合訓(xùn)練主要面臨異構(gòu)網(wǎng)絡(luò)易擁塞、異構(gòu)芯片互聯(lián)互通難、異構(gòu)芯片混訓(xùn)木桶效應(yīng)等三大挑戰(zhàn)。

異構(gòu)多芯混訓(xùn)解決方案,實(shí)現(xiàn)了統(tǒng)一RDMA網(wǎng)絡(luò)擁塞控制、統(tǒng)一異構(gòu)集合通信庫(kù)、統(tǒng)一異構(gòu)訓(xùn)練框架。針對(duì)異構(gòu)網(wǎng)絡(luò)易擁塞問(wèn)題,構(gòu)建統(tǒng)一RDMA網(wǎng)絡(luò)擁塞控制機(jī)制,支持RDMA多鏈路異構(gòu)端網(wǎng)協(xié)同擁塞控制,跨異構(gòu)芯片并行通信性能相比通用流量調(diào)度提升30%;針對(duì)異構(gòu)芯片互聯(lián)互通難問(wèn)題,構(gòu)建統(tǒng)一異構(gòu)集合通信庫(kù),屏蔽底層異構(gòu)芯片差異,業(yè)界首次通過(guò)GDR(GPUDirect RDMA)實(shí)現(xiàn)高速低延時(shí)異構(gòu)通信,異構(gòu)通信效率大于98%;針對(duì)異構(gòu)芯片混訓(xùn)木桶效應(yīng)問(wèn)題,構(gòu)建統(tǒng)一異構(gòu)混合訓(xùn)練框架,通過(guò)異構(gòu)芯片算力感知進(jìn)行非均勻拆分優(yōu)化,支持國(guó)際主流模型LLaMA-2、中國(guó)電信自研TeleChat等大模型,四芯混訓(xùn)效率可達(dá)同構(gòu)訓(xùn)練效率的95%,實(shí)現(xiàn)異構(gòu)算力芯片高效互聯(lián)互通及算力聚合。

此前壁仞科技的壁礪™系列通用GPU算力產(chǎn)品已經(jīng)在中國(guó)電信落地千卡集群并開展商業(yè)化落地應(yīng)用,另外在中國(guó)電信集團(tuán)新一輪國(guó)產(chǎn)化GPU集采項(xiàng)目中,壁仞科技的主流GPU產(chǎn)品已經(jīng)納入中國(guó)電信的集采名錄,成為中國(guó)電信的主要GPU供應(yīng)商。國(guó)產(chǎn)GPU加快落地的過(guò)程中正在在逐步擴(kuò)大算力規(guī)模,為破解這一過(guò)程中的“大模型算力孤島”難題,壁仞科技一直在積極開展異構(gòu)GPU協(xié)同訓(xùn)練技術(shù)攻關(guān),在2024年9月發(fā)布的自主原創(chuàng)異構(gòu)GPU協(xié)同訓(xùn)練方案HGCT中,已率先支持3種及以上異構(gòu)GPU混合訓(xùn)練同一個(gè)大模型,用一套統(tǒng)一方案支持多種不同廠商、不同型號(hào)的GPU,而且一行代碼適配多種框架。

此次,壁仞科技攜手中國(guó)電信等合作伙伴取得新的突破,完成異構(gòu)四芯混訓(xùn)測(cè)試驗(yàn)證,共同打造異構(gòu)算力生態(tài),借助中國(guó)電信“大息壤”平臺(tái)算網(wǎng)一體化調(diào)度核心能力及中國(guó)電信智算拉遠(yuǎn)方案,突破單集群異構(gòu)限制,整合國(guó)產(chǎn)芯片擴(kuò)大單一算力池規(guī)模,形成更大規(guī)模算力能力,提升大模型能力上限,推動(dòng)國(guó)產(chǎn)GPU產(chǎn)業(yè)和大模型產(chǎn)業(yè)發(fā)展與繁榮。

(來(lái)源壁仞科技Birentech)

標(biāo)簽:壁仞科技 我要反饋 
泰科電子ECK、ECP系列高壓直流接觸器白皮書下載
優(yōu)傲機(jī)器人下載中心
億萬(wàn)克
專題報(bào)道
加入全球AI浪潮第一現(xiàn)場(chǎng)
加入全球AI浪潮第一現(xiàn)場(chǎng)

2025世界人工智能大會(huì)暨人工智能全球治理高級(jí)別會(huì)議將于7月26日至28日在上海世博中心和世博展覽館舉辦,本屆大會(huì)主題為... [更多]

聚力同行 · 新智“碳”索
聚力同行 · 新智“碳”索

“新華社-智能·零碳”項(xiàng)目策劃以“聚力同行·新智‘碳’索”為主題的新能源專題,主要圍繞光伏、儲(chǔ)能、鋰電、氫能、風(fēng)能五大新... [更多]

2025中國(guó)國(guó)際機(jī)床展覽會(huì)
2025中國(guó)國(guó)際機(jī)床展覽會(huì)

4月21至26日,以“融合創(chuàng)新,數(shù)智未來(lái)”為主題的第十九屆中國(guó)國(guó)際機(jī)床展覽會(huì)在首都國(guó)際會(huì)展中心盛大舉辦。憑借場(chǎng)館的卓越服... [更多]