螞蟻集團(tuán)使用國(guó)產(chǎn)AI芯片訓(xùn)練大模型,成本可進(jìn)一步降低。
近日,螞蟻集團(tuán)Ling團(tuán)隊(duì)發(fā)表了一篇技術(shù)成果論文。論文顯示,螞蟻集團(tuán)推出了兩款不同規(guī)模的MoE大語言模型——百靈輕量版(Ling-Lite)與百靈增強(qiáng)版(Ling-Plus),前者參數(shù)規(guī)模為168億(激活參數(shù)27.5億),Plus基座模型參數(shù)規(guī)模高達(dá)2900億(激活參數(shù)288億),兩者性能均達(dá)到行業(yè)領(lǐng)先水平。
除了自研性能領(lǐng)先的大模型以外,該技術(shù)論文最大的突破在于提出了一系列創(chuàng)新方法,以提升資源受限環(huán)境下AI開發(fā)的效率與可及性。實(shí)驗(yàn)表明,其3000億參數(shù)的MoE(混合專家)大模型可在使用國(guó)產(chǎn)GPU的低性能設(shè)備上完成高效訓(xùn)練,性能與完全使用英偉達(dá)芯片、同規(guī)模的稠密模型及MoE模型相當(dāng)。
在低性能硬件上高效訓(xùn)練的自研大模型
目前,螞蟻集團(tuán)Ling團(tuán)隊(duì)的技術(shù)成果論文《每一個(gè)FLOP都至關(guān)重要:無需高級(jí)GPU即可擴(kuò)展3000億參數(shù)混合專家LING大模型》已發(fā)表在預(yù)印版Arxiv平臺(tái)上。
據(jù)技術(shù)成果論文,雖然DeepSeek、阿里通義千問、MiniMax等系列的MoE大模型在特定任務(wù)中展現(xiàn)出卓越性能,但是MoE模型的訓(xùn)練通常依賴高性能計(jì)算資源(如英偉達(dá)H100/H800等先進(jìn)GPU),高昂成本制約了在資源受限環(huán)境中的普及應(yīng)用。同時(shí),近年來英偉達(dá)高性能芯片持續(xù)短缺,相比之下,低性能加速器供應(yīng)更充足且單機(jī)成本更低。這種差異凸顯了構(gòu)建跨異構(gòu)計(jì)算單元與分布式集群無縫切換技術(shù)框架的必要性。
因此,Ling團(tuán)隊(duì)設(shè)定的目標(biāo)是“不使用高級(jí)GPU”來擴(kuò)展模型,并通過提出創(chuàng)新性的訓(xùn)練策略,旨在突破資源與預(yù)算限制實(shí)現(xiàn)高效大語言模型訓(xùn)練,從而推動(dòng)AI技術(shù)向普惠化方向發(fā)展。
具體而言,團(tuán)隊(duì)提出的創(chuàng)新策略包括:1)架構(gòu)與訓(xùn)練策略革新:動(dòng)態(tài)參數(shù)分配與混合精度調(diào)度技術(shù);2)訓(xùn)練異常處理機(jī)制升級(jí):自適應(yīng)容錯(cuò)恢復(fù)系統(tǒng)縮短中斷響應(yīng)時(shí)間;3)模型評(píng)估流程優(yōu)化:自動(dòng)化評(píng)測(cè)框架壓縮驗(yàn)證周期超50%;4)工具調(diào)用能力突破:基于知識(shí)圖譜的指令微調(diào)提升復(fù)雜任務(wù)執(zhí)行精度。
據(jù)技術(shù)論文,Ling團(tuán)隊(duì)在五種不同的硬件配置上對(duì)9萬億個(gè)token進(jìn)行Ling-Plus的預(yù)訓(xùn)練,其中使用高性能硬件配置訓(xùn)練1萬億token的預(yù)訓(xùn)練成本約為635萬元人民幣,但利用螞蟻的優(yōu)化方法后,使用低規(guī)格硬件的訓(xùn)練成本將降至508萬元左右,節(jié)省了近20%,最終實(shí)現(xiàn)與阿里通義Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相當(dāng)?shù)男阅堋?/p>
此前,DeepSeek通過一系列算法創(chuàng)新及工程優(yōu)化,使用性能較低的英偉達(dá)H800訓(xùn)練出了性能與頂尖模型相當(dāng)?shù)腣3與R1,為大模型的訓(xùn)練開辟了新的道路,讓更多的企業(yè)和研究機(jī)構(gòu)看到了降低成本、提高效率的可能性。如果螞蟻集團(tuán)的技術(shù)成果得到驗(yàn)證及推廣,意味著國(guó)產(chǎn)大模型能夠?qū)ふ页杀靖?、效率更高的?guó)產(chǎn)芯片或其他替代方案,以進(jìn)一步降低對(duì)英偉達(dá)芯片的依賴。
螞蟻持續(xù)加碼AI應(yīng)用與人形機(jī)器人
記者了解到,百靈大模型作為螞蟻集團(tuán)自研的大模型,重點(diǎn)布局在生活服務(wù)、金融服務(wù)、醫(yī)療健康等場(chǎng)景的應(yīng)用。去年5月,螞蟻在開放日上對(duì)外展示了多個(gè)AI創(chuàng)新應(yīng)用產(chǎn)品,并首次公布了AI應(yīng)用矩陣。螞蟻集團(tuán)CTO何征宇透露,基于螞蟻百靈大模型的三個(gè)應(yīng)用是螞蟻當(dāng)下重點(diǎn)破局方向:生活管家、就醫(yī)助理及金融助手。
3月21日,螞蟻宣布AI醫(yī)療領(lǐng)域的最新進(jìn)展:發(fā)布面向醫(yī)療機(jī)構(gòu)、醫(yī)生、用戶三端的AI產(chǎn)品體系升級(jí),其中,面向醫(yī)療機(jī)構(gòu),我們聯(lián)合華為醫(yī)療衛(wèi)生軍團(tuán)、阿里云、蘋果等推出“螞蟻醫(yī)療大模型一體機(jī)”全棧式解決方案;面向醫(yī)生,發(fā)布AI醫(yī)生助手系列工具;同時(shí),面向用戶的健康應(yīng)用“AI健康管家”也推出智能思考、健康自測(cè)等十余項(xiàng)新功能。
除了AI以外,螞蟻近期在人形機(jī)器人領(lǐng)域也動(dòng)作頻頻。今年2月,某招聘平臺(tái)信息顯示,螞蟻集團(tuán)開放招聘具身智能人形機(jī)器人系統(tǒng)和應(yīng)用等崗位,年薪高達(dá)百萬元。而早在去年12月,螞蟻集團(tuán)就注冊(cè)成立了上海螞蟻靈波科技有限公司,聚焦具身智能技術(shù)和產(chǎn)品研發(fā)。
據(jù)浦東發(fā)布消息,3月11日,上海螞蟻靈波科技有限公司在上海浦東舉行揭牌儀式。據(jù)介紹,螞蟻靈波科技是螞蟻集團(tuán)拓展具身智能和機(jī)器人業(yè)務(wù)的主要載體,致力在家庭、養(yǎng)老、醫(yī)療健康等領(lǐng)域打造行業(yè)領(lǐng)先的機(jī)器人產(chǎn)品,此番落地將與浦東攜手共進(jìn),在未來產(chǎn)業(yè)新賽道上相互促進(jìn)、共謀發(fā)展,助力浦東加快技術(shù)引領(lǐng)、行業(yè)集聚、產(chǎn)業(yè)升級(jí)步伐,打造以人形機(jī)器人為引領(lǐng)的具身智能創(chuàng)新高地和具有行業(yè)影響力的創(chuàng)新產(chǎn)業(yè)生態(tài)。
具身智能人形機(jī)器人作為新興領(lǐng)域,具有廣闊的市場(chǎng)前景和巨大的商業(yè)潛力。螞蟻集團(tuán)可能希望通過布局該領(lǐng)域,探索新的增長(zhǎng)點(diǎn),并推動(dòng)人機(jī)交互的新體驗(yàn)。此外,具身智能人形機(jī)器人技術(shù)還可以與螞蟻集團(tuán)現(xiàn)有的金融科技業(yè)務(wù)產(chǎn)生協(xié)同效應(yīng),共同推動(dòng)技術(shù)創(chuàng)新和業(yè)務(wù)升級(jí)。
業(yè)內(nèi)人士分析稱,具身智能人形機(jī)器人為新興領(lǐng)域,市場(chǎng)前景廣闊。螞蟻集團(tuán)布局該領(lǐng)域,有助于探索新的增長(zhǎng)點(diǎn),并基于自身在人工智能、大數(shù)據(jù)、云計(jì)算等方面的技術(shù)優(yōu)勢(shì)和已有業(yè)務(wù)布局,加速人形機(jī)器人的研發(fā)和在相關(guān)業(yè)務(wù)場(chǎng)景中的應(yīng)用。
校對(duì):彭其華
(點(diǎn)擊圖片進(jìn)入報(bào)名頁面)