日韩人妻av一区二区-精品国产综合区久久久久久蜜臀-色女激情五月激情五月-99热国产这里只有的精品

DeepSeek V3爆火背后:“AI界拼多多”能否復制?
來源:界面新聞作者:伍洋宇 李彪2025-01-06 15:45

2024年底,DeepSeek(深度求索)再次憑借模型性能在行業(yè)中掀起一個小高潮。

這家獨立于大模型“六小虎”格局之外、不容行業(yè)所忽視的公司,發(fā)布了新一代MoE模型DeepSeek-V3首個版本并同步開源。V3擁有6710億參數,其中激活參數為370億,在14.8萬億token上進行了預訓練。

從DeepSeek公開披露的信息來看,在知識類任務(MMLU, MMLU-Pro, GPQA, SimpleQA)上,V3接近當前表現最好的Claude-3.5-Sonnet-1022,在代碼能力上同樣稍好于后者,而在數學能力上,V3已明顯領先其他開閉源模型,包括Qwen2.5 72B-Inst,LIama3.1 405B-Inst,GPT-4o 0513。

這已經是一個足夠好的開源模型,但真正讓其受到大量關注的,是DeepSeek在技術論文中表示,DeepSeek-V3模型總訓練成本為557.6萬美元,完整訓練消耗了278.8萬個GPU小時,幾乎是同等性能水平模型訓練所需十分之一。這讓它在海內外再度爆火。

事實上,大模型在2024年第一場API價格戰(zhàn)正是由DeepSeek開啟。彼時,其“MoE架構+MLA(Multi-head Latent Attention)技術”在降低大模型使用成本上發(fā)揮了重要作用。如今看來,這項創(chuàng)新在DeepSeek手中完成了穩(wěn)定延續(xù)。

至此,同行業(yè)的大模型廠商更需審慎對待這家作風低調、輸出穩(wěn)定的公司,不知何時,它就會發(fā)起一場商業(yè)奇襲。

“AI拼多多”模式能否復制

根據海外調研機構SemiAnalysis的數據,OpenAI GPT-4訓練成本高達6300萬美元,而DeepSeek-V3只有前者十分之一不到。這讓行業(yè)首先開始思考這種低成本模式是否可復制。

自從英偉達高端GPU顯卡在中國大陸遭禁后,算力不足始終是擺在國內AI公司面前的一大難題。

相比于國外微軟、Meta、特斯拉等科技巨頭動輒購入10萬張英偉達顯卡搭建算力中心訓練AI模型,國內擁有1萬張以上顯卡的公司屈指可數。DeepSeek背后的開發(fā)公司幻方就是其中之一,2023年在接受36氪專訪時,幻方創(chuàng)始人梁文鋒稱“公司已囤有1萬張英偉達A100顯卡”。

而DeepSeek-V3此次的特別之處在于僅用少量卡就完成了模型訓練。

據官方論文介紹,DeepSeek-V3訓練使用了2048張英偉達H800 GPU(注:H800GPU為H100 GPU被禁后面向中國大陸推出的特供版,性能約為其一半),這些GPU通過英偉達高速互聯網絡NVLink和InfiniBand連接搭建成AI算力集群。

作為性能對標模型,Meta旗下的開源模型Llama-3.1(模型參數量與訓練數據大致相當)則動用了超過16000張英偉達H100GPU,業(yè)內估計訓練成本高達數億美元。

Meta AI科學家田淵棟在X(原推特)平臺上盛贊DeepSeek V3的低成本訓練方法是“黑科技”。特斯拉前人工智能和自動駕駛視覺總監(jiān)、著名AI研究學者Andrej Karpathy轉發(fā)了DeepSeek的論文,并評價說“如果DeepSeek V3能夠通過各項評估,就證明了在資源有限的情況下,開發(fā)出性能強大的大語言模型是有可能的”。

目前,降低AI模型開發(fā)成本已經是最重要的行業(yè)趨勢之一。過去一年,OpenAI仍然未發(fā)布行業(yè)期待已久的下一代模型GPT-5,而是發(fā)布了GPT-4o、4o mini等一系列低成本的輕量化模型。山姆·奧特曼(SamAltman)也表示,部署和維護高級AI模型造成了OpenAI的運營成本不斷上升,無論是出于公司持續(xù)運營的需要,還是實現AI人人可用的目標,都需要進一步降低成本。

而對于國內來說,先進算力受限國內AI公司必須直面的現實。

從2023年開始,國內掀起了智算中心的基建熱潮。但由于當前國產GPU在單卡性能不足,與英偉達產品相比至少存在1至2代的差距,國內建設智算中心時需要通過堆更多的GPU來實現所需的算力,這不僅加大了建設難度,又進一步拉高了成本。一位參與過國產智算中心建設的AI公司負責人曾告訴記者,目前真正有能力建設萬卡智算中心的廠商寥寥無幾,國內算力建設的首要目標仍然增加供給,保障“能用”。

如何在算力受限的情況下降低模型成本,DeepSeek的“AI拼多多”模式給行業(yè)提供了一種可能。

根據DeepSeek開發(fā)團隊介紹,V3模型采用了模型壓縮、專家并行訓練、FP8混合精度訓練等一系列創(chuàng)新技術降低成本。這些技術對于行業(yè)探索一條低成本的訓練模式具有借鑒意義,但要復制并不容易。

國內一家AI芯片公司創(chuàng)始人告訴記者,DeepSeek這次用到的FP8訓練技術是一個亮點。FP8是一種使用8位浮點數表示的格式,相比于傳統(tǒng)的16位(FP16)和32位(FP32)浮點數,FP8是一種新興的低精度訓練方法,通過減少數據表示所需的位數。顯著降低了內存占用和計算需求。目前除了DeepSeek,國內公司如零一萬物,國外的谷歌、Inflection AI都已將這種技術引入模型訓練與推理中。

上述芯片公司創(chuàng)始人稱,引入FP8后,也有可能導致模型計算導致在某些情況下精度不足,造成性能不穩(wěn)定,需要開發(fā)團隊去進一步調優(yōu)。“FP8接下來很有希望成為一種行業(yè)趨勢,會有更多的算力芯片廠商提供原生的FP8算力”。

另一位GPU芯片公司CEO認為,DeepSeek V3作為DeepSeek第三代模型,模型開發(fā)本身涉及大量的計算資源和數據支持,而幻方能夠為其儲備上萬張英偉達顯卡用于算力基建,這對許多中小型團隊或公司來說都是一個障礙。

但在他看來,最核心、也最難復制的是人才儲備。DeepSeek核心架構用到的技術都具有相當高的創(chuàng)新門檻,前期開發(fā)和后期的調優(yōu)升級都需要人才積累。

DeepSeek在人才儲備上也獨具特點。據創(chuàng)始人梁文峰此前接受采訪時介紹,DeepSeek V2模型的開發(fā)團隊沒有海外回來的人,都是一批本土的“Top高校的應屆畢業(yè)生、沒畢業(yè)的博四、博五實習生,以及些畢業(yè)才幾年的年輕人”,小米近期被報道以千萬年薪招聘DeepSeek研究員、V2模型的開發(fā)團隊成員羅福莉直接證明了這些年輕人才的價值。

梁文峰稱,頂尖人才在中國是被低估的,而正因為DeepSeek“做最難的創(chuàng)新”,創(chuàng)新對于頂級人才具有特殊的吸引力。

技術圍墻背后的商業(yè)想象力

總體而言,在算力基礎和訓練技巧之外,DeepSeek-V3在技術上的核心亮點仍然是高效的架構設計,也就是在V2身上便得到驗證的MoE+MLA。

DeepSeekMoE采用了更細粒度的專家分配和共享專家機制,每個MoE層包含1個共享專家和256個路由專家,以確保計算的高效;MLA通過低秩壓縮技術減少了推理時的Key-Value緩存,提高了推理效率。

與此同時,DeepSeek-V3首次引入了無輔助損失的負載均衡策略。傳統(tǒng)方法中,強制負載均衡將導致模型性能下降,但通過為每個專家引入偏置項,動態(tài)調整路由決策,可以確保專家負載均衡。

實際上,一個大模型的架構設計與其想要達成的目標高度相關,因此并不能泛泛而談其他模型廠商如何跟進這套技術策略。

但如果按照同等目標而言,一名大模型行業(yè)從業(yè)者對界面新聞記者表示,“MoE+MLA”雖然難,但是能夠復現,在V3中,更難的是無輔助損失的負載均衡策略,因為它需要以一個訓練得足夠好的MoE模型為前提?!斑@個比較看模型訓練的能力,就算DeepSeek的人手把手教也不一定能搞定?!?/p>

面對DeepSeek-V3的爆火,也有觀點提出應該冷靜看待,不要過度神話。

一名AI大模型投資人表示,DeepSeek-V3的確是現在看來最好的開源模型。尤其在國內,它最直接可對標的是通義千問模型系列,從技術實現來看,其更大總參數對概念的建模更精準,更小的激活量又讓推理成本更低。

但在GPT-4發(fā)布近兩年后,整個開源模型框架及算法系統(tǒng)也在同步迭代,他認為DeepSeek-V3所達成的效果可以視為順其自然的事情。

相比而言,更值得思考的是DeepSeek的商業(yè)觸角會向哪片領域進一步延伸。

目前,DeepSeek仍以開源模型API接口為主服務開發(fā)者和企業(yè),在更具體的ToB(企業(yè)端)和ToC(用戶端)應用場景,它還沒有明確動作,但在部分層面也有跡可循。

據記者了解,在第三方招聘平臺上,幻化量方在眾多系統(tǒng)及算法研發(fā)崗位中釋放出了“DeepSeek-客戶端研發(fā)”、“DeepSeek C端產品的視覺引導者”,以及面向Web端及移動端AI產品的“UI視覺設計師”等。

其中,客戶端研發(fā)崗要求負責DeepSeek iOS及安卓開發(fā)工作。而視覺產品崗在“期望特質”中描述到,“能在某個大主題的背景下細化創(chuàng)作,比如我們的App可以是交互偏向的人文關懷、或者去突出科技感、也可能會走偏向辦公效率的方向。”

這意味著,DeepSeek或許已經在籌備自己的C端產品,并且有明確的應用方向。

從模型層面來看,DeepSeek-V3作為開源模型,在數學和代碼兩項能力上已經非常突出,在補齊產品端能力后,或將在相關領域迅速形成自己的獨特優(yōu)勢。另外,公司對于AGI(通用人工智能)目標的追求明確,團隊必定會不斷拉升基座模型性能。

也就是說,盡管還看不清DeepSeek的最終抉擇,但它自身具備的模型實力和成本優(yōu)勢,無論切入哪一個領域都可能對同賽道公司形成壓力。

“從根本上來說,DeepSeek對沒有找到自己核心場景的大模型公司都是一個巨大的威脅?!鼻笆鐾顿Y人表示。

責任編輯: 陳勇洲
聲明:證券時報力求信息真實、準確,文章提及內容僅供參考,不構成實質性投資建議,據此操作風險自擔
下載“證券時報”官方APP,或關注官方微信公眾號,即可隨時了解股市動態(tài),洞察政策信息,把握財富機會。
網友評論
登錄后可以發(fā)言
發(fā)送
網友評論僅供其表達個人看法,并不表明證券時報立場
暫無評論
為你推薦
時報熱榜
換一換
    熱點視頻
    換一換
    漯河市| 赤壁市| 敖汉旗| 甘肃省| 钟山县| 涟源市| 乐都县| 泰来县| 漾濞| 桑日县| 屏东市| 蕲春县| 偃师市| 保康县| 吕梁市| 申扎县| 饶河县| 满洲里市| 本溪市| 红原县| 六枝特区| 夏津县| 兴义市| 马尔康县| 长乐市| 黎川县| 满洲里市| 康马县| 突泉县| 错那县| 尉犁县| 亚东县| 攀枝花市| 濮阳县| 长垣县| 宿松县| 九台市| 洛隆县| 高阳县| 涞水县| 柳河县|