林仲衡、林芷若 中銀國際研究有限公司

中銀國際近日邀請具備中國領(lǐng)先雲(yún)服務(wù)商背景的人工智能(AI)專家,深度剖析DeepSeek這一中國最新推出的大語言模型。該模型的智能水平可比肩全球頂尖水平,直接對標(biāo)OpenAI o1等國際最先進模型。以下為是次專家會談?wù)凸P者就此作出的一些解讀。

訓(xùn)練數(shù)據(jù)及算法異於其他先進模型

首先在數(shù)據(jù)集方面,DeepSeek的訓(xùn)練數(shù)據(jù)主要來自三方面:(一)來自其他語言大模型的「蒸餾數(shù)據(jù)」 ,此技術(shù)透過使用經(jīng)「精煉」的數(shù)據(jù)提高模型的學(xué)習(xí)效率;(二)DeepSeek V3和R1模型互相產(chǎn)生的合成數(shù)據(jù),即由算法產(chǎn)生,模擬世界知識的數(shù)據(jù);及 (三)真實數(shù)據(jù)。DeepSeek據(jù)稱大量採用合成數(shù)據(jù),其V3和R1模型的訓(xùn)練數(shù)據(jù)分別有80%和50%為合成數(shù)據(jù),而阿里巴巴集團旗下通義和OpenAI的使用率為10%至20%。

在算法方面,由於DeepSeek採用大量合成數(shù)據(jù),因此順理成章使用了混合專家稀疏架構(gòu),而非通義和OpenAI使用的稠密架構(gòu)。顧名思義,前者集思廣益,集合各領(lǐng)域的專家(子模型)解決問題,而由於其稀疏性,即並非每位專家也會被激活參與解決每次任務(wù),而是各施所長,因此大大提升了計算效率。

另外,受圖形處理單元(GPU)資源所限,DeepSeek採用了如FP8的低精度訓(xùn)練方式,而其如文心一言和豆包的競爭對手則利用FP16或FP32進行高精度訓(xùn)練。乍看字面前者似是精準(zhǔn)度較低、較遜的訓(xùn)練方式,但其實DeepSeek是輕重有別,對計算中不需要太精確的地方使用了較簡單的方式處理來提高效率。

AI工程改良上破舊立新

DeepSeek的R1-ZERO模型更大膽跳過有監(jiān)督微調(diào)訓(xùn)練(Supervised Fine-Tuning),不再向基礎(chǔ)模型輸入標(biāo)註好的數(shù)據(jù)集進行微調(diào)訓(xùn)練,而是放手讓模型僅透過強化學(xué)習(xí)(Reinforcement Learning)自我反思、驗證和提升推理能力。DeepSeek使用了Proximal Policy Optimisation(PPO)強化學(xué)習(xí)算法的改進版Group Relative Policy Optimisation(GRPO),有別於基於單個樣本的PPO算法,GRPO會比較一組樣本的表現(xiàn),只有表現(xiàn)優(yōu)於組內(nèi)平均水平的策略才會被保留或改良,以團隊協(xié)作提高強化學(xué)習(xí)的成效。此外,DeepSeek使用了優(yōu)化Parallel Thread Execution(PTX)底層算法的策略,而非僅優(yōu)化傳統(tǒng)AI團隊所依賴的高級GPU程序語言CUDA,前者讓AI工程師實現(xiàn)了更精細(xì)的優(yōu)化調(diào)整。這也是DeepSeek團隊在GPU硬件資源受限情況下無心插柳的一舉。

得益於以上技術(shù)突破,V3的總開發(fā)成本估計僅為2,500萬至3,000萬美元,而當(dāng)中550萬美元的所謂訓(xùn)練成本來自V3的單次訓(xùn)練項目。由於算法優(yōu)化和架構(gòu)的改良,V3的開發(fā)成本僅為行業(yè)平均水平的約二十分之一。除了訓(xùn)練費用低廉,DeepSeek在推論階段產(chǎn)生的成本亦相當(dāng)?shù)?,這解釋了為何RI的應(yīng)用程序編程接口(API)價格可較OpenAI低96%。該專家預(yù)計,今年主要AI平臺之間可能會出現(xiàn)新一輪的API價格戰(zhàn)。

會上專家認(rèn)為,DeepSeek對AI界帶來的最大貢獻是在AI工程改良上破舊立新,例如上文提到的PTX優(yōu)化語言、合成數(shù)據(jù)的使用、強化學(xué)習(xí)及混合專家模式帶來的效率提升等。就未來發(fā)展路徑而言,專家認(rèn)為DeepSeek可能會集中在多模態(tài)大模型的蒸餾技術(shù)。同時DeepSeek也在面對迭代方面的挑戰(zhàn),例如蒸餾技術(shù)在模型迭代次數(shù)上的限制和缺乏近期(2024-25年)數(shù)據(jù)(DeepSeek的數(shù)據(jù)截至2023年)。

總體而言,DeepSeek的問世具有里程碑意義。首先其開源舉措為全球AI產(chǎn)業(yè)貢獻了非常重要的技術(shù)進展,有很大的參考價值,令A(yù)I技術(shù)得以繼續(xù)快速迭代;其次DeepSeek也使中國AI應(yīng)用層的企業(yè)得以首次直接用上可比肩OpenAI o1和Claude 3.5 Sonnet的世界級推理模型,未來有望在中國帶來新一輪AI應(yīng)用浪潮。

題為編者所擬。本版文章,為作者之個人意見,不代表本報立場。