業界:DeepSeek為中國爭取3至5年喘息空間
昨日 19:15

撰文:李潤茵 本刊記者

國運級科技橫空出世!去年12月,杭州人工智能公司「深度求索」(DeepSeek)發表國產AI大模型,因號稱性能媲美ChatGPT,成本卻僅十分之一而震懾矽谷,撼動華爾街。這家寂寂無聞的公司一夜爆紅,估值暴漲至1500億美元(OpenAI為3000億美元),連創辦人梁文鋒的家鄉湛江米歷嶺村都變「聖地」。

DeepSeek在國內好評如潮,不過站在巨人肩上,在國外亦惹來爭議,例如OpenAI指控其偷數據,而且愈來愈多國家及地區,基於國安及私隱理由,加入禁用DeepSeek行列﹝見表﹞。

低成本模型救國

「禁用這種基礎技術後要用誰?OpenAI嗎?如果一個國家要繼續用十倍的基礎大模型價格來發展上層AI應用,那是真正綁死自己。」一位科企高層向本刊表示,DeepSeek驚艷在低成本,而這的確足以扭轉「國運」,該人士熟悉半導體行業,這些年見證美國科技圍堵,很清楚中國如何被卡脖子。

先科普一下,大語言模型是如何煉成的呢?通常是採用原始數據,基於「尺度定律」(Scaling Laws)來訓練,背後需要充足算力來逐步變大;簡單理解,算力即先進晶片如GPU,所以「若Scaling Laws持續存在,而中國無法獲取晶片製程的話,AI發展空間將愈來愈窄」,此為其一;

其二,訓練數據質量。該知情人士指出,數據主要來自互聯網,實際上都已經訓練過,下一步要靠機器「造圖造字」,即AI訓練AI,出什麼問題呢?他解釋,形同近親繁殖,「愈繁殖愈笨」,意思就是若生成圖文劣質,例如人像遠看很真實,近看卻是八隻手指,用不合理及有瑕疵的生成圖文來訓練,反而會污染原有大模型。

「OpenAI為什麼成功?關鍵在於英文語料較多也較準,因為可以問答;中國相對受控,訓練語料比較少。由於大模型追不上,所以無論香港或內地,其實都在嘗試『專家模型』(MoE),通過專業數據跟知識庫把大模型的輸出進行糾偏。」

但「專家模型」始終無法變成「通用大模型」,情況形同數學專家無法回答語文問題,於是DeepSeek做了兩件事——首先,他們用上「蒸餾」,簡單理解就是大量的提問和回答,提問對象就是其他基礎大模型,於是他們通過這種方法,得出共200多個「專家模型」;

若然心水清不難發現,「專家模型」對「專家模型」豈非陷入「近親繁殖」怪圈?對的,所以DeepSeek的「專家」會再配上「路由專家」(RoE)來處理「數學跟語文是什麼關係,應該怎麼配置進來」等問題,而且繞過輝達CUDA,CUDA原本是用來轉換人機語言,即是將開發語言變成GPU可讀語言,「DeepSeek現在用算法直接向GPU進行最佳配置,降低內存消耗,再對機器輸出進行糾偏」,該名科企高層補充,以前內耗大是源於通用模型大,OpenAI跟DeepSeek訓練方式不同。

「為什麼後來中國朝向『專家模型』發展呢?實際上,這等於把模型切小,切小到用1萬卡來做。我們經常說『算力』,並非單指多少張卡,還包括高速連接及軟件同步能力,按目前國產算力,集群最多只做到1萬卡左右,再增加只會導致性能下降,甚至最終完全沒用。」

他提醒,美國晶片出口限制將收緊至7納米製程,意味着明年國內近乎全部GPU廠家會斷供,沒有足夠晶片演進迭代,而通用GPU起碼要7納米,「全世界都覺得中國AI要不行了,無法做下一代大模型,晶片又不如人,DeepSeek突然開源模型,為大家爭取到3至5年喘息空間」。

拒絕大廠式內捲

現在DeepSeek用約2000張卡做到GPT-4o,後者原先起碼用10萬張卡,即近100倍,約2000張卡還是「閹割版」輝達H800﹝圖一﹞,「2000張H800相當於約4000張昇騰」,該科企高層分析,意味着起碼可幫中國大模型再演進一代。

「一個技術成本降至十分之一,而效果還是差不多時﹝圖二﹞,其實跟馬斯克發射火箭一樣,把火箭成本降為十分之一,他們都不是靠普通改進,或商業運作能實現,一定是硬核科技起作用,而且背後是一種非常強悍的工程思維。」香港人工智能與機器人學會常務副理事長柳崎峰教授解釋,DeepSeek低成本背後關鍵技術有三:

一、MLA架構(Multi-head Latent Attention,多頭潛在注意力),此為壓縮機制,能把顯存佔用降到最常用的MHA架構的5%至13%;二、FP8精度,即8位浮點,數字愈高,計算精度愈高,但速度下降,業界普遍混合16及32位,他們加入8位提速;三、PTX(Parallel Thread Execution,平行線程執行代碼),為底層軟件,繞過CUDA的指令。

「舉例MLA,Latent Space(潛空間)技術其實很常見,幾乎所有圖片生成都用擴散模型(diffusion),後來的Stable diffusion就是加上Latent,把高位數據壓縮成低位數據;然而,將Latent放進大模型最核心的Transformer及注意力機制(Attention),屬於DeepSeek原創。」

柳崎峰指出,低成本模型背後,更不容輕視是「試錯成本」,「為什麼互聯網大廠,還有所謂大模型『六小虎』(分別為智譜AI、MiniMax、百川智能、月之暗面、階躍星辰及零一萬物,前4家估值超過200億元人民幣)無法發表MLA呢?」

「他們都是拿到錢、買到卡,然後趕快訓練模型,大家都是這種心態,不能夠試錯,因試錯等於花錢,而且誰都說不清能帶來什麼收益,所以都是重複『造輪子』(明知無法超越前人,卻仍然堅持要做),最後有創新卻少很多。」

——節錄自3月號《信報財經月刊》