硬件媒體Tom‘s Hardware帶來(lái)開(kāi)年最新熱議:
DeepSeek甚至繞過(guò)了CUDA,使用更底層的編程語(yǔ)言做優(yōu)化。
這一次是 DeepSeek-V3論文中的更多細(xì)節(jié),被人挖掘出來(lái)。
來(lái)自Mirae Asset Securities Research(韓國(guó)未來(lái)資產(chǎn)證券)的分析稱(chēng), V3的硬件效率之所以能比Meta等高出10倍,可以總結(jié)為“他們從頭開(kāi)始重建了一切”。
在使用英偉達(dá)的H800 GPU訓(xùn)練DeepSeek-V3時(shí),他們針對(duì)自己的需求把132個(gè)流式多處理器(SMs)中的 20個(gè)修改成負(fù)責(zé)服務(wù)器間的通信,而不是計(jì)算任務(wù)。
變相繞過(guò)了硬件對(duì)通信速度的限制。
△ DeepSeek-V3 Technical Report
這種操作是用英偉達(dá)的PTX(Parallel Thread Execution)語(yǔ)言實(shí)現(xiàn)的,而不是CUDA。
PTX在接近匯編語(yǔ)言的層級(jí)運(yùn)行,允許進(jìn)行細(xì)粒度的優(yōu)化,如寄存器分配和Thread/Warp級(jí)別的調(diào)整。
這種編程非常復(fù)雜且難以維護(hù),所以行業(yè)通用的做法是使用CUDA這樣的高級(jí)編程語(yǔ)言。
換句話(huà)說(shuō),他們把優(yōu)化做到了極致。
有網(wǎng)友表示,如果有一群人嫌CUDA太慢而使用PTX,那一定是前量化交易員。
一位亞馬遜工程師提出靈魂質(zhì)問(wèn):CUDA是否還是護(hù)城河?這種頂尖實(shí)驗(yàn)室可以有效利用任何GPU。
甚至有網(wǎng)友開(kāi)始暢想,如果“新源神”DeepSeek開(kāi)源了一個(gè)CUDA替代方案……
那么事情是否真會(huì)如此?
DeepSeek真的繞過(guò)了CUDA?
首先要明確的是, PTX仍然是英偉達(dá)GPU架構(gòu)中的技術(shù),它是CUDA編程模型中的中間表示,用于連接CUDA高級(jí)語(yǔ)言代碼和GPU底層硬件指令。
PTX類(lèi)似匯編語(yǔ)言,代碼大概長(zhǎng)這樣:
△來(lái)自tinkerd.net
在實(shí)際編譯流程中,CUDA代碼首先被編譯為PTX代碼,PTX代碼再被編譯為目標(biāo)GPU架構(gòu)的機(jī)器碼(SASS,Streaming ASSembler)。
CUDA起到了提供高級(jí)編程接口和工具鏈的作用,可以簡(jiǎn)化開(kāi)發(fā)者的工作。而PTX作為中間層,充當(dāng)高級(jí)語(yǔ)言和底層硬件之間的橋梁。
另外,這種兩步編譯流程也使得CUDA程序具有跨架構(gòu)的兼容性和可移植性。
反過(guò)來(lái)說(shuō),像DeepSeek這種直接編寫(xiě)PTX代碼的做法,首先不僅非常復(fù)雜,也很難移植到不同型號(hào)的GPU。
有從業(yè)者表示,針對(duì)H100優(yōu)化的代碼遷移到其他型號(hào)上可能效果打折扣,也可能根本不工作了。
所以說(shuō),DeepSeek做了PTX級(jí)別的優(yōu)化不意味著完全脫離了CUDA生態(tài),但確實(shí)代表他們有優(yōu)化其他GPU的能力。
事實(shí)上,我們也能看到DeekSeek已經(jīng)與AMD、華為等團(tuán)隊(duì)緊密合作,第一時(shí)間提供了對(duì)其他硬件生態(tài)的支持。
One More Thing
還有人提出,如此一來(lái), 讓AI擅長(zhǎng)編寫(xiě)匯編語(yǔ)言是AI自我改進(jìn)的一個(gè)方向。
我們不知道DeepSeek內(nèi)部是否使用AI輔助編寫(xiě)了PTX代碼——
但是確實(shí)剛剛見(jiàn)證DeepSeek-R1編寫(xiě)的代碼顯著提升大模型推理框架的運(yùn)行速度。
Llama.cpp項(xiàng)目中的一個(gè)新PR請(qǐng)求,使用SIMD指令(允許一條指令同時(shí)處理多個(gè)數(shù)據(jù))顯著提升WebAssembly在特定點(diǎn)積函數(shù)上的運(yùn)行速度,提交者表示:
這個(gè)PR中的99%的代碼都是由DeekSeek-R1編寫(xiě)的。我唯一做的就是開(kāi)發(fā)測(cè)試和編寫(xiě)提示(經(jīng)過(guò)一些嘗試和錯(cuò)誤)。
是的,這個(gè)PR旨在證明大模型現(xiàn)在能夠編寫(xiě)良好的底層代碼,甚至能夠優(yōu)化自己的代碼。
這個(gè)PR中的99%的代碼都是由DeekSeek-R1編寫(xiě)的。我唯一做的就是開(kāi)發(fā)測(cè)試和編寫(xiě)提示(經(jīng)過(guò)一些嘗試和錯(cuò)誤)。
是的,這個(gè)PR旨在證明大模型現(xiàn)在能夠編寫(xiě)良好的底層代碼,甚至能夠優(yōu)化自己的代碼。
llama.cpp項(xiàng)目的創(chuàng)始人檢查了這段代碼后表示“比預(yù)期的更爆炸”。
參考鏈接:
[1]https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseeks-ai-breakthrough-bypasses-industry-standard-cuda-uses-assembly-like-ptx-programming-instead
[3]https://tinkerd.net/blog/machine-learning/cuda-basics/
[4]https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html
2025,信心同行,美好可期
普京:前線(xiàn)局勢(shì)會(huì)決定俄羅斯未來(lái)幾年甚至幾十年的命運(yùn)
殲36更多細(xì)節(jié)傳來(lái),內(nèi)置彈倉(cāng)超過(guò)美國(guó)B21,刷新隱身戰(zhàn)機(jī)的新標(biāo)準(zhǔn)
違規(guī)炒股屢禁不止!多地證監(jiān)局同日開(kāi)罰單,這些細(xì)節(jié)曝光
DeepSeek遭美國(guó)IP網(wǎng)攻暴力破解
美AI公司CEO稱(chēng):不認(rèn)為DeepSeek是對(duì)手,但對(duì)華芯片出口管制更重要了
DeepSeek在全球140個(gè)市場(chǎng)下載量排名第一,印度新增用戶(hù)占比最多
全球掀DeepSeek復(fù)現(xiàn)狂潮!硅谷巨頭神話(huà)崩塌 30刀見(jiàn)證啊哈時(shí)刻
阿斯麥CEO稱(chēng)DeepSeek的出現(xiàn)是好消息 對(duì)人工智能榮景樂(lè)觀(guān)不改
還沒(méi)有評(píng)論,來(lái)說(shuō)兩句吧...