亚洲成AⅤ人片在线观看_亚洲性无码一区二区三区_无码综合天天久久综合网_四虎精品成人A在线观看

清華團(tuán)隊(duì)突破算力難題:4090顯卡單槍匹馬就能跑“滿血版”DeepSeek-R1!有用戶稱整套方案成本不到7萬(wàn)元,直降95%以上

清華團(tuán)隊(duì)突破算力難題:4090顯卡單槍匹馬就能跑“滿血版”DeepSeek-R1!有用戶稱整套方案成本不到7萬(wàn)元,直降95%以上

是你的陽(yáng)秋呀 2025-02-16 最新資訊 11 次瀏覽 0個(gè)評(píng)論

隨著大規(guī)模語(yǔ)言模型(LLMs)的不斷發(fā)展,模型規(guī)模和復(fù)雜性急劇提升,其部署和推理常常需要巨大的計(jì)算資源,這對(duì)個(gè)人研究者和小型團(tuán)隊(duì)帶來了挑戰(zhàn)。

2月10日,清華大學(xué)KVCache.AI團(tuán)隊(duì)聯(lián)合趨境科技發(fā)布的KTransformers開源項(xiàng)目公布更新:一塊24G顯存的4090D就可以在本地運(yùn)行DeepSeek-R1、V3的671B“滿血版”。預(yù)處理速度最高達(dá)到286 tokens/s,推理生成速度最高能達(dá)到14 tokens/s。

KTransformers通過優(yōu)化本地機(jī)器上的LLM部署,幫助解決資源限制問題。該框架采用了異構(gòu)計(jì)算、先進(jìn)量化技術(shù)、稀疏注意力機(jī)制等多種創(chuàng)新手段,提升了模型的計(jì)算效率,并具備處理長(zhǎng)上下文序列的能力。

KTransformers的更新發(fā)布后,不少開發(fā)者也紛紛用自己的設(shè)備進(jìn)行測(cè)試。他們驚喜地發(fā)現(xiàn),本地運(yùn)行完全沒有問題,甚至顯存消耗比github里的技術(shù)文檔中提到的顯存消耗還要少,實(shí)際內(nèi)存占用約380G,顯存占用約14G。

另外,有用戶對(duì)方案成本進(jìn)行分項(xiàng)分析后稱,只要不到7萬(wàn)元就能實(shí)現(xiàn)R1模型的本地運(yùn)行,與A100/H100服務(wù)器動(dòng)輒200萬(wàn)元的價(jià)格相比,便宜了95%以上。

清華團(tuán)隊(duì)突破算力難題:24G顯存即可運(yùn)行R1和V3的671B“滿血版”

之前,671B參數(shù)的MoE架構(gòu)大模型DeepSeek-R1經(jīng)常出現(xiàn)推理服務(wù)器高負(fù)荷宕機(jī)的現(xiàn)象,而如果選擇其他云服務(wù)商提供的專屬版云服務(wù)器則需按GPU小時(shí)計(jì)費(fèi)。這一高昂成本讓中小團(tuán)隊(duì)無力承擔(dān),而市面上的“本地部署”方案多為參數(shù)量大幅縮水的蒸餾版。

但KTransformers開源項(xiàng)目近期的更新,成功打破了大模型推理算力門檻:支持24G顯存在本地運(yùn)行DeepSeek-R1、V3的671B“滿血版”。

早在DeepSeek-V2時(shí)代,這一項(xiàng)目就因“專家卸載”技術(shù)出名了,因?yàn)樗С?36B參數(shù)的大模型在僅有24GB顯存的消費(fèi)級(jí)顯卡上流暢運(yùn)行,把顯存需求砍到十分之一。

KTransformers開源項(xiàng)目重點(diǎn)關(guān)注的就是在資源有限的情況下進(jìn)行大模型的本地部署。一名Ktransformers開發(fā)團(tuán)隊(duì)成員表示:“項(xiàng)目在創(chuàng)始之初就已經(jīng)討論過項(xiàng)目的場(chǎng)景和目標(biāo),我們所針對(duì)的是中小型用戶的場(chǎng)景,用領(lǐng)域的話講,就是低并發(fā)+超低顯存的場(chǎng)景。而顯存目前的成本已經(jīng)和CPU的內(nèi)存不是一個(gè)數(shù)量級(jí)了,對(duì)于中小用戶內(nèi)存可能完全不缺,但是找一個(gè)顯存很大的顯卡卻很難?!?/p>

清華團(tuán)隊(duì)突破算力難題:4090顯卡單槍匹馬就能跑“滿血版”DeepSeek-R1!有用戶稱整套方案成本不到7萬(wàn)元,直降95%以上

展開全文

圖片來源:知乎

KTransformers的原理大致為將參數(shù)較少、計(jì)算比較復(fù)雜的MLA注意力放在GPU上進(jìn)行計(jì)算,而參數(shù)大的、計(jì)算比較輕松的FNN(MOE)則放到CPU上去計(jì)算。

MoE結(jié)構(gòu)的模型具有很強(qiáng)的稀疏性,在執(zhí)行推理任務(wù)的時(shí)候,每次只會(huì)激活其中一部分的模型參數(shù)。因此,MoE架構(gòu)需要大量的存儲(chǔ)空間,但并不需要很多的計(jì)算資源。在這樣的情況下,同樣使用4bit量化,只需要一個(gè)4090 GPU就可以滿足這個(gè)參數(shù)需求。

此外,KTransformers團(tuán)隊(duì)還公布了v0.3預(yù)覽版的性能指標(biāo),將通過整合英特爾的AMX指令集,CPU預(yù)填充速度最高至286 tokens/s,相比llama.cpp快了近28倍對(duì)于需要處理上萬(wàn)級(jí)Token上下文的長(zhǎng)序列任務(wù)來說,相當(dāng)于能夠從“分鐘級(jí)等待”瞬間邁入“秒級(jí)響應(yīng)”,徹底釋放CPU的算力潛能。

用戶:成本相比A100/H100服務(wù)器可直降95%以上

KTransformers的更新發(fā)布后,不少開發(fā)者也紛紛在自己的設(shè)備上進(jìn)行測(cè)試。他們驚喜地發(fā)現(xiàn),本地運(yùn)行完全沒有問題,顯存消耗甚至比github里的技術(shù)文檔中提到的還要少,實(shí)際內(nèi)存占用約380G,顯存占用約14G。

清華團(tuán)隊(duì)突破算力難題:4090顯卡單槍匹馬就能跑“滿血版”DeepSeek-R1!有用戶稱整套方案成本不到7萬(wàn)元,直降95%以上

圖片來源:?jiǎn)袅▎袅?/p>

有B站up主實(shí)測(cè)發(fā)現(xiàn),本地部署的速度可以達(dá)到約6-8 tokens/s,與硅基流動(dòng)免費(fèi)版速度差不多(但硅基流動(dòng)有上下文關(guān)聯(lián)數(shù)、輸出數(shù)限制等因素)。

還有用戶規(guī)劃出了這套方案的成本:

CPU:Gold 6454S 兩顆價(jià)格1w4左右(QS版)

主板:技嘉ms73 價(jià)格6500元以內(nèi)(雙路主板一共16個(gè)DDR5 RDIMM接口)

內(nèi)存:?jiǎn)胃?4G的RDIMM DDR5服務(wù)器內(nèi)存要1800元總共1T 需要3w元左右

顯卡:低檔4060Ti 16G,大概3999元。更加建議4090 24G,因?yàn)榭梢栽黾由舷挛拈L(zhǎng)度。

該用戶總結(jié)稱,整體成本7萬(wàn)元不到,相比于A100/H100服務(wù)器動(dòng)輒200萬(wàn)元的價(jià)格,便宜了95%以上。就算是租用服務(wù)器每小時(shí)也得花費(fèi)數(shù)千元。

當(dāng)然,這一本地方案還是有著諸多的限制,比如推理速度并不能和高價(jià)的服務(wù)器成本相提并論,并且只能給單人服務(wù),而服務(wù)器可以同時(shí)滿足幾十個(gè)用戶的需求。目前整體方案也依賴于英特爾的AMX指令集,其他品牌的CPU暫時(shí)還無法進(jìn)行這些操作。并且這一方案主要是針對(duì)于DeepSeek的MOE模型,其他主流模型的運(yùn)行可能并不理想。

有用戶認(rèn)為,短期來看,KTransformers可能刺激消費(fèi)級(jí)顯卡(如4090)的需求,尤其是高顯存型號(hào)。但內(nèi)存漲價(jià)的可能性較低,因?yàn)槠浜诵膭?chuàng)新在于優(yōu)化顯存利用率,而非直接增加內(nèi)存消耗。但對(duì)于英偉達(dá)的影響并不會(huì)太大,因?yàn)檫@一技術(shù)歸根結(jié)底還是對(duì)于現(xiàn)有資源的優(yōu)化而非顛覆硬件需求。

免責(zé)聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議,使用前請(qǐng)核實(shí)。據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

每日經(jīng)濟(jì)新聞

你可能想看:

轉(zhuǎn)載請(qǐng)注明來自江蘇中陽(yáng)智能廣告設(shè)備有限公司,本文標(biāo)題:《清華團(tuán)隊(duì)突破算力難題:4090顯卡單槍匹馬就能跑“滿血版”DeepSeek-R1!有用戶稱整套方案成本不到7萬(wàn)元,直降95%以上》

每一天,每一秒,你所做的決定都會(huì)改變你的人生!

發(fā)表評(píng)論

快捷回復(fù):

評(píng)論列表 (暫無評(píng)論,11人圍觀)參與討論

還沒有評(píng)論,來說兩句吧...

Top
網(wǎng)站統(tǒng)計(jì)代碼