梁文鋒、楊植麟論文“撞車”，直指算法優(yōu)化，挑戰(zhàn)ChatGPT核心機制！風(fēng)投公司RAI Digital聯(lián)合創(chuàng)始人：AI無需讀完整本書，將更快、更高效

東風(fēng)谷康盛 2025-02-20 最新資訊 6 次瀏覽 0個評論

梁文鋒圖片來源：視覺中國

北京時間2月18日，在馬斯克還在慶祝Grok 3模型正式發(fā)布的時候，DeepSeek官方在社交平臺X上發(fā)布了一篇純技術(shù)論文，主要是關(guān)于原生稀疏注意力（Native Sparse Attention，下稱NSA），直指ChatGPT等頂尖大模型背后的Transformer架構(gòu)最核心的注意力機制。

通過這一技術(shù)，DeepSeek不僅能將大語言模型處理64k長文本的速度最高提升11.6倍，更在通用基準測試中實現(xiàn)了對傳統(tǒng)全注意力模型（Full Attention models）的性能反超。

值得注意的是，這篇論文是由DeepSeek創(chuàng)始人梁文鋒親自提交的，而且他也是作者之一。而就在DeepSeek發(fā)表這篇技術(shù)論文的同一天，月之暗面創(chuàng)始人楊植麟也“掛帥”發(fā)布了最新論文，主題同樣圍繞長文的算法優(yōu)化。

月之暗面提出的新方法叫塊注意力混合（Mixture of Block Attention，下稱MoBA）。這項方法沒有完全脫離現(xiàn)在最主流的全注意力機制，而是設(shè)計了一套可以自由切換的方式，讓這些模型可以在全注意力和稀疏注意力機制之間切換，給已有的全注意力模型更多的適配空間。

談及DeepSeek的NSA機制，風(fēng)投公司RAI Digital聯(lián)合創(chuàng)始人薩義德·戈蘇斯對《每日經(jīng)濟新聞》記者解釋稱，與馬斯克所追求的“大力出奇跡”不同，DeepSeek的新技術(shù)更強調(diào)通過算法優(yōu)化來提升長文處理效率。他提到，NSA不會專注每個單詞，而是嘗試通過只關(guān)注重要的單詞來提升效率。

DeepSeek發(fā)布新論文，梁文鋒參與并提交

北京時間2月18日，DeepSeek官方在X上發(fā)布新論文，介紹了一種新的算法優(yōu)化方式——原生稀疏注意力（NSA）。

據(jù)DeepSeek介紹，NSA專為長文本訓(xùn)練與推理設(shè)計，能利用動態(tài)分層稀疏策略等方法，通過針對現(xiàn)代硬件的優(yōu)化設(shè)計，顯著優(yōu)化傳統(tǒng)AI模型在訓(xùn)練和推理過程中的表現(xiàn)，特別是提升長上下文的推理能力，在保證性能的同時提升了推理速度，并有效降低了預(yù)訓(xùn)練成本。

展開全文

圖片來源：X

通過這一技術(shù)，DeepSeek不僅能將大語言模型處理64k長文本的速度最高提升11.6倍，更在通用基準測試中實現(xiàn)了對傳統(tǒng)全注意力模型的性能反超。

圖片來源：DeepSeek的X賬號

值得注意的是，DeepSeek創(chuàng)始人梁文鋒也出現(xiàn)在了論文作者的行列當中，在作者排名中位列倒數(shù)第二，并且也是他親自提交至預(yù)印本網(wǎng)站上的。

圖片來源：arXiv

論文的第一作者是DeepSeek的實習(xí)生袁景陽，他于2022年在北大獲得了學(xué)士學(xué)位，目前在北大的Anker Embodied AI實驗室繼續(xù)攻讀研究生學(xué)位。他也是DeepSeek-V3報告的主要作者之一，并參與了DeepSeek-R1的研究工作。

月之暗面再次“撞車”DeepSeek

無獨有偶，在DeepSeek發(fā)論文的當天，月之暗面創(chuàng)始人楊植麟也親自“掛帥”發(fā)表了一篇論文，同樣直指算法優(yōu)化。

楊植麟圖片來源：視覺中國

圖片來源：月之暗面

該公司提出的新方法叫塊注意力混合（MoBA）。顧名思義，這一方法也運用了將詞變成塊的方法。不過，該方法沒有完全脫離現(xiàn)在最主流的全注意力機制，而是設(shè)計了一套可以自由切換的方式，讓這些模型可以在全注意力和稀疏注意力機制之間切換，給已有的全注意力模型更多的適配空間。

根據(jù)論文，MoBA的計算復(fù)雜度隨著上下文長度增加而優(yōu)勢明顯。在1M token的測試中，MoBA比全注意力快了6.5倍；到10M token時，則提速16倍。而且，它已經(jīng)在Kimi的產(chǎn)品中使用，用來處理日常用戶們的超長上下文的處理需求。

而這也并不是是DeepSeek和月之暗面第一次“撞車”了，上一次是在DeepSeek推理模型R1和月之暗面推理模型Kimi 1.5發(fā)布時。

MoBA論文主要作者章明星教授笑稱，“有種‘掌中，亦一火字’的感覺（不討論誰是孔明，誰說周郎）。”他同時也感慨：“大模型這套架構(gòu)最神奇的一點我感覺就是它似乎自己就指出了前進的路線，讓不同的人從不同的角度得出了相似的前進方向?！?/p>

DeepSeek新方法背后的三大技術(shù)

談及DeepSeek的新方法，風(fēng)投公司RAI Digital聯(lián)合創(chuàng)始人薩義德·戈蘇斯告訴每經(jīng)記者，這是AI模型處理超長文本的新方法，比傳統(tǒng)方法更快、更高效。

像ChatGPT這樣的大型語言模型，都使用一種叫“注意力”（Attention）機制的方法來處理文本，2017年谷歌研究員推出的論文《Attention Is All You Need》被認為是現(xiàn)在所有大模型的基石。

戈蘇斯進一步向每經(jīng)記者解釋道：“想象一下你正在讀一本書。要理解一個句子，你不僅要看當前的單詞，還要回憶起前面句子中的相關(guān)單詞，以理解所有內(nèi)容。AI使用注意力做類似的事情，這有助于它確定哪些詞是重要的，以及它們彼此之間的關(guān)系。傳統(tǒng)注意力機制（全注意力）會查看文本中的每個單詞，并將其與其他每個單詞進行比較。這對于短文本來說很好，但是當文本很長時（比如整本書或一份長的法律文件），這個過程就會變得太慢，而且在計算機上運行成本太高。

而DeepSeek論文中提到的稀疏注意力機制不會專注每個單詞，而是嘗試通過只關(guān)注重要的單詞來提升效率，就像是只讀摘要而不是整本書一樣。

戈蘇斯對每經(jīng)記者介紹說：“為了做好這一點，NSA引入了一種新方法來過濾不重要的單詞，同時仍保留足夠的上下文來理解完整含義。

它使用三種主要技術(shù)來實現(xiàn)這一點：

壓縮：NSA不會查看每個單詞，而是將單詞分組為“塊”，并為每個塊創(chuàng)建摘要。可以將其想象成將一個段落變成一個簡短的摘要。

選擇：模型從文本中挑選出最應(yīng)該關(guān)注的重要單詞。就像在學(xué)習(xí)時，只突出顯示教科書中的關(guān)鍵句子一樣。

滑動窗口：盡管NSA總結(jié)并選擇了單詞，但它仍然會查看附近的單詞，以確保不會錯過細小但重要的細節(jié)。想象一下閱讀一本書——人們不會只是從一頁跳到下一頁而不瀏覽附近的句子。

DeepSeek認為，三部分策略使NSA速度更快，同時理解含義的能力與傳統(tǒng)方法一樣好（甚至更好）?！?/p>