亚洲成AⅤ人片在线观看_亚洲性无码一区二区三区_无码综合天天久久综合网_四虎精品成人A在线观看

DeepSeek驚艷全球,美國大模型兩巨頭齊發(fā)聲:并不比我們先進

DeepSeek驚艷全球,美國大模型兩巨頭齊發(fā)聲:并不比我們先進

欣辰桑 2025-02-01 最新資訊 7 次瀏覽 0個評論

DeepSeek R1的橫空出世給全球AI行業(yè)帶來了新的變數(shù)。面對沖擊,美國兩大AI巨頭Anthropic與OpenAI迅速做出回應(yīng),試圖淡化市場對其技術(shù)領(lǐng)先地位的擔(dān)憂。

周三,Anthropic 首席執(zhí)行官達里奧·阿莫迪 (Dario Amodei) 發(fā)布了一篇長文討論了DeepSeek的進展, 他指出DeepSeek 并沒有“用 600 萬美元做到美國 AI 公司花費數(shù)十億美元才能實現(xiàn)的事情”。以 Anthropic 為例,Claude 3.5 Sonnet 是一個中等規(guī)模的模型,訓(xùn)練成本達數(shù)千萬美元,遠不是數(shù)十億美元級別。

他認為DeepSeek的訓(xùn)練成本降低符合行業(yè)趨勢,并不代表突破性的技術(shù)成就:

如果 AI 訓(xùn)練成本的下降趨勢是 每年 4 倍,如果 DeepSeek-V3 的訓(xùn)練成本比一年前開發(fā)的美國當前模型低約 8 倍,那其實完全符合正常趨勢......即使接受 DeepSeek 的訓(xùn)練成本數(shù)據(jù),他們也只是處于趨勢線上,甚至可能還未完全達到。

如果 AI 訓(xùn)練成本的下降趨勢是 每年 4 倍,如果 DeepSeek-V3 的訓(xùn)練成本比一年前開發(fā)的美國當前模型低約 8 倍,那其實完全符合正常趨勢......即使接受 DeepSeek 的訓(xùn)練成本數(shù)據(jù),他們也只是處于趨勢線上,甚至可能還未完全達到。

此前一天,OpenAI首席研究員Mark Chen也對DeepSeek R1做出回應(yīng),其態(tài)度既肯定又帶有一絲微妙。

Chen承認DeepSeek"獨立發(fā)現(xiàn)了OpenAI在o1模型研發(fā)過程中的一些核心理念",然而,Chen隨即將焦點轉(zhuǎn)移到成本問題上,認為"外界對成本優(yōu)勢的解讀有些過頭"。

但紐約大學(xué)教授、AI專家Gary Marcus認為,DeepSeek對OpenAI的影響可能比想象中更大。

Anthropic CEO:DeepSeek并未打破行業(yè)趨勢

阿莫迪先系統(tǒng)拆解了AI發(fā)展的三大定律:

  1. 規(guī)模法則

規(guī)模法則

AI 的一個核心特性是 規(guī)模驅(qū)動性能提升。我和我的聯(lián)合創(chuàng)始人在 OpenAI 工作時,曾是最早記錄這一特性的人之一。在其他條件相同的情況下,訓(xùn)練規(guī)模越大,AI 在一系列認知任務(wù)上的表現(xiàn)越穩(wěn)定、越出色。例如,100 萬美元訓(xùn)練的模型可能能解決 20% 的關(guān)鍵編碼任務(wù),而 1000 萬美元的模型可能達到 40%,1 億美元的模型則可能提高到 60%。這種差距往往極具實際影響——再增加 10 倍的計算量,可能意味著從本科生的水平躍升至博士生的能力。因此,各公司正投入巨額資金訓(xùn)練更大規(guī)模的模型。

  1. 計算成本的下降

計算成本的下降

展開全文

AI 領(lǐng)域不斷涌現(xiàn)新的優(yōu)化思路,使模型訓(xùn)練更高效。這可能是架構(gòu)上的改進(例如對 Transformer 的優(yōu)化),也可能是底層硬件的效率提升。這些創(chuàng)新會 降低訓(xùn)練成本:如果某項技術(shù)創(chuàng)新帶來 2 倍的計算效率提升,那么本需要 1000 萬美元的訓(xùn)練任務(wù),如今只需 500 萬美元即可完成。

每家前沿 AI 公司都在不斷發(fā)現(xiàn)這樣的優(yōu)化方案,通常提升幅度為 1.2 倍,有時是 2 倍,偶爾甚至能達到 10 倍。由于更智能的 AI 價值極高,成本效率的提升幾乎總是被用于訓(xùn)練更強的模型,而不是降低總支出——換句話說,公司只會在更大的規(guī)模上投入更多資源。

從歷史趨勢來看,由于算法和硬件的改進,AI 訓(xùn)練的計算成本 每年下降約 4 倍。這意味著,僅靠行業(yè)的正常發(fā)展,2024 年訓(xùn)練一個模型的成本,理應(yīng)比 2023 年低 3 到 4 倍。

同時,訓(xùn)練成本的下降也帶動了推理成本的下降。比如,Claude 3.5 Sonnet 相較 GPT-4 晚了 15 個月發(fā)布,但幾乎在所有基準測試中都勝出,同時 API 價格也下降了 約 10 倍。

  1. 訓(xùn)練范式的變化

訓(xùn)練范式的變化

AI 訓(xùn)練方法也在不斷演變。從 2020 年到 2023 年,行業(yè)的主要擴展方式是增加預(yù)訓(xùn)練規(guī)模,即在海量互聯(lián)網(wǎng)文本上訓(xùn)練模型,然后輔以少量額外訓(xùn)練。而 2024 年,強化學(xué)習(xí)(RL)訓(xùn)練 成為了新的關(guān)鍵突破口。這一方法顯著提升了 AI 在數(shù)學(xué)、編程競賽等推理任務(wù)上的表現(xiàn)。例如,OpenAI 在 9 月發(fā)布的 o1-preview 模型,就采用了這一技術(shù)。

我們?nèi)蕴幱?RL 訓(xùn)練擴展的早期階段。現(xiàn)階段,即便只額外投入 100 萬美元進行 RL 訓(xùn)練,也能帶來巨大收益。公司們正加速擴大 RL 訓(xùn)練規(guī)模,但目前 AI 仍處于一個獨特的拐點——這意味著只要起點足夠強,短期內(nèi)多個公司都能推出性能相近的模型。

阿莫迪指出以上三點有助于理解 DeepSeek 最近的發(fā)布。大約一個月前,DeepSeek 推出了 DeepSeek-V3,一個僅進行預(yù)訓(xùn)練的模型。隨后,上周他們發(fā)布了 R1,加入了第二階段的強化學(xué)習(xí)訓(xùn)練。

阿莫迪表示,DeepSeek-V3 其實是一個值得關(guān)注的創(chuàng)新。作為預(yù)訓(xùn)練模型,它在某些任務(wù)上接近了美國最先進模型的性能,同時訓(xùn)練成本顯著降低,盡管在現(xiàn)實世界任務(wù),如編碼能力等方面,Claude 3.5 Sonnet 仍遙遙領(lǐng)先。DeepSeek 團隊在鍵值緩存管理和專家混合架構(gòu)等方面做出了一些真正出色的工程優(yōu)化。

但阿莫迪認為,有幾點需要澄清:

DeepSeek 并沒有“用 600 萬美元做到美國 AI 公司花費數(shù)十億美元才能實現(xiàn)的事情”。以 Anthropic 為例,Claude 3.5 Sonnet 是一個中等規(guī)模的模型,訓(xùn)練成本達 數(shù)千萬美元,遠不是數(shù)十億美元級別。

并且,Claude 3.5 Sonnet 訓(xùn)練于 9-12 個月前,而 DeepSeek 的模型訓(xùn)練于 2023 年 11 月至 12 月,即便如此,Claude 3.5 Sonnet 在多個關(guān)鍵評估中仍明顯領(lǐng)先。

DeepSeek 的訓(xùn)練成本并未突破行業(yè)趨勢。如果成本曲線下降的歷史趨勢是每年約 4 倍,那么按照正常業(yè)務(wù)發(fā)展——即 2023 年和 2024 年的成本下降趨勢——我們現(xiàn)在應(yīng)該會看到一個比 3.5 Sonnet/GPT-4 便宜 3 到 4 倍的模型。

然而,DeepSeek-V3 的性能比這些美國前沿模型差一些——假設(shè)在擴展曲線上差約 2 倍,這已經(jīng)是對 DeepSeek-V3 相當慷慨的估計了——這意味著,如果 DeepSeek-V3 的訓(xùn)練成本比一年前開發(fā)的美國當前模型低約 8 倍,那其實完全符合正常趨勢。

我雖不便給出確切數(shù)字,但從前面的分析可以看出,即使接受 DeepSeek 的訓(xùn)練成本數(shù)據(jù),他們也只是處于趨勢線上,甚至可能還未完全達到。

比如,這比原始 GPT-4 到 Claude 3.5 Sonnet 的推理價格差異(10 倍)要小,而且 3.5 Sonnet 本身也是一個比 GPT-4 更好的模型。這些都表明,DeepSeek-V3 并非獨特的突破,也沒有從根本上改變 LLM 的經(jīng)濟性,它只是持續(xù)成本降低曲線上一個預(yù)期的點。

不同的是,這次第一個展示預(yù)期成本降低的公司是中國的,這在以往從未有過,具有重大的地緣政治意義。不過,美國公司很快也會跟上這一趨勢——他們不會通過抄襲 DeepSeek 來實現(xiàn)成本降低,而是因為他們自身也在沿著常規(guī)的成本降低趨勢發(fā)展。

DeepSeek 不是第一個實現(xiàn)成本優(yōu)化的公司,但它是第一個來自中國的公司。這一點在地緣政治上意義重大。但同樣,美國 AI 公司也會很快跟進——并不是通過抄襲 DeepSeek,而是因為它們本就沿著同樣的技術(shù)路線前進。

DeepSeek 并沒有“用 600 萬美元做到美國 AI 公司花費數(shù)十億美元才能實現(xiàn)的事情”。以 Anthropic 為例,Claude 3.5 Sonnet 是一個中等規(guī)模的模型,訓(xùn)練成本達 數(shù)千萬美元,遠不是數(shù)十億美元級別。

并且,Claude 3.5 Sonnet 訓(xùn)練于 9-12 個月前,而 DeepSeek 的模型訓(xùn)練于 2023 年 11 月至 12 月,即便如此,Claude 3.5 Sonnet 在多個關(guān)鍵評估中仍明顯領(lǐng)先。

DeepSeek 的訓(xùn)練成本并未突破行業(yè)趨勢。如果成本曲線下降的歷史趨勢是每年約 4 倍,那么按照正常業(yè)務(wù)發(fā)展——即 2023 年和 2024 年的成本下降趨勢——我們現(xiàn)在應(yīng)該會看到一個比 3.5 Sonnet/GPT-4 便宜 3 到 4 倍的模型。

然而,DeepSeek-V3 的性能比這些美國前沿模型差一些——假設(shè)在擴展曲線上差約 2 倍,這已經(jīng)是對 DeepSeek-V3 相當慷慨的估計了——這意味著,如果 DeepSeek-V3 的訓(xùn)練成本比一年前開發(fā)的美國當前模型低約 8 倍,那其實完全符合正常趨勢。

我雖不便給出確切數(shù)字,但從前面的分析可以看出,即使接受 DeepSeek 的訓(xùn)練成本數(shù)據(jù),他們也只是處于趨勢線上,甚至可能還未完全達到。

比如,這比原始 GPT-4 到 Claude 3.5 Sonnet 的推理價格差異(10 倍)要小,而且 3.5 Sonnet 本身也是一個比 GPT-4 更好的模型。這些都表明,DeepSeek-V3 并非獨特的突破,也沒有從根本上改變 LLM 的經(jīng)濟性,它只是持續(xù)成本降低曲線上一個預(yù)期的點。

不同的是,這次第一個展示預(yù)期成本降低的公司是中國的,這在以往從未有過,具有重大的地緣政治意義。不過,美國公司很快也會跟上這一趨勢——他們不會通過抄襲 DeepSeek 來實現(xiàn)成本降低,而是因為他們自身也在沿著常規(guī)的成本降低趨勢發(fā)展。

DeepSeek 不是第一個實現(xiàn)成本優(yōu)化的公司,但它是第一個來自中國的公司。這一點在地緣政治上意義重大。但同樣,美國 AI 公司也會很快跟進——并不是通過抄襲 DeepSeek,而是因為它們本就沿著同樣的技術(shù)路線前進。

此外,阿莫迪指出,DeepSeek 擁有50000 顆 Hopper 代 GPU,估值約 10 億美元,與主要美國 AI 公司持有的芯片規(guī)模相差 2-3 倍。這意味著 DeepSeek 的整體投入并不比美國 AI 實驗室少太多。

阿莫迪表示,上周發(fā)布的 R1 之所以引發(fā)關(guān)注(甚至導(dǎo)致英偉達股價下跌 17%),并不是因為它在技術(shù)上比 V3 更具創(chuàng)新性。它的強化學(xué)習(xí)訓(xùn)練本質(zhì)上只是復(fù)制了 OpenAI 在 o1-preview 模型中的做法。由于 AI 訓(xùn)練仍處于 RL 擴展的早期,幾家公司目前能產(chǎn)出相似水平的模型,但這一狀況不會持續(xù)太久,隨著擴展規(guī)模的擴大,領(lǐng)先者很快會拉開差距

OpenAI高管:外界對成本優(yōu)勢的解讀有些過頭

OpenAI首席研究員Mark Chen在社交媒體上對DeepSeek的成就表示祝賀:

“祝賀DeepSeek成功研發(fā)出o1級推理模型!他們的研究論文表明,他們獨立發(fā)現(xiàn)了我們在實現(xiàn)o1過程中所采用的一些核心思想”

DeepSeek驚艷全球,美國大模型兩巨頭齊發(fā)聲:并不比我們先進

“祝賀DeepSeek成功研發(fā)出o1級推理模型!他們的研究論文表明,他們獨立發(fā)現(xiàn)了我們在實現(xiàn)o1過程中所采用的一些核心思想”

DeepSeek驚艷全球,美國大模型兩巨頭齊發(fā)聲:并不比我們先進

但Chen隨即將焦點轉(zhuǎn)移到成本問題上,認為"外界對成本優(yōu)勢的解讀有些過頭"。他提出了"雙軸優(yōu)化"(pre-training and reasoning)的概念,暗示OpenAI在成本控制方面同樣有能力。

Chen還提到了"蒸餾技術(shù)"的成熟和"成本與能力解耦"的趨勢,強調(diào)OpenAI在模型壓縮和優(yōu)化技術(shù)方面的探索。他特別指出,"低成本服務(wù)模型(尤其是在較高延遲下)并不意味著擁有更強的模型能力"。

最后,Chen表示OpenAI將繼續(xù)在"降低成本"和"提升能力"兩個方向上"雙管齊下",并承諾"今年會發(fā)布更優(yōu)秀的模型"。

AI專家:DeepSeek對OpenAI構(gòu)成威脅

紐約大學(xué)教授、AI專家Gary Marcus則認為,DeepSeek的出現(xiàn)對OpenAI構(gòu)成了實質(zhì)性威脅。

他指出,"DeepSeek基本上免費提供了OpenAI想要收費的東西。"Marcus認為,這可能會嚴重影響OpenAI的商業(yè)模式。

Marcus還強調(diào),DeepSeek比OpenAI更開放,這將吸引更多人才。他質(zhì)疑OpenAI 1570億美元的估值,認為在每年損失約50億美元的情況下,這一估值難以證明合理性。

你可能想看:

轉(zhuǎn)載請注明來自江蘇中陽智能廣告設(shè)備有限公司,本文標題:《DeepSeek驚艷全球,美國大模型兩巨頭齊發(fā)聲:并不比我們先進》

每一天,每一秒,你所做的決定都會改變你的人生!

發(fā)表評論

快捷回復(fù):

評論列表 (暫無評論,7人圍觀)參與討論

還沒有評論,來說兩句吧...

Top
網(wǎng)站統(tǒng)計代碼