來自東方的DeepSeek震撼美利堅(jiān)! OpenAI掌舵者拍手稱贊，“低算力成本風(fēng)暴”重創(chuàng)納指

長(zhǎng)拳凝海 2025-01-28 技術(shù)資訊 30 次瀏覽 0個(gè)評(píng)論

專題：DeepSeek為何能震動(dòng)全球AI圈

智通財(cái)經(jīng)了解到，在美東時(shí)間周一晚些時(shí)候，全球最頂級(jí)AI科技公司OpenAI的掌舵者——即首席執(zhí)行官薩姆·奧爾特曼(Sam Altman)在社交媒體X的一篇最新帖子中，他對(duì)于以“極低訓(xùn)練/推理成本+超高性能”為核心特征，在短短幾日內(nèi)聞名全球的DeepSeek R1大模型可謂“贊不絕口”。奧爾特曼在帖子中可謂不嗇溢美之詞，盛贊DeepSeek R1這一性能堪比OpenAI o1同時(shí)AI算力成本極低的大模型所帶來的史無前例的“AI大模型算力新范式”。

在上周，來自中國(guó)DeepSeek的AI工程師團(tuán)隊(duì)所開創(chuàng)的DeepSeek R1大模型可謂霸榜美國(guó)熱搜，并且DeepSeek應(yīng)用周一登頂蘋果中國(guó)地區(qū)和美國(guó)地區(qū)應(yīng)用商店免費(fèi)APP下載排行榜，在美區(qū)下載榜上超越ChatGPT，堪稱屬于中國(guó)AI的“里程碑時(shí)刻”。DeepSeek團(tuán)隊(duì)證明，他們能夠在沒有世界最頂級(jí)的英偉達(dá)高性能AI GPU提供強(qiáng)大AI算力的情況下，以極低成本加上性能普通的AI加速器訓(xùn)練出推理能力一流的突破式開源AI大模型。在不到600萬(wàn)美元的極低投入成本和2048塊性能遠(yuǎn)低于H100與Blackwell的H800芯片條件下，DeepSeek團(tuán)隊(duì)打造出性能堪比OpenAI o1的開源AI模型，相比之下Anthropic與OpenAI訓(xùn)練成本高達(dá)10億美元。

隨著這股來自東方的“DeepSeek低算力成本風(fēng)暴”席卷全球，投資者們開始強(qiáng)烈質(zhì)疑美國(guó)科技巨頭們對(duì)于人工智能堪稱“非理性”的狂熱AI燒錢計(jì)劃是否合理，畢竟動(dòng)輒千億美元的支出，相比于DeepSeek僅僅百萬(wàn)美元級(jí)別成本令這些美國(guó)科技股投資者無比震驚的同時(shí)也無比憤怒。這也是為什么周一有著“全球科技股風(fēng)向標(biāo)”的納斯達(dá)克100指數(shù)暴跌2.97%，總市值較上周五收盤減少近1萬(wàn)億美元，涵蓋更多科技股的納斯達(dá)克綜合指數(shù)跌幅更是超過3%。

截至周一美股收盤，由于投資者們擔(dān)憂DeepSeek引領(lǐng)的“低成本AI大模型算力范式”推動(dòng)科技巨頭們?cè)诙讨衅趦?nèi)大幅削減AI GPU訂單，因此“AI芯片霸主”英偉達(dá)(NVDA.US)周一股價(jià)下跌近17%，收?qǐng)?bào)118.42美元，單日的市值蒸發(fā)規(guī)模達(dá)到5890億美元，為美國(guó)股市歷史上最大規(guī)模市值損失，打破此前紀(jì)錄。周一，英偉達(dá)也同時(shí)失去“全球最大市值公司”的寶座，不及蘋果和微軟，跌至第三。

隨著美國(guó)科技巨頭財(cái)報(bào)季本周開啟，這些長(zhǎng)期投資于美國(guó)科技股的投資者們迫切希望微軟(MSFT.US)、Meta(META.US)以及谷歌(GOOGL.US)等美國(guó)科技巨頭們對(duì)于AI方面的巨額投入能夠?qū)崿F(xiàn)積極創(chuàng)收與盈利規(guī)模，進(jìn)而實(shí)現(xiàn)整體營(yíng)收與利潤(rùn)業(yè)績(jī)大超預(yù)期，否則他們會(huì)將這種“非理性”AI支出，同時(shí)無法憑借大額投入帶來任何可觀創(chuàng)收與利潤(rùn)，視為這些科技巨頭在AI方面的瘋狂支出“完完全全在損害歸屬于公司普通股股東的利潤(rùn)”，進(jìn)而掀起拋售大浪潮。

此外，在中國(guó)萬(wàn)家團(tuán)圓的除夕日，DeepSeek可謂徹底殺瘋了，DeepSeek正式發(fā)布集理解與生成一體的Janus-Pro和JanusFlow系列開源多模態(tài)AI模型，參數(shù)大小從10億到70億不等，給閉源多模態(tài)領(lǐng)域帶來開源圖像生成的震撼。有機(jī)構(gòu)投資者表示，DeepSeek證明了這種“低算力成本范式”不僅能夠打造出堪比OpenAI的文本生成AI聊天機(jī)器人，還以低成本能夠打造出堪比OpenAI DALL-E 3的多模態(tài)大模型，這也是為何周一美股盤中(即北京時(shí)間午夜)，納指與英偉達(dá)等AI芯片股股價(jià)進(jìn)一步大跌的核心邏輯。

OpenAI掌舵者奧爾特曼盛贊DeepSeek！特朗普則認(rèn)為DeepSeek橫空出世為美國(guó)AI行業(yè)敲響警鐘

“這家迅速崛起至全球矚目的中國(guó)人工智能初創(chuàng)公司展現(xiàn)出了一個(gè)令世界印象深刻的模式，尤其是他們能夠以這樣的極低價(jià)格提供的AI產(chǎn)品?！眾W爾特曼在帖子中寫道。奧爾特曼承認(rèn)DeepSeek位列最強(qiáng)大競(jìng)爭(zhēng)對(duì)手，并表示這一競(jìng)爭(zhēng)局面“令人振奮”，OpenAI也勢(shì)必將加快進(jìn)程，向世人展現(xiàn)一些即將推出的新AI產(chǎn)品。

總部位于杭州的DeepSeek所推出風(fēng)靡全球的低成本AI大模型，周一可謂全面攪亂全球股市，與其公司同名的人工智能聊天機(jī)器人火爆全球似乎顛覆了這樣一種假設(shè)：更好的人工智能需要更強(qiáng)大的AI計(jì)算能力。DeepSeek 的低成本+超高效+不輸于o1的大模型綜合性能，似乎在告訴Meta、微軟以及谷歌等美國(guó)科技巨頭：你們得好好反思耗費(fèi)的幾百億美元資金到底用到哪里去了?

但是，OpenAI掌舵者奧爾特曼在帖子中強(qiáng)力反駁了“未來人工智能進(jìn)步的生產(chǎn)成本將降低”的這一當(dāng)前最火熱的市場(chǎng)觀點(diǎn)，稱他領(lǐng)導(dǎo)的OpenAI開發(fā)團(tuán)隊(duì)認(rèn)為“現(xiàn)在比以往任何時(shí)候都更需要更多的AI計(jì)算能力來成功實(shí)現(xiàn)我們的使命”。

OpenAI所主導(dǎo)的“星際之門”這一規(guī)模高達(dá)5000億美元的AI基礎(chǔ)設(shè)施建設(shè)項(xiàng)目最重要合作伙伴軟銀集團(tuán)的股價(jià)延續(xù)跌勢(shì)，周一暴跌超8%之后，周二股價(jià)在東京股市繼續(xù)下跌，最終以超過5%的劇烈跌幅收盤。這兩家公司正牽頭一項(xiàng)初期規(guī)模1000億美元，最終可能高達(dá)5000億美元的基礎(chǔ)設(shè)施建設(shè)計(jì)劃，以支持OpenAI以及所有AI科技公司在美國(guó)的AI算力需求以及發(fā)展路線。

DeepSeek風(fēng)靡全球似乎引發(fā)美國(guó)總統(tǒng)特朗普的擔(dān)憂，美東時(shí)間周一，唐納德·特朗普在佛羅里達(dá)州的一場(chǎng)黨內(nèi)年度會(huì)議上發(fā)表講話。該會(huì)議主題往年聚焦政治內(nèi)容，出乎意料的是，特朗普竟然也提到了近日爆火海外的中國(guó)AI大模型DeepSeek。特朗普在講話中表示，中國(guó)初創(chuàng)公司DeepSeek的技術(shù)應(yīng)該對(duì)美國(guó)AI公司起到刺激作用，并認(rèn)為，中國(guó)公司開發(fā)出更便宜、更強(qiáng)大的人工智能方法是件好事。

特朗普在佛羅里達(dá)州表示：“中國(guó)公司發(fā)布DeepSeek人工智能應(yīng)該給我們的行業(yè)敲響警鐘，我們需要專注于競(jìng)爭(zhēng)以贏得勝利?！薄拔乙恢痹诹私庵袊?guó)和中國(guó)的一些公司，特別是有一家公司提出了一種更快、更便宜的人工智能方法，這很好，因?yàn)槟悴槐鼗敲炊噱X。我認(rèn)為這是積極的，是一種資產(chǎn)?！薄拔艺J(rèn)為這是積極的，因?yàn)槊绹?guó)AI科技公司們可以這樣做，我們也可以不用花那么多錢就能得到同樣的結(jié)果?！碧乩势赵谥v話中表示。

DeepSeek殺瘋了! 除夕放出“多模態(tài)”這一重磅核彈

全球AI行業(yè)剛剛經(jīng)受R1帶來的震撼與恐慌，中國(guó)人工智能初創(chuàng)DeepSeek又發(fā)布了新的模型，給閉源模型帶來開源“多模態(tài)”的震撼。美東時(shí)間1月27日周一，AI社區(qū)Hugging Face顯示，DeepSeek發(fā)布了分別名為Janus-Pro和JanusFlow的一系列開源多模態(tài)AI大模型，參數(shù)大小從10億到70億不等，都已可在Hugging Face供全球AI愛好者們下載。DeepSeek表示，Janus-Pro和JanusFlow的代碼均基于MIT許可證授權(quán)，這意味著它們可以不受限地用于商業(yè)用途。

Janus-Pro-7B 在 MMBench 上得分為 79.2，明顯優(yōu)于 DALL-E 3(評(píng)分 68.5)和 Stable Diffusion 系列模型，并且超過了前代模型 Janus(69.4)以及其他競(jìng)爭(zhēng)對(duì)手(例如 TokenFlow-XL 13B、MetaMorph等)。通過視覺編碼的解耦，Janus-Pro 可以更好地處理圖像和文本的跨模態(tài)理解，并在視覺問答、圖像標(biāo)注等任務(wù)中展現(xiàn)出強(qiáng)勁的競(jìng)爭(zhēng)力。

Janus-Pro-7B 在GenEval測(cè)試中獲得 80% 的準(zhǔn)確率，超越了包括OpenAI的DALL-E 3(67%)和 Stable Diffusion 3 Medium(74%)在內(nèi)的所有對(duì)比模型，表現(xiàn)非常突出。在DPG-Bench 中，Janus-Pro 獲得了84.2的超級(jí)得分，顯示出其在復(fù)雜文本生成圖像指令方面的強(qiáng)大執(zhí)行力，作為對(duì)比，DALL-E 3僅為74，相比于 DALL-E 3，Janus-Pro在短提示詞生成的穩(wěn)定性、圖像細(xì)節(jié)的豐富性和生成指令的執(zhí)行能力上都顯示出更強(qiáng)的能力。

JanusFlow則基于極簡(jiǎn)的架構(gòu)，將自回歸語(yǔ)言模型與矯正流 (Rectified Flow) 結(jié)合。該架構(gòu)無需復(fù)雜的修改，直接通過 LLM 框架進(jìn)行訓(xùn)練。在文本生圖任務(wù)中，JanusFlow 支持高質(zhì)量的圖像生成，雖然整體分辨率為 384x384，但圖像質(zhì)量足以滿足大多數(shù)應(yīng)用需求。與 DALL-E 3 或其他模型相比，其圖像生成穩(wěn)定性較高，且簡(jiǎn)化的架構(gòu)意味著模型的部署和優(yōu)化更加高效。

JanusFlow 的模型尺寸從1B到7B不等，適應(yīng)了不同的應(yīng)用場(chǎng)景。7B大模型的能力接近 Janus-Pro-7B，且在一些簡(jiǎn)單任務(wù)中，1B大模型的版本已經(jīng)能夠滿足一般需求，甚至在瀏覽器中使用 WebGPU 就能直接運(yùn)行。

更重要的是，相較于OpenAI的DALL-E 3等其他大型 AI 模型，DeepSeek 的多模態(tài)模型具有明顯的成本優(yōu)勢(shì)。無論是在訓(xùn)練算力的需求上，還是在實(shí)際部署和使用的成本上，Janus-Pro 和 JanusFlow 都展現(xiàn)出了較高的性價(jià)比。比如，開源大模型Janus-Pr，1.5B模型僅用了128顆英偉達(dá)A100訓(xùn)練一周，而7B級(jí)別大模型也只是翻了個(gè)倍，相比之下DALL-E 3需要更大規(guī)模且算力等級(jí)更高、更昂貴的H100或者H200，DALL-E 3需要成千上萬(wàn)的H100/H200 GPU以及長(zhǎng)達(dá)數(shù)月的訓(xùn)練時(shí)間。

DeepSeek是何方神圣? 為何它讓AI行業(yè)大驚失色? 美國(guó)芯片制裁宣告失敗?

DeepSeek是一家成立僅一年多的中國(guó)人工智能初創(chuàng)公司，在展示了突破性的低成本人工智能大模型后，在硅谷乃至全球引起了人們的驚嘆與愕然，以及恐慌情緒。DeepSeek大模型的表現(xiàn)與世界上最強(qiáng)大的AI聊天機(jī)器人ChatGPT相當(dāng)，但成本只是后者的一小部分。

DeepSeek的出現(xiàn)可能與長(zhǎng)期以來AI領(lǐng)域的普遍看法形成對(duì)比，即行業(yè)普遍認(rèn)為，人工智能的未來發(fā)展將需要不斷增加的計(jì)算能力和能源投入。

臨近1月底，全球科技股暴跌，因?yàn)閲@DeepSeek創(chuàng)新的炒作愈演愈烈，投資者們也紛紛開始思考：規(guī)模低得多的算力所打造出的不輸于OpenAI的AI大模型，對(duì)該公司位于美國(guó)的生成式AI競(jìng)爭(zhēng)對(duì)手以及整個(gè)芯片產(chǎn)業(yè)鏈的影響程度。

DeepSeek應(yīng)用程序與其他AI聊天機(jī)器人(如OpenAI的ChatGPT)的重要區(qū)別之一在于，它會(huì)在對(duì)文字提示做出回應(yīng)之前闡明其推理過程。該公司聲稱，其R1版本的表現(xiàn)與OpenAI的最新版本相當(dāng)，并且已經(jīng)為有興趣使用該開源AI技術(shù)開發(fā)聊天機(jī)器人的個(gè)人授予了許可證。

盡管該公司沒有提供詳細(xì)的細(xì)節(jié)，但訓(xùn)練和開發(fā)DeepSeek大模型的成本似乎只是OpenAI或Meta Platforms旗艦AI產(chǎn)品所需成本的一小部分。該大模型的高效性讓投資者們紛紛質(zhì)疑是否需要投入大量資金從英偉達(dá)等芯片公司購(gòu)買最新、最強(qiáng)大的AI加速器。這也加劇了人們對(duì)美國(guó)對(duì)于中國(guó)出口此類先進(jìn)芯片的限制政策的重新關(guān)注——這些限制旨在防止DeepSeek所代表的那種突破，然而DeepSeek證明即使沒有H100/H200以及Blackwell，也能夠訓(xùn)練出不輸于OpenAI的大模型。

華盛頓已禁止向中國(guó)出口GPU芯片等高端技術(shù)，以阻止中國(guó)在人工智能領(lǐng)域的進(jìn)步，而人工智能是中美科技霸權(quán)之爭(zhēng)的關(guān)鍵前沿。但DeepSeek的進(jìn)展表明，中國(guó)的人工智能工程師們已經(jīng)繞過了這些芯片層面的限制，專注于在有限的資源下提高效率。盡管目前尚不清楚DeepSeek能夠獲得多少先進(jìn)的英偉達(dá)人工智能硬件，但該公司所展示的足以表明，芯片限制并未完全有效地阻礙中國(guó)企業(yè)在AI領(lǐng)域的進(jìn)步。

DeepSeek已經(jīng)證明R1大模型在多個(gè)領(lǐng)先的AI大模型基準(zhǔn)測(cè)試中接近或優(yōu)于競(jìng)爭(zhēng)對(duì)手OpenAI的大模型，比如用于數(shù)學(xué)任務(wù)的AIME 2024、用于常識(shí)知識(shí)的MMLU以及用于問答表現(xiàn)的AlpacaEval 2.0。在加州大學(xué)伯克利分校主導(dǎo)的排行榜Chatbot Arena上，R1也躋身表現(xiàn)最佳之列。

DeepSeek 的低成本+超高效+不輸于o1的大模型綜合性能，源于對(duì)大模型訓(xùn)練流程的每個(gè)環(huán)節(jié)都施加了“極致工程”與“精細(xì)微調(diào)”，幅降低大模型訓(xùn)練/推理成本。比如，以極致工程為導(dǎo)向的高效訓(xùn)練與數(shù)據(jù)壓縮策略，通過多層注意力(MLA)——尤其對(duì)Query端進(jìn)行低秩化，從而在訓(xùn)練時(shí)減少激活內(nèi)存負(fù)擔(dān)，還包括FP8 混合精度訓(xùn)練、DualPipe 并行通信、專家門控(MoE)負(fù)載均衡等手段，讓 DeepSeek 在訓(xùn)練階段將硬件資源利用率最大化，減少“不必要的算力浪費(fèi)”，以及“強(qiáng)化學(xué)習(xí)(即RL)+蒸餾+專業(yè)數(shù)據(jù)優(yōu)化”的創(chuàng)新型AI訓(xùn)練舉措，無需依賴監(jiān)督微調(diào)(SFT)或人工標(biāo)注數(shù)據(jù)。

DeepSeek引領(lǐng)的“低成本算力浪潮”已經(jīng)令投資者們開始懷疑美國(guó)AI大廠們支出的合理性，如果這些科技巨頭AI巨額投入仍然無法產(chǎn)生令投資者感到滿意的創(chuàng)收與盈利，以及超出市場(chǎng)預(yù)期的業(yè)績(jī)數(shù)據(jù)，可能迎來比去年夏季時(shí)期規(guī)模更大的“科技股拋售浪潮”。

據(jù)了解，雖然訓(xùn)練/推理成本相比于GPT家族以及LIama開源大模型驟降，但是DeepSeek大模型的多個(gè)性能指標(biāo)卻位于行業(yè)頂尖水平。性能評(píng)估結(jié)果顯示，通過純強(qiáng)化學(xué)習(xí)方法訓(xùn)練得到的 DeepSeek-R1-Zero以及在此基礎(chǔ)上改進(jìn)的 DeepSeek-R1，在 2024 年AIME(美國(guó)數(shù)學(xué)邀請(qǐng)賽)測(cè)試中分別取得了 71.0% 和 79.8% 的成績(jī),與 OpenAI o1 的79.2%水平可謂并駕齊驅(qū)。DeepSeek-R1在算法類代碼場(chǎng)景(Codeforces)以及GPQA、MMLU中的最終得分略低于OpenAI o1，但是在評(píng)估AI大模型在解決實(shí)際軟件工程問題能力的SWE-Bench Verified方面，意外強(qiáng)于o1。

根據(jù)市場(chǎng)追蹤機(jī)構(gòu)App Figures的數(shù)據(jù)，截至1月25日，DeepSeek移動(dòng)應(yīng)用下載量高達(dá)160萬(wàn)次，在澳大利亞、加拿大、中國(guó)、新加坡、美國(guó)和英國(guó)的iPhone應(yīng)用商店中排名第一。

有業(yè)內(nèi)分析師表示，DeepSeek的成功可能會(huì)促使OpenAI和其他美國(guó)AI應(yīng)用供應(yīng)商們降低定價(jià)，以保持其既定的領(lǐng)先地位。事實(shí)證明，更高效的模型能夠以少得多的支出基礎(chǔ)與競(jìng)爭(zhēng)對(duì)手進(jìn)行競(jìng)爭(zhēng)，因此DeepSeek橫空出世可謂全面引發(fā)了人們對(duì)Meta和微軟等科技巨頭巨額支出的質(zhì)疑——這些公司今年都承諾投入650億美元或更大規(guī)模的資本支出，主要用于人工智能基礎(chǔ)設(shè)施建設(shè)。

目前，世界各地的開發(fā)者都在試用DeepSeek的軟件，并希望用它來構(gòu)建各種AI工具，這可能會(huì)加快先進(jìn)人工智能推理模型的采用規(guī)模。因此，DeepSeek的云基礎(chǔ)設(shè)施可能會(huì)因其突然的爆火而受到推理端AI算力考驗(yàn)——這也是為什么一些英偉達(dá)與博通等AI芯片股多頭堅(jiān)信從長(zhǎng)期角度來看AI算力基礎(chǔ)設(shè)施需求將大得多。1月27日，該AI初創(chuàng)公司曾短暫遭遇了一次重大但短暫的宕機(jī)，隨著新老用戶向其AI聊天機(jī)器人發(fā)起更多查詢，該公司將不得不應(yīng)對(duì)更大規(guī)模的查詢流量帶來的AI推理端算力需求激增。

你可能想看：

DeepSeek R1豪賭“強(qiáng)化學(xué)習(xí)”：以3%的成本超越OpenAI

“木頭姐”談DeepSeek啟示：在AI領(lǐng)域成功不用那么燒錢，加速了成本崩潰

納指漲近400點(diǎn)英偉達(dá)漲9%；馬斯克合作Visa進(jìn)軍金融服務(wù)；春晚王菲獻(xiàn)唱岳云鵬遭“拆臺(tái)”；DeepSeek累計(jì)下載超300萬(wàn)次丨每經(jīng)早參

DeepSeek刺激太大！Altman“認(rèn)錯(cuò)”，稱考慮OpenAI開源，上線O3 Mini，推理模型首次免費(fèi)

阿斯麥CEO評(píng)價(jià)DeepSeek：AI成本降低將推動(dòng)半導(dǎo)體需求

DeepSeek沖擊全球算力！納指跌超3%，英偉達(dá)狂泄12%，美元、美債收益率急跌

DeepSeek開卷性價(jià)比 OpenAI發(fā)布更便宜的模型03-Mini

消息稱 OpenAI、谷歌等巨頭 AI 模型遇瓶頸：訓(xùn)練數(shù)據(jù)難尋，成本高昂

Altman因DeepSeek“認(rèn)錯(cuò)”：在開源上OpenAI站在了歷史的錯(cuò)誤一方

DeepSeek，“卷”瘋了！OpenAI、阿里云官宣！上新、降價(jià)、免費(fèi)試用！

轉(zhuǎn)載請(qǐng)注明來自江蘇中陽(yáng)智能廣告設(shè)備有限公司，本文標(biāo)題：《來自東方的DeepSeek震撼美利堅(jiān)! OpenAI掌舵者拍手稱贊，“低算力成本風(fēng)暴”重創(chuàng)納指》