專題:DeepSeek為何能震動(dòng)全球AI圈
智通財(cái)經(jīng)了解到,在美東時(shí)間周一晚些時(shí)候,全球最頂級(jí)AI科技公司OpenAI的掌舵者——即首席執(zhí)行官薩姆·奧爾特曼(Sam Altman)在社交媒體X的一篇最新帖子中,他對(duì)于以“極低訓(xùn)練/推理成本+超高性能”為核心特征,在短短幾日內(nèi)聞名全球的DeepSeek R1大模型可謂“贊不絕口”。奧爾特曼在帖子中可謂不嗇溢美之詞,盛贊DeepSeek R1這一性能堪比OpenAI o1同時(shí)AI算力成本極低的大模型所帶來的史無前例的“AI大模型算力新范式”。
在上周,來自中國(guó)DeepSeek的AI工程師團(tuán)隊(duì)所開創(chuàng)的DeepSeek R1大模型可謂霸榜美國(guó)熱搜,并且DeepSeek應(yīng)用周一登頂蘋果中國(guó)地區(qū)和美國(guó)地區(qū)應(yīng)用商店免費(fèi)APP下載排行榜,在美區(qū)下載榜上超越ChatGPT,堪稱屬于中國(guó)AI的“里程碑時(shí)刻”。DeepSeek團(tuán)隊(duì)證明,他們能夠在沒有世界最頂級(jí)的英偉達(dá)高性能AI GPU提供強(qiáng)大AI算力的情況下,以極低成本加上性能普通的AI加速器訓(xùn)練出推理能力一流的突破式開源AI大模型。在不到600萬(wàn)美元的極低投入成本和2048塊性能遠(yuǎn)低于H100與Blackwell的H800芯片條件下,DeepSeek團(tuán)隊(duì)打造出性能堪比OpenAI o1的開源AI模型,相比之下Anthropic與OpenAI訓(xùn)練成本高達(dá)10億美元。
隨著這股來自東方的“DeepSeek低算力成本風(fēng)暴”席卷全球,投資者們開始強(qiáng)烈質(zhì)疑美國(guó)科技巨頭們對(duì)于人工智能堪稱“非理性”的狂熱AI燒錢計(jì)劃是否合理,畢竟動(dòng)輒千億美元的支出,相比于DeepSeek僅僅百萬(wàn)美元級(jí)別成本令這些美國(guó)科技股投資者無比震驚的同時(shí)也無比憤怒。這也是為什么周一有著“全球科技股風(fēng)向標(biāo)”的納斯達(dá)克100指數(shù)暴跌2.97%,總市值較上周五收盤減少近1萬(wàn)億美元,涵蓋更多科技股的納斯達(dá)克綜合指數(shù)跌幅更是超過3%。
截至周一美股收盤,由于投資者們擔(dān)憂DeepSeek引領(lǐng)的“低成本AI大模型算力范式”推動(dòng)科技巨頭們?cè)诙讨衅趦?nèi)大幅削減AI GPU訂單,因此“AI芯片霸主”英偉達(dá)(NVDA.US)周一股價(jià)下跌近17%,收?qǐng)?bào)118.42美元,單日的市值蒸發(fā)規(guī)模達(dá)到5890億美元,為美國(guó)股市歷史上最大規(guī)模市值損失,打破此前紀(jì)錄。周一,英偉達(dá)也同時(shí)失去“全球最大市值公司”的寶座,不及蘋果和微軟,跌至第三。
隨著美國(guó)科技巨頭財(cái)報(bào)季本周開啟,這些長(zhǎng)期投資于美國(guó)科技股的投資者們迫切希望微軟(MSFT.US)、Meta(META.US)以及谷歌(GOOGL.US)等美國(guó)科技巨頭們對(duì)于AI方面的巨額投入能夠?qū)崿F(xiàn)積極創(chuàng)收與盈利規(guī)模,進(jìn)而實(shí)現(xiàn)整體營(yíng)收與利潤(rùn)業(yè)績(jī)大超預(yù)期,否則他們會(huì)將這種“非理性”AI支出,同時(shí)無法憑借大額投入帶來任何可觀創(chuàng)收與利潤(rùn),視為這些科技巨頭在AI方面的瘋狂支出“完完全全在損害歸屬于公司普通股股東的利潤(rùn)”,進(jìn)而掀起拋售大浪潮。
此外,在中國(guó)萬(wàn)家團(tuán)圓的除夕日,DeepSeek可謂徹底殺瘋了,DeepSeek正式發(fā)布集理解與生成一體的Janus-Pro和JanusFlow系列開源多模態(tài)AI模型,參數(shù)大小從10億到70億不等,給閉源多模態(tài)領(lǐng)域帶來開源圖像生成的震撼。有機(jī)構(gòu)投資者表示,DeepSeek證明了這種“低算力成本范式”不僅能夠打造出堪比OpenAI的文本生成AI聊天機(jī)器人,還以低成本能夠打造出堪比OpenAI DALL-E 3的多模態(tài)大模型,這也是為何周一美股盤中(即北京時(shí)間午夜),納指與英偉達(dá)等AI芯片股股價(jià)進(jìn)一步大跌的核心邏輯。
OpenAI掌舵者奧爾特曼盛贊DeepSeek!特朗普則認(rèn)為DeepSeek橫空出世為美國(guó)AI行業(yè)敲響警鐘
“這家迅速崛起至全球矚目的中國(guó)人工智能初創(chuàng)公司展現(xiàn)出了一個(gè)令世界印象深刻的模式,尤其是他們能夠以這樣的極低價(jià)格提供的AI產(chǎn)品?!眾W爾特曼在帖子中寫道。奧爾特曼承認(rèn)DeepSeek位列最強(qiáng)大競(jìng)爭(zhēng)對(duì)手,并表示這一競(jìng)爭(zhēng)局面“令人振奮”,OpenAI也勢(shì)必將加快進(jìn)程,向世人展現(xiàn)一些即將推出的新AI產(chǎn)品。
總部位于杭州的DeepSeek所推出風(fēng)靡全球的低成本AI大模型,周一可謂全面攪亂全球股市,與其公司同名的人工智能聊天機(jī)器人火爆全球似乎顛覆了這樣一種假設(shè):更好的人工智能需要更強(qiáng)大的AI計(jì)算能力。DeepSeek 的低成本+超高效+不輸于o1的大模型綜合性能,似乎在告訴Meta、微軟以及谷歌等美國(guó)科技巨頭:你們得好好反思耗費(fèi)的幾百億美元資金到底用到哪里去了?
但是,OpenAI掌舵者奧爾特曼在帖子中強(qiáng)力反駁了“未來人工智能進(jìn)步的生產(chǎn)成本將降低”的這一當(dāng)前最火熱的市場(chǎng)觀點(diǎn),稱他領(lǐng)導(dǎo)的OpenAI開發(fā)團(tuán)隊(duì)認(rèn)為“現(xiàn)在比以往任何時(shí)候都更需要更多的AI計(jì)算能力來成功實(shí)現(xiàn)我們的使命”。
OpenAI所主導(dǎo)的“星際之門”這一規(guī)模高達(dá)5000億美元的AI基礎(chǔ)設(shè)施建設(shè)項(xiàng)目最重要合作伙伴軟銀集團(tuán)的股價(jià)延續(xù)跌勢(shì),周一暴跌超8%之后,周二股價(jià)在東京股市繼續(xù)下跌,最終以超過5%的劇烈跌幅收盤。這兩家公司正牽頭一項(xiàng)初期規(guī)模1000億美元,最終可能高達(dá)5000億美元的基礎(chǔ)設(shè)施建設(shè)計(jì)劃,以支持OpenAI以及所有AI科技公司在美國(guó)的AI算力需求以及發(fā)展路線。
DeepSeek風(fēng)靡全球似乎引發(fā)美國(guó)總統(tǒng)特朗普的擔(dān)憂,美東時(shí)間周一,唐納德·特朗普在佛羅里達(dá)州的一場(chǎng)黨內(nèi)年度會(huì)議上發(fā)表講話。該會(huì)議主題往年聚焦政治內(nèi)容,出乎意料的是,特朗普竟然也提到了近日爆火海外的中國(guó)AI大模型DeepSeek。特朗普在講話中表示,中國(guó)初創(chuàng)公司DeepSeek的技術(shù)應(yīng)該對(duì)美國(guó)AI公司起到刺激作用,并認(rèn)為,中國(guó)公司開發(fā)出更便宜、更強(qiáng)大的人工智能方法是件好事。
特朗普在佛羅里達(dá)州表示:“中國(guó)公司發(fā)布DeepSeek人工智能應(yīng)該給我們的行業(yè)敲響警鐘,我們需要專注于競(jìng)爭(zhēng)以贏得勝利?!薄拔乙恢痹诹私庵袊?guó)和中國(guó)的一些公司,特別是有一家公司提出了一種更快、更便宜的人工智能方法,這很好,因?yàn)槟悴槐鼗敲炊噱X。我認(rèn)為這是積極的,是一種資產(chǎn)?!薄拔艺J(rèn)為這是積極的,因?yàn)槊绹?guó)AI科技公司們可以這樣做,我們也可以不用花那么多錢就能得到同樣的結(jié)果?!碧乩势赵谥v話中表示。
DeepSeek殺瘋了! 除夕放出“多模態(tài)”這一重磅核彈
全球AI行業(yè)剛剛經(jīng)受R1帶來的震撼與恐慌,中國(guó)人工智能初創(chuàng)DeepSeek又發(fā)布了新的模型,給閉源模型帶來開源“多模態(tài)”的震撼。美東時(shí)間1月27日周一,AI社區(qū)Hugging Face顯示,DeepSeek發(fā)布了分別名為Janus-Pro和JanusFlow的一系列開源多模態(tài)AI大模型,參數(shù)大小從10億到70億不等,都已可在Hugging Face供全球AI愛好者們下載。DeepSeek表示,Janus-Pro和JanusFlow的代碼均基于MIT許可證授權(quán),這意味著它們可以不受限地用于商業(yè)用途。
Janus-Pro-7B 在 MMBench 上得分為 79.2,明顯優(yōu)于 DALL-E 3(評(píng)分 68.5)和 Stable Diffusion 系列模型,并且超過了前代模型 Janus(69.4)以及其他競(jìng)爭(zhēng)對(duì)手(例如 TokenFlow-XL 13B、MetaMorph等)。通過視覺編碼的解耦,Janus-Pro 可以更好地處理圖像和文本的跨模態(tài)理解,并在視覺問答、圖像標(biāo)注等任務(wù)中展現(xiàn)出強(qiáng)勁的競(jìng)爭(zhēng)力。
Janus-Pro-7B 在GenEval測(cè)試中獲得 80% 的準(zhǔn)確率,超越了包括OpenAI的DALL-E 3(67%)和 Stable Diffusion 3 Medium(74%)在內(nèi)的所有對(duì)比模型,表現(xiàn)非常突出。在DPG-Bench 中,Janus-Pro 獲得了84.2的超級(jí)得分,顯示出其在復(fù)雜文本生成圖像指令方面的強(qiáng)大執(zhí)行力,作為對(duì)比,DALL-E 3僅為74,相比于 DALL-E 3,Janus-Pro在短提示詞生成的穩(wěn)定性、圖像細(xì)節(jié)的豐富性和生成指令的執(zhí)行能力上都顯示出更強(qiáng)的能力。
JanusFlow則基于極簡(jiǎn)的架構(gòu),將自回歸語(yǔ)言模型與 矯正流 (Rectified Flow) 結(jié)合。該架構(gòu)無需復(fù)雜的修改,直接通過 LLM 框架進(jìn)行訓(xùn)練。在文本生圖任務(wù)中,JanusFlow 支持高質(zhì)量的圖像生成,雖然整體分辨率為 384x384,但圖像質(zhì)量足以滿足大多數(shù)應(yīng)用需求。與 DALL-E 3 或其他模型相比,其圖像生成穩(wěn)定性較高,且簡(jiǎn)化的架構(gòu)意味著模型的部署和優(yōu)化更加高效。
JanusFlow 的模型尺寸從1B到7B不等,適應(yīng)了不同的應(yīng)用場(chǎng)景。7B大模型的能力接近 Janus-Pro-7B,且在一些簡(jiǎn)單任務(wù)中,1B大模型的版本已經(jīng)能夠滿足一般需求,甚至在瀏覽器中使用 WebGPU 就能直接運(yùn)行。
更重要的是,相較于OpenAI的DALL-E 3等其他大型 AI 模型,DeepSeek 的多模態(tài)模型具有明顯的成本優(yōu)勢(shì)。無論是在訓(xùn)練算力的需求上,還是在實(shí)際部署和使用的成本上,Janus-Pro 和 JanusFlow 都展現(xiàn)出了較高的性價(jià)比。比如,開源大模型Janus-Pr,1.5B模型僅用了128顆英偉達(dá)A100訓(xùn)練一周,而7B級(jí)別大模型也只是翻了個(gè)倍,相比之下DALL-E 3需要更大規(guī)模且算力等級(jí)更高、更昂貴的H100或者H200,DALL-E 3需要成千上萬(wàn)的H100/H200 GPU以及長(zhǎng)達(dá)數(shù)月的訓(xùn)練時(shí)間。
DeepSeek是何方神圣? 為何它讓AI行業(yè)大驚失色? 美國(guó)芯片制裁宣告失敗?
DeepSeek是一家成立僅一年多的中國(guó)人工智能初創(chuàng)公司,在展示了突破性的低成本人工智能大模型后,在硅谷乃至全球引起了人們的驚嘆與愕然,以及恐慌情緒。DeepSeek大模型的表現(xiàn)與世界上最強(qiáng)大的AI聊天機(jī)器人ChatGPT相當(dāng),但成本只是后者的一小部分。
DeepSeek的出現(xiàn)可能與長(zhǎng)期以來AI領(lǐng)域的普遍看法形成對(duì)比,即行業(yè)普遍認(rèn)為,人工智能的未來發(fā)展將需要不斷增加的計(jì)算能力和能源投入。
臨近1月底,全球科技股暴跌,因?yàn)閲@DeepSeek創(chuàng)新的炒作愈演愈烈,投資者們也紛紛開始思考:規(guī)模低得多的算力所打造出的不輸于OpenAI的AI大模型,對(duì)該公司位于美國(guó)的生成式AI競(jìng)爭(zhēng)對(duì)手以及整個(gè)芯片產(chǎn)業(yè)鏈的影響程度。
DeepSeek應(yīng)用程序與其他AI聊天機(jī)器人(如OpenAI的ChatGPT)的重要區(qū)別之一在于,它會(huì)在對(duì)文字提示做出回應(yīng)之前闡明其推理過程。該公司聲稱,其R1版本的表現(xiàn)與OpenAI的最新版本相當(dāng),并且已經(jīng)為有興趣使用該開源AI技術(shù)開發(fā)聊天機(jī)器人的個(gè)人授予了許可證。
盡管該公司沒有提供詳細(xì)的細(xì)節(jié),但訓(xùn)練和開發(fā)DeepSeek大模型的成本似乎只是OpenAI或Meta Platforms旗艦AI產(chǎn)品所需成本的一小部分。該大模型的高效性讓投資者們紛紛質(zhì)疑是否需要投入大量資金從英偉達(dá)等芯片公司購(gòu)買最新、最強(qiáng)大的AI加速器。這也加劇了人們對(duì)美國(guó)對(duì)于中國(guó)出口此類先進(jìn)芯片的限制政策的重新關(guān)注——這些限制旨在防止DeepSeek所代表的那種突破,然而DeepSeek證明即使沒有H100/H200以及Blackwell,也能夠訓(xùn)練出不輸于OpenAI的大模型。
華盛頓已禁止向中國(guó)出口GPU芯片等高端技術(shù),以阻止中國(guó)在人工智能領(lǐng)域的進(jìn)步,而人工智能是中美科技霸權(quán)之爭(zhēng)的關(guān)鍵前沿。但DeepSeek的進(jìn)展表明,中國(guó)的人工智能工程師們已經(jīng)繞過了這些芯片層面的限制,專注于在有限的資源下提高效率。盡管目前尚不清楚DeepSeek能夠獲得多少先進(jìn)的英偉達(dá)人工智能硬件,但該公司所展示的足以表明,芯片限制并未完全有效地阻礙中國(guó)企業(yè)在AI領(lǐng)域的進(jìn)步。
DeepSeek已經(jīng)證明R1大模型在多個(gè)領(lǐng)先的AI大模型基準(zhǔn)測(cè)試中接近或優(yōu)于競(jìng)爭(zhēng)對(duì)手OpenAI的大模型,比如用于數(shù)學(xué)任務(wù)的AIME 2024、用于常識(shí)知識(shí)的MMLU以及用于問答表現(xiàn)的AlpacaEval 2.0。在加州大學(xué)伯克利分校主導(dǎo)的排行榜Chatbot Arena上,R1也躋身表現(xiàn)最佳之列。
DeepSeek 的低成本+超高效+不輸于o1的大模型綜合性能,源于對(duì)大模型訓(xùn)練流程的每個(gè)環(huán)節(jié)都施加了“極致工程”與“精細(xì)微調(diào)”,幅降低大模型訓(xùn)練/推理成本。比如,以極致工程為導(dǎo)向的高效訓(xùn)練與數(shù)據(jù)壓縮策略,通過多層注意力(MLA)——尤其對(duì)Query端進(jìn)行低秩化,從而在訓(xùn)練時(shí)減少激活內(nèi)存負(fù)擔(dān),還包括FP8 混合精度訓(xùn)練、DualPipe 并行通信、專家門控(MoE)負(fù)載均衡等手段,讓 DeepSeek 在訓(xùn)練階段將硬件資源利用率最大化,減少“不必要的算力浪費(fèi)”,以及“強(qiáng)化學(xué)習(xí)(即RL)+蒸餾+專業(yè)數(shù)據(jù)優(yōu)化”的創(chuàng)新型AI訓(xùn)練舉措,無需依賴監(jiān)督微調(diào)(SFT)或人工標(biāo)注數(shù)據(jù)。
DeepSeek引領(lǐng)的“低成本算力浪潮”已經(jīng)令投資者們開始懷疑美國(guó)AI大廠們支出的合理性,如果這些科技巨頭AI巨額投入仍然無法產(chǎn)生令投資者感到滿意的創(chuàng)收與盈利,以及超出市場(chǎng)預(yù)期的業(yè)績(jī)數(shù)據(jù),可能迎來比去年夏季時(shí)期規(guī)模更大的“科技股拋售浪潮”。
據(jù)了解,雖然訓(xùn)練/推理成本相比于GPT家族以及LIama開源大模型驟降,但是DeepSeek大模型的多個(gè)性能指標(biāo)卻位于行業(yè)頂尖水平。性能評(píng)估結(jié)果顯示,通過純強(qiáng)化學(xué)習(xí)方法訓(xùn)練得到的 DeepSeek-R1-Zero以及在此基礎(chǔ)上改進(jìn)的 DeepSeek-R1,在 2024 年AIME(美國(guó)數(shù)學(xué)邀請(qǐng)賽)測(cè)試中分別取得了 71.0% 和 79.8% 的成績(jī),與 OpenAI o1 的79.2%水平可謂并駕齊驅(qū)。DeepSeek-R1在算法類代碼場(chǎng)景(Codeforces)以及GPQA、MMLU中的最終得分略低于OpenAI o1,但是在評(píng)估AI大模型在解決實(shí)際軟件工程問題能力的SWE-Bench Verified方面,意外強(qiáng)于o1。
根據(jù)市場(chǎng)追蹤機(jī)構(gòu)App Figures的數(shù)據(jù),截至1月25日,DeepSeek移動(dòng)應(yīng)用下載量高達(dá)160萬(wàn)次,在澳大利亞、加拿大、中國(guó)、新加坡、美國(guó)和英國(guó)的iPhone應(yīng)用商店中排名第一。
有業(yè)內(nèi)分析師表示,DeepSeek的成功可能會(huì)促使OpenAI和其他美國(guó)AI應(yīng)用供應(yīng)商們降低定價(jià),以保持其既定的領(lǐng)先地位。事實(shí)證明,更高效的模型能夠以少得多的支出基礎(chǔ)與競(jìng)爭(zhēng)對(duì)手進(jìn)行競(jìng)爭(zhēng),因此DeepSeek橫空出世可謂全面引發(fā)了人們對(duì)Meta和微軟等科技巨頭巨額支出的質(zhì)疑——這些公司今年都承諾投入650億美元或更大規(guī)模的資本支出,主要用于人工智能基礎(chǔ)設(shè)施建設(shè)。
目前,世界各地的開發(fā)者都在試用DeepSeek的軟件,并希望用它來構(gòu)建各種AI工具,這可能會(huì)加快先進(jìn)人工智能推理模型的采用規(guī)模。因此,DeepSeek的云基礎(chǔ)設(shè)施可能會(huì)因其突然的爆火而受到推理端AI算力考驗(yàn)——這也是為什么一些英偉達(dá)與博通等AI芯片股多頭堅(jiān)信從長(zhǎng)期角度來看AI算力基礎(chǔ)設(shè)施需求將大得多。1月27日,該AI初創(chuàng)公司曾短暫遭遇了一次重大但短暫的宕機(jī),隨著新老用戶向其AI聊天機(jī)器人發(fā)起更多查詢,該公司將不得不應(yīng)對(duì)更大規(guī)模的查詢流量帶來的AI推理端算力需求激增。
DeepSeek R1豪賭“強(qiáng)化學(xué)習(xí)”:以3%的成本超越OpenAI
“木頭姐”談DeepSeek啟示:在AI領(lǐng)域成功不用那么燒錢,加速了成本崩潰
DeepSeek刺激太大!Altman“認(rèn)錯(cuò)”,稱考慮OpenAI開源,上線O3 Mini,推理模型首次免費(fèi)
阿斯麥CEO評(píng)價(jià)DeepSeek:AI成本降低將推動(dòng)半導(dǎo)體需求
DeepSeek沖擊全球算力!納指跌超3%,英偉達(dá)狂泄12%,美元、美債收益率急跌
DeepSeek開卷性價(jià)比 OpenAI發(fā)布更便宜的模型03-Mini
消息稱 OpenAI、谷歌等巨頭 AI 模型遇瓶頸:訓(xùn)練數(shù)據(jù)難尋,成本高昂
還沒有評(píng)論,來說兩句吧...