馬斯克：這是我見過的對DeepSeek最透徹的分析！

無妄翠巧 2025-01-28 最新資訊 9 次瀏覽 0個評論

來源：市場資訊

來源：AI智見錄

“馬斯克評論： “有趣的分析。我所見過的最好的?！?

“AI 將無處不在。”

“馬斯克評論： “有趣的分析。我所見過的最好的?！?

“AI 將無處不在?！?/p>

DeepSeek r1 的真相與細節(jié)

真實情況：

它在相關 App Store 類別中下載量排名第一。明顯領先于 ChatGPT，這是 Gemini 和 Claude 都未能實現的。
從質量角度來看，它與 o1 相當，但仍落后于 o3。
實現了真正的算法突破，使其在訓練和推理方面都大大提高了效率。FP8 訓練、MLA 和多 token 預測都具有重要意義。
容易驗證 r1 的訓練成本僅為 600 萬美元。雖然這在字面上是真實的，但也極具誤導性。
即使他們的硬件架構也很新穎，值得注意的是他們使用 PCI-Express 進行擴展。

它在相關 App Store 類別中下載量排名第一。明顯領先于 ChatGPT，這是 Gemini 和 Claude 都未能實現的。

從質量角度來看，它與 o1 相當，但仍落后于 o3。

展開全文

實現了真正的算法突破，使其在訓練和推理方面都大大提高了效率。FP8 訓練、MLA 和多 token 預測都具有重要意義。

容易驗證 r1 的訓練成本僅為 600 萬美元。雖然這在字面上是真實的，但也極具誤導性。

即使他們的硬件架構也很新穎，值得注意的是他們使用 PCI-Express 進行擴展。

重要細節(jié)：

根據技術論文，600 萬美元并不包括“與前期研究和架構、算法和數據消融實驗相關的成本”。這意味著，只有在實驗室已經在前期研究上投入數億美元并且能夠訪問更大規(guī)模集群的情況下，才有可能以 600 萬美元的成本訓練出 r1 質量的模型。DeepSeek 顯然擁有遠超 2048 個 H800 的算力；他們早期的一篇論文提到擁有 10000 個 A100 的集群。一個同樣聰明的團隊不可能僅憑 600 萬美元就能啟動 2000 個 GPU 集群并從頭開始訓練 r1。大約 20% 的 Nvidia 收入來自新加坡。盡管他們盡了最大努力，但 20% 的 Nvidia GPU 可能并不在新加坡。
存在大量的知識蒸餾——也就是說，如果沒有對 GPT-4o 和 o1 的無障礙訪問，他們可能無法完成這個訓練。正如 @altcap 昨天向我指出的，限制前沿 GPU 的訪問權限卻不對中國蒸餾美國前沿模型的能力采取任何措施，這很有趣——顯然違背了出口限制的目的。為什么要買牛，如果可以免費獲得牛奶？

根據技術論文，600 萬美元并不包括“與前期研究和架構、算法和數據消融實驗相關的成本”。這意味著，只有在實驗室已經在前期研究上投入數億美元并且能夠訪問更大規(guī)模集群的情況下，才有可能以 600 萬美元的成本訓練出 r1 質量的模型。DeepSeek 顯然擁有遠超 2048 個 H800 的算力；他們早期的一篇論文提到擁有 10000 個 A100 的集群。一個同樣聰明的團隊不可能僅憑 600 萬美元就能啟動 2000 個 GPU 集群并從頭開始訓練 r1。大約 20% 的 Nvidia 收入來自新加坡。盡管他們盡了最大努力，但 20% 的 Nvidia GPU 可能并不在新加坡。

存在大量的知識蒸餾——也就是說，如果沒有對 GPT-4o 和 o1 的無障礙訪問，他們可能無法完成這個訓練。正如 @altcap 昨天向我指出的，限制前沿 GPU 的訪問權限卻不對中國蒸餾美國前沿模型的能力采取任何措施，這很有趣——顯然違背了出口限制的目的。為什么要買牛，如果可以免費獲得牛奶？

核心發(fā)現：

DeepSeek r1 確實具有重要意義，但需要注意一些細微差別。最重要的是 r1 在推理成本上比 o1 低得多且效率更高，這比 600 萬美元的訓練成本更具意義。r1 的每次 API 調用成本比 o1 低 93%，可以在高端工作站上本地運行，而且似乎沒有遇到任何速率限制，這很不可思議。簡單計算一下，每 10 億個活躍參數在 FP8 下需要 1GB 的 RAM，因此 r1 需要 37GB 的 RAM。批處理大大降低了成本，更多的計算能力增加了每秒 token 數，所以云端推理仍然具有優(yōu)勢。還要注意，這里存在真正的地緣政治動態(tài)，我認為這在“Stargate”之后發(fā)布并非巧合。再見了，5000 億美元——我們幾乎都還沒認識你。

結論要點：

降低訓練成本將提高 AI 的投資回報率。
在短期內，這對訓練資本支出或“能源”主題都不會產生積極影響。
目前“AI 基礎設施”贏家（跨科技、工業(yè)、公用事業(yè)和能源領域）面臨的最大風險是：r1 的精簡版本可以在高端工作站（如有人提到的 Mac Studio Pro）上本地運行。這意味著類似的模型將在約 2 年內可以在高性能手機上運行。如果推理計算轉移到邊緣設備是因為“夠用了”，那么我們將面臨一個截然不同的世界，出現不同的贏家——即我們將見證有史以來最大規(guī)模的 PC 和智能手機升級周期。計算能力一直在集中化和去中心化之間擺動。
人工超級智能（ASI）已經非常接近，但沒有人真正知道超級智能的經濟回報會是什么。如果一個耗資 1000 億美元、在 10 萬多個 Blackwells（o5、Gemini 3、Grok 4）上訓練的推理模型能夠治愈癌癥和發(fā)明曲速引擎，那么 ASI 的回報將非常高，訓練資本支出和能源消耗將穩(wěn)步增長；戴森球將重新成為解釋費米悖論的最佳理論。我希望 ASI 的回報是高的——那將太棒了。
這對于使用 AI 的公司都非常有利：軟件、互聯網等。
從經濟角度來看，這極大地提升了分發(fā)渠道和獨特數據的價值——YouTube、Facebook、Instagram 和 X。
美國的實驗室可能會停止發(fā)布其前沿模型，以防止對 r1 至關重要的知識蒸餾，盡管在這方面，貓可能已經完全跑出了袋子。即 r1 可能足以訓練 r2 等。

降低訓練成本將提高 AI 的投資回報率。

在短期內，這對訓練資本支出或“能源”主題都不會產生積極影響。

目前“AI 基礎設施”贏家（跨科技、工業(yè)、公用事業(yè)和能源領域）面臨的最大風險是：r1 的精簡版本可以在高端工作站（如有人提到的 Mac Studio Pro）上本地運行。這意味著類似的模型將在約 2 年內可以在高性能手機上運行。如果推理計算轉移到邊緣設備是因為“夠用了”，那么我們將面臨一個截然不同的世界，出現不同的贏家——即我們將見證有史以來最大規(guī)模的 PC 和智能手機升級周期。計算能力一直在集中化和去中心化之間擺動。

人工超級智能（ASI）已經非常接近，但沒有人真正知道超級智能的經濟回報會是什么。如果一個耗資 1000 億美元、在 10 萬多個 Blackwells（o5、Gemini 3、Grok 4）上訓練的推理模型能夠治愈癌癥和發(fā)明曲速引擎，那么 ASI 的回報將非常高，訓練資本支出和能源消耗將穩(wěn)步增長；戴森球將重新成為解釋費米悖論的最佳理論。我希望 ASI 的回報是高的——那將太棒了。

這對于使用 AI 的公司都非常有利：軟件、互聯網等。

從經濟角度來看，這極大地提升了分發(fā)渠道和獨特數據的價值——YouTube、Facebook、Instagram 和 X。

美國的實驗室可能會停止發(fā)布其前沿模型，以防止對 r1 至關重要的知識蒸餾，盡管在這方面，貓可能已經完全跑出了袋子。即 r1 可能足以訓練 r2 等。

Grok-3 的影響

Grok-3 的出現可能會顯著影響上述結論。這將是自 GPT-4 以來首次對預訓練擴展定律的重要測試。就像花了幾周時間通過強化學習將 v3 轉變?yōu)?r1 一樣，運行必要的強化學習來提高 Grok-3 的推理能力也可能需要幾周時間?；A模型越好，推理模型就應該越好，因為三個擴展定律是相乘的——預訓練、后訓練期間的強化學習，以及推理過程中的測試時計算（這是強化學習的函數）。Grok-3 已經表明它可以完成超出 o1 的任務——參見 Tesseract 演示——超出多少將變得很重要。用《雙塔奇兵》中一個匿名獸人的話來說，“肉可能很快就會重新上菜”。時間會告訴我們答案，“當事實改變時，我就改變主意。”

你可能想看：

馬斯克，DeepSeek頭號黑粉

納指漲近400點英偉達漲9%；馬斯克合作Visa進軍金融服務；春晚王菲獻唱岳云鵬遭“拆臺”；DeepSeek累計下載超300萬次丨每經早參

2024澳門資料大全正新版,時代資料在競爭分析中的重要性

精準澳門平特一肖,絕對經典的文學作品分析

二四六好彩7777788888,解析落實的詳細流程分析

澳門2003管家婆免費大全資料,數據資料分析工具使用教程

7777788888管家婆一肖碼,決策資料的收集與分析方法

澳門天天開彩大全免費,不同企業(yè)的核心關注分析

新澳今天最新資料99588,數據資料的趨勢分析技巧

澳門王中王100%的資料,最新答案的搜索趨勢分析

轉載請注明來自江蘇中陽智能廣告設備有限公司，本文標題：《馬斯克：這是我見過的對DeepSeek最透徹的分析！》