當?shù)貢r間1月31日周五, OpenAI正式推出了全新推理模型o3-mini,并首次向免費用戶開放推理模型。這是OpenAI推理系列中最新、成本效益最高的模型,OpenAI稱該模型能夠進行類似人類的推理,現(xiàn)在已經(jīng)在ChatGPT和API中上線。隨著DeepSeek發(fā)布開源模型震撼全球,OpenAI的這款新品備受關注。
o3-mini能夠以更低的成本、更快的響應速度,為用戶提供STEM能力,在科學、數(shù)學和編程領域表現(xiàn)尤為出色,同時延續(xù)了o1-mini等之前版本的低成本和低延遲特點。值得一提的是,開發(fā)者可以根據(jù)需求在低、中、高三種不同的“推理努力”選項中進行選擇。
OpenAI表示,雖然OpenAI o1仍然是用于一般知識推理的廣泛模型,但OpenAI o3-mini為那些需要精確性和快速響應的技術領域提供了一個專門的替代方案。o3-mini采用中等推理努力,在速度與準確性之間實現(xiàn)了平衡。
受DeepSeek刺激,OpenAI可能考慮開源、公開完整思維鏈。
在o3mini正式推出之時,Sam Altman攜一眾高管在reddit回答網(wǎng)友問題,其間罕見承認 OpenAI過去在開源方面一直站在“歷史錯誤的一邊”。Altman表示:“需要想出一個不同的開源策略”。
在談及DeepSeek時,Altman表示它是“一個很好的模型”,并表示“我們將生產(chǎn)更好的模型, 但與往年相比,領先優(yōu)勢更少”。
Altman還進一步表示, 得益于DeepSeek,OpenAI可能更多地揭示其所謂的推理模型(如O3-Mini)如何展示其“思考過程”。目前,OpenAI的模型隱藏了它們的推理過程,防止競爭對手為自己的模型獲取訓練數(shù)據(jù)。相比之下,DeepSeek的R1模型則對用戶開放思維鏈輸出。
OpenAI首席產(chǎn)品官Kevin Weil也補充表示:
“我們正在努力展示比今天更多的內容,這將很快實現(xiàn)。待定,展示所有的思維鏈(CoT)的確會導致競爭性蒸餾,但我們也知道人們(至少是高級用戶)想要它,所以我們會找到合適的方法來平衡它?!?/span>
“我們正在努力展示比今天更多的內容,這將很快實現(xiàn)。待定,展示所有的思維鏈(CoT)的確會導致競爭性蒸餾,但我們也知道人們(至少是高級用戶)想要它,所以我們會找到合適的方法來平衡它。”
支持更多開發(fā)者功能
o3-mini是第一個支持開發(fā)者常用功能的小型推理模型,包括:
函數(shù)調用:可以直接調用預設函數(shù),實現(xiàn)更高效的任務處理。
結構化輸出:讓模型輸出的信息更規(guī)整,便于解析和應用。
開發(fā)者消息:為開發(fā)者提供更多調試和信息反饋手段。
函數(shù)調用:可以直接調用預設函數(shù),實現(xiàn)更高效的任務處理。
結構化輸出:讓模型輸出的信息更規(guī)整,便于解析和應用。
開發(fā)者消息:為開發(fā)者提供更多調試和信息反饋手段。
與之前的o1-mini一樣,最新的o3-mini同樣支持流式輸出。
OpenAI介紹稱, o3-mini支持開發(fā)者調整“AI推理努力程度”,分為低、中、高三個級別。這種靈活性使得o3-mini可以在面對難題時“更努力思考”,而需要效率時優(yōu)先考慮回應速度。
o3-mini不支持視覺能力,因此對于需要進行圖像處理或視覺推理任務的用戶,仍需使用OpenAI的o1模型。
廣泛的接入方式
對于不同類型用戶,o3-mini可以通過多個渠道接入:
API用戶:在Chat Completions、Assistants和Batch API中,o3-mini已經(jīng)向部分API用戶開放(適用于使用層級3-5的用戶)。
ChatGPT用戶:ChatGPT Plus、Team和Pro用戶從周五開始即可使用,企業(yè)用戶則將在一周后獲得訪問權限。
免費用戶:免費用戶也能通過選擇“推理模式”或重新生成回答的方式體驗o3-mini。這是首次免費用戶可以使用具備推理能力的模型。
API用戶:在Chat Completions、Assistants和Batch API中,o3-mini已經(jīng)向部分API用戶開放(適用于使用層級3-5的用戶)。
ChatGPT用戶:ChatGPT Plus、Team和Pro用戶從周五開始即可使用,企業(yè)用戶則將在一周后獲得訪問權限。
免費用戶:免費用戶也能通過選擇“推理模式”或重新生成回答的方式體驗o3-mini。這是首次免費用戶可以使用具備推理能力的模型。
OpenAI表示,o3-mini將取代模型選擇器中的OpenAI o1-mini。 所有付費用戶可以在模型選擇器中選擇o3-mini-high——一個智力更強、但生成響應速度略慢的版本。
Pro用戶可無限制地使用o3-mini和o3-mini-high。OpenAI將Plus和Team用戶的日消息限額從o1-mini的50條提高到o3-mini的150條。
此外, o3-mini現(xiàn)已支持搜索功能,能夠查找最新答案并提供相關網(wǎng)頁鏈接。這是一個早期原型,OpenAI稱正在努力將搜索功能整合到所有推理模型中。
模型性能亮點
據(jù)OpenAI披露,在2024年美國數(shù)學邀請賽(AIME 2024)的測試中,低推理努力的o3-mini準確率為60%,與o1-mini差不多,但速度更快;而在中等努力下,o3-mini的準確率能夠提升到79.6%,與o1模型相當;在最高努力水平時, o3-mini的準確率則能進一步提升至87.3%。
在博士級科學問題(GPQA Diamond)方面,三種努力程度模型的準確率分別為70.6%、76.8%和79.7%。
FrontierMath前沿數(shù)學與Codeforces等編程競賽方面,o3-mini也顯示出明顯優(yōu)勢,甚至在某些評測中遠超前代模型。
在SWE-bench Verified軟件工程任務測試中,o3-mini高推理版本的準確率達到了超過49%,優(yōu)于舊版本。
通用知識方面,在各種知識評測中,o3-mini的表現(xiàn)也超過了o1-mini,能夠為用戶提供更準確的答案。
在智能水平與o1相當?shù)那疤嵯?,o3-mini提供了更快的性能和更高的效率。除了上述提及的STEM評估之外,采用中等推理努力的情況下,o3-mini在數(shù)學和事實性評估中也展現(xiàn)出更出色的表現(xiàn)。在A/B測試中,o3-mini的響應速度比o1-mini快24%,其平均響應時間為7.7秒,而o1-mini為10.16秒。延遲方面,o3-mini的首個token平均比o1-mini快2500毫秒。
安全性與風險防控
OpenAI表示,o3-mini采用了“深思熟慮的對齊”方法,即在回答用戶問題之前,讓模型先思考人類制定的安全規(guī)則。與o1模型類似,o3-mini在應對復雜安全挑戰(zhàn)和防止繞過安全措施(jailbreak)上,比GPT-4o表現(xiàn)得更出色。
在發(fā)布前,OpenAI采用了全面的安全準備、外部紅隊測試和多種安全評估方法,對o3-mini的風險進行了嚴格評估。相關的詳細評估結果和風險防控措施,均記錄在o3-mini的系統(tǒng)卡中。
未來展望
OpenAI公司表示,o3-mini的發(fā)布標志著OpenAI在推動低成本智能邊界方面又邁出了一步。通過為STEM領域優(yōu)化推理能力,同時保持低成本,使高質量的人工智能變得更加普及。OpenAI指出,該模型延續(xù)了不斷降低智能成本的傳統(tǒng)——自推出GPT-4以來,每個token的定價降低了95%——同時依然保持頂級的推理能力。
OpenAI表示,隨著人工智能的廣泛應用,將繼續(xù)走在前沿,構建在智能、效率和安全性上取得平衡的大規(guī)模模型。
o3-mini發(fā)布前夕
o3-mini的發(fā)布背景頗為引人注目。
在此前OpenAI宣布Operator AI代理之后僅一天,特朗普政府就公布了大規(guī)模的“星際之門”AI資助項目。
隨后,DeepSeek R1的崛起震驚全球,對市場造成沖擊,AI領域競爭加劇,OpenAI加快了o3-mini發(fā)布進程,以維持其在AI領域的領先地位。在o3-mini正式發(fā)布前就有消息稱,OpenAI準備本周五發(fā)布新一代推理模型ChatGPT o3-mini,該模型是o3系列的精簡版本,專為特定任務優(yōu)化,速度更快且更具成本效益。
OpenAI CEO Sam Altman于1月17日在社交平臺X上表示,ChatGPT o3-mini的最終版本已經(jīng)完成,正在進入發(fā)布流程。當時他預計新版本將在"大約幾周后"推出。
受DeepSeek影響?OpenAI上線O3 Mini,推理模型首次免費
最新!OpenAI上架推理模型o3-mini,首次向免費用戶開放!AIME測試中,o3-mini最高準確率達87.3%
OpenAI發(fā)布o3-mini卷入“價格戰(zhàn)”,推理模型首次向免費用戶開放
Altman因DeepSeek“認錯”:在開源上OpenAI站在了歷史的錯誤一方
視頻丨OpenAI推出性價比模型o3-mini對戰(zhàn)DeepSeek-R1,奧特曼反思開源問題
DeepSeek開卷性價比 OpenAI發(fā)布更便宜的模型03-Mini
OpenAI“o3 mini”推理AI模型完成!將于幾周內面世
看好DeepSeek刺激AI需求,SAP預計今年云收入加速增長,若滿足要求或用中國模型 | 財報見聞
DeepSeek r1是一個極不安全的 AI 模型,而開源讓它失去控制
復旦大學副教授鄭驍慶談DeepSeek:AI行業(yè)不只有“規(guī)模法則”,開源將加速模型更新,芯片需求可能不降反增
還沒有評論,來說兩句吧...