OpenAI發(fā)布最新論文：DeepSeek和Kimi發(fā)現(xiàn)了o1的秘密

蒼風(fēng)慧婕 2025-02-12 最新資訊 2 次瀏覽 0個(gè)評(píng)論

鳳凰網(wǎng)科技訊 2月12日，在中國AI公司的影響下，OpenAI不得不公開O系列強(qiáng)化學(xué)習(xí)的秘密。今天（2月12日），OpenAI發(fā)布了關(guān)于推理模型在競(jìng)技編程中應(yīng)用的研究論文報(bào)告《Competitive Programming with Large Reasoning Models》，文中放出了OpenAI三個(gè)推理模型：o1、o1-ioi、o3在IOI（國際信息學(xué)奧林匹克競(jìng)賽）和CodeForces（全球知名在線編程競(jìng)賽）中的成績(jī)。

論文顯示，在IOI 2024中，o3在嚴(yán)格規(guī)則下拿到395.64分，達(dá)成金牌成就，并且在CodeForces上的表現(xiàn)與人類精英選手相當(dāng)。論文中特別提到，中國的DeepSeek-R1和Kimi k1.5通過獨(dú)立研究顯示，利用思維鏈學(xué)習(xí)（COT）方法，可顯著提升模型在數(shù)學(xué)解題與編程挑戰(zhàn)中的綜合表現(xiàn)。R1、k1.5是DeepSeek和Kimi在1月20日同時(shí)發(fā)布的新型推理模型。

該論文通過強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練的大型語言模型在復(fù)雜編碼和推理任務(wù)上的性能提升，比較了通用推理模型與針對(duì)特定領(lǐng)域優(yōu)化的系統(tǒng)在競(jìng)技編程中的表現(xiàn)。研究結(jié)果表明，增加強(qiáng)化學(xué)習(xí)訓(xùn)練計(jì)算和測(cè)試時(shí)計(jì)算可顯著提升模型性能，使其接近世界頂尖人類選手，這些模型將在科學(xué)、編碼、數(shù)學(xué)等領(lǐng)域的AI應(yīng)用中解鎖新的應(yīng)用體驗(yàn)。

原論文地址：https://arxiv.org/abs/2502.06807

【免責(zé)聲明】本文僅代表作者本人觀點(diǎn)，與和訊網(wǎng)無關(guān)。和訊網(wǎng)站對(duì)文中陳述、觀點(diǎn)判斷保持中立，不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考，并請(qǐng)自行承擔(dān)全部責(zé)任。郵箱：[email protected]

你可能想看：

DeepSeek開卷性價(jià)比 OpenAI發(fā)布更便宜的模型03-Mini

OpenAI發(fā)布o3-mini卷入“價(jià)格戰(zhàn)”，推理模型首次向免費(fèi)用戶開放

DeepSeek刺激太大！Altman“認(rèn)錯(cuò)”，稱考慮OpenAI開源，上線O3 Mini，推理模型首次免費(fèi)

一地發(fā)現(xiàn)超40條金礦脈，這只黃金股躺贏？公司最新回應(yīng)！AI醫(yī)療有新利好

OpenAI首席執(zhí)行官承認(rèn)：DeepSeek出現(xiàn)的時(shí)機(jī)確實(shí)讓我意外

-6℃！西安雨夾雪、中到大雪要來！西安氣象最新發(fā)布

Altman因DeepSeek“認(rèn)錯(cuò)”：在開源上OpenAI站在了歷史的錯(cuò)誤一方

DeepSeek，“卷”瘋了！OpenAI、阿里云官宣！上新、降價(jià)、免費(fèi)試用！

轉(zhuǎn)載請(qǐng)注明來自江蘇中陽智能廣告設(shè)備有限公司，本文標(biāo)題：《OpenAI發(fā)布最新論文：DeepSeek和Kimi發(fā)現(xiàn)了o1的秘密》

蒼風(fēng)慧婕 72篇文章站點(diǎn) 微博

每一天，每一秒，你所做的決定都會(huì)改變你的人生！