亚洲成AⅤ人片在线观看_亚洲性无码一区二区三区_无码综合天天久久综合网_四虎精品成人A在线观看

剛剛,DeepMind最強(qiáng)「基礎(chǔ)世界模型」誕生!單圖生1分鐘游戲世界,解鎖下一代智能體

剛剛,DeepMind最強(qiáng)「基礎(chǔ)世界模型」誕生!單圖生1分鐘游戲世界,解鎖下一代智能體

睿德桑 2024-12-05 技術(shù)資訊 75 次瀏覽 0個(gè)評(píng)論

  來(lái)源:華爾街見聞

  谷歌DeepMind最新基礎(chǔ)世界模型Genie 2登場(chǎng)!只要一張圖,就能生成長(zhǎng)達(dá)1分鐘的游戲世界。從此,我們將擁有無(wú)限的具身智能體訓(xùn)練數(shù)據(jù)。更有人驚呼:黑客帝國(guó)來(lái)了。

  就在剛剛,谷歌DeepMind的第二代大規(guī)?;A(chǔ)世界模型Genie 2誕生了!

  從此,AI可以生成各種一致性的世界,最長(zhǎng)可玩1分鐘。

  谷歌研究人員表示,相信Genie 2可以解鎖具身智能體的下一波能力。

  從第一人稱的真實(shí)世界場(chǎng)景,到第三人稱的駕駛環(huán)境,Genie 2生成了一個(gè)720p的世界。

  給定一幅圖像,它就能模擬出世界動(dòng)態(tài),創(chuàng)建一個(gè)可通過(guò)鍵盤和鼠標(biāo)輸入的、可操作的一致環(huán)境。

  具身智能體的潛力有多大?

  在以下這個(gè)Imagen 3生成的世界中,研究者測(cè)試出最新的智能體是否可以遵循語(yǔ)言指令,走到紅門或藍(lán)門。

  結(jié)果令人驚喜!

  就這樣,現(xiàn)在我們擁有了一條通往無(wú)限環(huán)境的道路,來(lái)訓(xùn)練和評(píng)估具身智能體了。

  研究者創(chuàng)造了一個(gè)有3個(gè)拱門的世界后,Genie 2再次模擬了這個(gè)世界,讓團(tuán)隊(duì)解決了任務(wù)。

  對(duì)此,網(wǎng)友們紛紛表示贊嘆:’這項(xiàng)工作實(shí)在是太棒了!今后,我們終于可以將開放式智能體與開放世界模型結(jié)合起來(lái)。我們正在朝著近乎無(wú)限的訓(xùn)練數(shù)據(jù)體系邁進(jìn)。’

  還有網(wǎng)友表示:‘黑客帝國(guó)’的世界,要來(lái)了!

  為未來(lái)的通用智能體,生成無(wú)限多樣的訓(xùn)練環(huán)境

  作為一種基礎(chǔ)世界生成模型,Genie 2能生成無(wú)限多樣的、可操控且可玩的3D環(huán)境,用于訓(xùn)練和評(píng)估具身智能體。

  基于一張?zhí)崾驹~圖像,它就可被人類或AI智能體操作了!方式是使用鍵盤和鼠標(biāo)輸入。

  在AI研究中,游戲一直扮演著至關(guān)重要的角色。因?yàn)榫哂幸砸巳雱俚奶匦?、?dú)特的挑戰(zhàn)組合以及可衡量的進(jìn)展,游戲成為了安全測(cè)試和提升AI能力的理想環(huán)境。

  自Google DeepMind成立以來(lái),游戲一直都是研究的核心——從早期的Atari游戲研究,到AlphaGo和AlphaStar等突破性成果,再到與游戲開發(fā)者合作研究通用智能體。

  然而,訓(xùn)練更通用的具身智能體,卻因缺乏足夠豐富和多樣化的訓(xùn)練環(huán)境而受到限制。

  但現(xiàn)在,Genie 2的誕生改變了一切。

  從此,未來(lái)的智能體可以在無(wú)限的新世界場(chǎng)景中進(jìn)行訓(xùn)練和評(píng)估了。

  交互式體驗(yàn)原型設(shè)計(jì)的新型創(chuàng)意工作流程,也有了全新的可能性。

  基礎(chǔ)世界模型的涌現(xiàn)能力

  迄今為止,世界模型在很大程度上都受限于對(duì)狹窄領(lǐng)域的建模。

  在Genie 1中,研究人員引入了一種生成多樣化二維世界的方法。

  而到了Genie 2這一代,在通用性上實(shí)現(xiàn)了重大突破——它能生成豐富多樣的3D世界了。

  Genie 2是一種世界模型,這就意味著,它可以模擬虛擬世界,包括采取任何行動(dòng)(如跳躍、游泳等)的后果。

  基于大規(guī)模視頻數(shù)據(jù)集進(jìn)行訓(xùn)練后,它像其他生成式AI模型一樣,展現(xiàn)出了各種規(guī)模的涌現(xiàn)能力,例如物體交互、復(fù)雜的角色動(dòng)畫、物理效果、建模、預(yù)測(cè)其他智能體行為的能力等等。

  對(duì)于每個(gè)人類與Genie 2互動(dòng)的demo,模型都以由Imagen 3生成的單張圖片作為提示詞輸入,

  這就意味著,任何人都可以用文字描述自己想要的世界,選擇自己喜歡的渲染效果,然后進(jìn)入這個(gè)新創(chuàng)建的世界,并且與之互動(dòng)(或者,也可以讓AI智能體在其中被訓(xùn)練或評(píng)估)。

  每一步,人或智能體都能通過(guò)鍵盤和鼠標(biāo)提供動(dòng)作,而Genie 2會(huì)模擬下一步的觀察結(jié)果。

  在長(zhǎng)達(dá)一分鐘的時(shí)間里,Genie 2可以生成一個(gè)一致的世界,持續(xù)時(shí)間直接長(zhǎng)達(dá)10-20秒!

  動(dòng)作控制

  Genie 2能夠智能響應(yīng)通過(guò)鍵盤按鍵采取的動(dòng)作,識(shí)別角色并正確移動(dòng)。

  例如,模型必須計(jì)算出,箭頭鍵應(yīng)該移動(dòng)機(jī)器人,而不是移動(dòng)樹木或云朵。

  生成反事實(shí)

  Genie 2能夠基于同一個(gè)開始畫面,創(chuàng)造出多個(gè)不同的發(fā)展。

  這意味著我們可以為AI訓(xùn)練提供各種‘如果這樣做會(huì)怎樣’的場(chǎng)景。

  在下面的這兩行demo中,每個(gè)視頻都會(huì)從完全相同的畫面開始,但人類玩家會(huì)選擇不同行動(dòng)。

  長(zhǎng)時(shí)間記憶

  Genie 2能夠記住那些暫時(shí)離開畫面的場(chǎng)景,并在它們重新進(jìn)入視野時(shí),精確地還原出來(lái)。

  持續(xù)生成新場(chǎng)景

  Genie 2能在過(guò)程中實(shí)時(shí)創(chuàng)造出符合邏輯的新場(chǎng)景內(nèi)容,并且可以在長(zhǎng)達(dá)一分鐘的時(shí)間內(nèi)保持整個(gè)世界的一致性。

  多樣化環(huán)境

  Genie 2能夠生成多種不同的觀察視角,比如第一人稱視角、等距視角(45度俯視角)或第三人稱駕駛視角。

  3D結(jié)構(gòu)

  Genie 2能夠創(chuàng)建復(fù)雜的3D視覺(jué)場(chǎng)景。

  物體屬性與交互

  Genie 2能夠建模各種物體交互,例如氣球爆裂、開門和射擊炸藥桶。

  角色動(dòng)畫

  Genie 2能夠?yàn)椴煌愋偷慕巧?,制作各種動(dòng)作的動(dòng)畫。

  NPC

  Genie 2能夠?yàn)槠渌悄荏w建模,甚至與它們進(jìn)行復(fù)雜交互。

  物理效果

  Genie 2能夠模擬出水面的動(dòng)效。

  煙霧

  Genie 2能夠模擬煙霧的效果。

  重力

  Genie 2能夠模擬重力。

  光照

  Genie 2能夠模擬點(diǎn)光源和方向光。

  反射

  Genie 2能夠模擬反射、泛光和彩色光照。

  基于真實(shí)圖像的模擬

  Genie 2還可以將真實(shí)世界的圖像作為提示詞輸入,并模擬出草葉在風(fēng)中搖曳或河水流動(dòng)等場(chǎng)景。

  快速創(chuàng)建測(cè)試原型

  有了Genie 2,制作多樣化的交互場(chǎng)景就變得簡(jiǎn)單了。

  研究人員可以快速嘗試新環(huán)境,來(lái)訓(xùn)練和測(cè)試具身AI智能體。

  例如,下面就是研究人員向Genie 2輸入Imagen 3生成的不同圖像,來(lái)模擬操控紙飛機(jī)、飛龍、獵鷹或降落傘等不同的飛行方式。

  在這個(gè)過(guò)程中,也同時(shí)測(cè)試了Genie處理不同控制對(duì)象動(dòng)作時(shí)的表現(xiàn)。

  憑借強(qiáng)大的離散泛化能力,Genie 2可以將概念設(shè)計(jì)圖和手繪草圖轉(zhuǎn)化為可實(shí)際交互的場(chǎng)景。

  從而讓藝術(shù)家和設(shè)計(jì)師能夠快速驗(yàn)證創(chuàng)意,提升場(chǎng)景設(shè)計(jì)的效率,并加快相關(guān)研究的進(jìn)度。

  以下是由概念設(shè)計(jì)師創(chuàng)作出的一些虛擬場(chǎng)景示例。

  AI智能體在世界模型中行動(dòng)

  借助Genie 2,研究人員能夠快速構(gòu)建出豐富多樣的虛擬環(huán)境,并創(chuàng)造全新的評(píng)估任務(wù),來(lái)測(cè)試AI智能體在從未接觸過(guò)的場(chǎng)景中的表現(xiàn)。

  下面這個(gè)demo,就是由谷歌DeepMind與游戲開發(fā)者共同開發(fā)的SIMA智能體,它能夠在Genie 2僅通過(guò)一張圖片生成的全新環(huán)境中,準(zhǔn)確理解并完成各種指令。

prompt:一張第三人稱開放世界探索游戲的截圖。畫面中的玩家是一名在森林中探索的冒險(xiǎn)者。左邊有一座紅門的房子,右邊有一座藍(lán)門的房子。鏡頭正對(duì)著玩家的身后。#寫實(shí)風(fēng)格 #身臨其境

  SIMA智能體的目標(biāo)是,能夠在多樣化的3D游戲環(huán)境中,通過(guò)自然語(yǔ)言指令完成各種任務(wù)。

  在這里,團(tuán)隊(duì)使用Genie 2生成了一個(gè)包含兩扇門(藍(lán)色和紅色)的3D環(huán)境,并向SIMA智能體提供了打開每扇門的指令。

  過(guò)程中,SIMA通過(guò)鍵盤和鼠標(biāo)來(lái)控制游戲角色,而Genie 2負(fù)責(zé)實(shí)時(shí)生成游戲畫面。

  打開藍(lán)色的門

  打開紅色的門

  不僅如此,我們還可以借助SIMA來(lái)評(píng)估Genie 2的各項(xiàng)能力。

  比如,通過(guò)讓SIMA在場(chǎng)景中四處查看并探索房屋背后的區(qū)域,測(cè)試Genie 2是否能夠生成一致性的環(huán)境。

  轉(zhuǎn)身

  去房子后面

  盡管這項(xiàng)研究還處于起步階段,無(wú)論是AI智能體的表現(xiàn),還是環(huán)境的生成都還有待提升。

  但研究人員認(rèn)為,Genie 2是解決安全訓(xùn)練具身智能體這一結(jié)構(gòu)性問(wèn)題的路徑,同時(shí)也能夠?qū)崿F(xiàn)通向通用人工智能(AGI)所需的廣度和通用性。

prompt:一個(gè)電腦游戲場(chǎng)景,展示了一座粗獷的石洞或礦洞內(nèi)部。畫面采用第三人稱視角,鏡頭在主角上方俯視著。主角是一位手持長(zhǎng)劍的騎士。騎士面前矗立著三座石砌的拱門,他可以選擇進(jìn)入任一道門。透過(guò)第一扇門,可以看到隧道內(nèi)生長(zhǎng)著散發(fā)熒光的奇異綠色植物。第二扇門后是一條長(zhǎng)廊,洞壁上布滿了鉚接的鐵板,遠(yuǎn)處隱約透出令人不安的光芒。第三扇門內(nèi)則是一段粗糙的石階,蜿蜒通向未知的高處。

  走上樓梯

  去有植物的地方

  去中間的門

  擴(kuò)散世界模型

  Genie 2是一種基于大規(guī)模視頻數(shù)據(jù)集訓(xùn)練的自回歸潛變量擴(kuò)散模型。

  其中,視頻的潛變量幀首先先會(huì)由自動(dòng)編碼器進(jìn)行處理,然后被傳遞給一個(gè)基于類似LLM中因果掩碼訓(xùn)練的大規(guī)模Transformer動(dòng)態(tài)模型。

  在推理階段,Genie 2可以以自回歸的方式進(jìn)行采樣,逐幀利用單個(gè)動(dòng)作和先前的潛變量幀。期間,無(wú)分類器指導(dǎo)(classifier-free guidance)會(huì)被用于提高動(dòng)作的可控性。

  值得注意的是,上文中的演示均由未經(jīng)蒸餾的‘滿血版’基礎(chǔ)模型生成,從而充分地展示技術(shù)潛在的能力。

  當(dāng)然,也可以實(shí)時(shí)運(yùn)行經(jīng)過(guò)蒸餾的版本(distilled version),但輸出質(zhì)量會(huì)相應(yīng)降低。

  花絮

  除了這些酷炫的demo之外,團(tuán)隊(duì)還在生成過(guò)程中發(fā)現(xiàn)了很多有意思的花絮:

  在花園里站著發(fā)呆,突然間,一個(gè)幽靈出現(xiàn)了

  這位朋友更喜歡在雪場(chǎng)里跑酷,而不是老老實(shí)實(shí)地用滑雪板滑雪

  能力越大,責(zé)任越大

  致謝

  最后,谷歌DeepMind團(tuán)隊(duì)放出了一個(gè)長(zhǎng)長(zhǎng)的致謝名單。

  參考資料:https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

  本文來(lái)源:新智元,原文標(biāo)題:《剛剛,DeepMind最強(qiáng)‘基礎(chǔ)世界模型’誕生!單圖生1分鐘游戲世界,解鎖下一代智能體》

  風(fēng)險(xiǎn)提示及免責(zé)條款

  市場(chǎng)有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。

你可能想看:

轉(zhuǎn)載請(qǐng)注明來(lái)自江蘇中陽(yáng)智能廣告設(shè)備有限公司,本文標(biāo)題:《剛剛,DeepMind最強(qiáng)「基礎(chǔ)世界模型」誕生!單圖生1分鐘游戲世界,解鎖下一代智能體》

每一天,每一秒,你所做的決定都會(huì)改變你的人生!

發(fā)表評(píng)論

快捷回復(fù):

評(píng)論列表 (暫無(wú)評(píng)論,75人圍觀)參與討論

還沒(méi)有評(píng)論,來(lái)說(shuō)兩句吧...

Top
網(wǎng)站統(tǒng)計(jì)代碼