剛剛，DeepMind最強(qiáng)「基礎(chǔ)世界模型」誕生！單圖生1分鐘游戲世界，解鎖下一代智能體

睿德桑 2024-12-05 技術(shù)資訊 75 次瀏覽 0個(gè)評(píng)論

　　來(lái)源：華爾街見聞

　　谷歌DeepMind最新基礎(chǔ)世界模型Genie 2登場(chǎng)！只要一張圖，就能生成長(zhǎng)達(dá)1分鐘的游戲世界。從此，我們將擁有無(wú)限的具身智能體訓(xùn)練數(shù)據(jù)。更有人驚呼：黑客帝國(guó)來(lái)了。

　　就在剛剛，谷歌DeepMind的第二代大規(guī)?；A(chǔ)世界模型Genie 2誕生了！

　　從此，AI可以生成各種一致性的世界，最長(zhǎng)可玩1分鐘。

　　谷歌研究人員表示，相信Genie 2可以解鎖具身智能體的下一波能力。

　　從第一人稱的真實(shí)世界場(chǎng)景，到第三人稱的駕駛環(huán)境，Genie 2生成了一個(gè)720p的世界。

　　給定一幅圖像，它就能模擬出世界動(dòng)態(tài)，創(chuàng)建一個(gè)可通過(guò)鍵盤和鼠標(biāo)輸入的、可操作的一致環(huán)境。

　　具身智能體的潛力有多大？

　　在以下這個(gè)Imagen 3生成的世界中，研究者測(cè)試出最新的智能體是否可以遵循語(yǔ)言指令，走到紅門或藍(lán)門。

　　結(jié)果令人驚喜！

　　就這樣，現(xiàn)在我們擁有了一條通往無(wú)限環(huán)境的道路，來(lái)訓(xùn)練和評(píng)估具身智能體了。

　　研究者創(chuàng)造了一個(gè)有3個(gè)拱門的世界后，Genie 2再次模擬了這個(gè)世界，讓團(tuán)隊(duì)解決了任務(wù)。

　　對(duì)此，網(wǎng)友們紛紛表示贊嘆：’這項(xiàng)工作實(shí)在是太棒了！今后，我們終于可以將開放式智能體與開放世界模型結(jié)合起來(lái)。我們正在朝著近乎無(wú)限的訓(xùn)練數(shù)據(jù)體系邁進(jìn)。’

　　還有網(wǎng)友表示：‘黑客帝國(guó)’的世界，要來(lái)了！

　　為未來(lái)的通用智能體，生成無(wú)限多樣的訓(xùn)練環(huán)境

　　作為一種基礎(chǔ)世界生成模型，Genie 2能生成無(wú)限多樣的、可操控且可玩的3D環(huán)境，用于訓(xùn)練和評(píng)估具身智能體。

　　基于一張?zhí)崾驹~圖像，它就可被人類或AI智能體操作了！方式是使用鍵盤和鼠標(biāo)輸入。

　　在AI研究中，游戲一直扮演著至關(guān)重要的角色。因?yàn)榫哂幸砸巳雱俚奶匦?、?dú)特的挑戰(zhàn)組合以及可衡量的進(jìn)展，游戲成為了安全測(cè)試和提升AI能力的理想環(huán)境。

　　自Google DeepMind成立以來(lái)，游戲一直都是研究的核心——從早期的Atari游戲研究，到AlphaGo和AlphaStar等突破性成果，再到與游戲開發(fā)者合作研究通用智能體。

　　然而，訓(xùn)練更通用的具身智能體，卻因缺乏足夠豐富和多樣化的訓(xùn)練環(huán)境而受到限制。

　　但現(xiàn)在，Genie 2的誕生改變了一切。

　　從此，未來(lái)的智能體可以在無(wú)限的新世界場(chǎng)景中進(jìn)行訓(xùn)練和評(píng)估了。

　　交互式體驗(yàn)原型設(shè)計(jì)的新型創(chuàng)意工作流程，也有了全新的可能性。

　　基礎(chǔ)世界模型的涌現(xiàn)能力

　　迄今為止，世界模型在很大程度上都受限于對(duì)狹窄領(lǐng)域的建模。

　　在Genie 1中，研究人員引入了一種生成多樣化二維世界的方法。

　　而到了Genie 2這一代，在通用性上實(shí)現(xiàn)了重大突破——它能生成豐富多樣的3D世界了。

　　Genie 2是一種世界模型，這就意味著，它可以模擬虛擬世界，包括采取任何行動(dòng)（如跳躍、游泳等）的后果。

　　基于大規(guī)模視頻數(shù)據(jù)集進(jìn)行訓(xùn)練后，它像其他生成式AI模型一樣，展現(xiàn)出了各種規(guī)模的涌現(xiàn)能力，例如物體交互、復(fù)雜的角色動(dòng)畫、物理效果、建模、預(yù)測(cè)其他智能體行為的能力等等。

　　對(duì)于每個(gè)人類與Genie 2互動(dòng)的demo，模型都以由Imagen 3生成的單張圖片作為提示詞輸入，

　　這就意味著，任何人都可以用文字描述自己想要的世界，選擇自己喜歡的渲染效果，然后進(jìn)入這個(gè)新創(chuàng)建的世界，并且與之互動(dòng)（或者，也可以讓AI智能體在其中被訓(xùn)練或評(píng)估）。

　　每一步，人或智能體都能通過(guò)鍵盤和鼠標(biāo)提供動(dòng)作，而Genie 2會(huì)模擬下一步的觀察結(jié)果。

　　在長(zhǎng)達(dá)一分鐘的時(shí)間里，Genie 2可以生成一個(gè)一致的世界，持續(xù)時(shí)間直接長(zhǎng)達(dá)10-20秒！

　　動(dòng)作控制

　　Genie 2能夠智能響應(yīng)通過(guò)鍵盤按鍵采取的動(dòng)作，識(shí)別角色并正確移動(dòng)。

　　例如，模型必須計(jì)算出，箭頭鍵應(yīng)該移動(dòng)機(jī)器人，而不是移動(dòng)樹木或云朵。

　　生成反事實(shí)

　　Genie 2能夠基于同一個(gè)開始畫面，創(chuàng)造出多個(gè)不同的發(fā)展。

　　這意味著我們可以為AI訓(xùn)練提供各種‘如果這樣做會(huì)怎樣’的場(chǎng)景。

　　在下面的這兩行demo中，每個(gè)視頻都會(huì)從完全相同的畫面開始，但人類玩家會(huì)選擇不同行動(dòng)。

　　長(zhǎng)時(shí)間記憶

　　Genie 2能夠記住那些暫時(shí)離開畫面的場(chǎng)景，并在它們重新進(jìn)入視野時(shí)，精確地還原出來(lái)。

　　持續(xù)生成新場(chǎng)景

　　Genie 2能在過(guò)程中實(shí)時(shí)創(chuàng)造出符合邏輯的新場(chǎng)景內(nèi)容，并且可以在長(zhǎng)達(dá)一分鐘的時(shí)間內(nèi)保持整個(gè)世界的一致性。

　　多樣化環(huán)境

　　Genie 2能夠生成多種不同的觀察視角，比如第一人稱視角、等距視角（45度俯視角）或第三人稱駕駛視角。

　　3D結(jié)構(gòu)

　　Genie 2能夠創(chuàng)建復(fù)雜的3D視覺(jué)場(chǎng)景。

　　物體屬性與交互

　　Genie 2能夠建模各種物體交互，例如氣球爆裂、開門和射擊炸藥桶。

　　角色動(dòng)畫

　　Genie 2能夠?yàn)椴煌愋偷慕巧?，制作各種動(dòng)作的動(dòng)畫。

　　NPC

　　Genie 2能夠?yàn)槠渌悄荏w建模，甚至與它們進(jìn)行復(fù)雜交互。

　　物理效果

　　Genie 2能夠模擬出水面的動(dòng)效。

　　煙霧

　　Genie 2能夠模擬煙霧的效果。

　　重力

　　Genie 2能夠模擬重力。

　　光照

　　Genie 2能夠模擬點(diǎn)光源和方向光。

　　反射

　　Genie 2能夠模擬反射、泛光和彩色光照。

　　基于真實(shí)圖像的模擬

　　Genie 2還可以將真實(shí)世界的圖像作為提示詞輸入，并模擬出草葉在風(fēng)中搖曳或河水流動(dòng)等場(chǎng)景。

　　快速創(chuàng)建測(cè)試原型

　　有了Genie 2，制作多樣化的交互場(chǎng)景就變得簡(jiǎn)單了。

　　研究人員可以快速嘗試新環(huán)境，來(lái)訓(xùn)練和測(cè)試具身AI智能體。

　　例如，下面就是研究人員向Genie 2輸入Imagen 3生成的不同圖像，來(lái)模擬操控紙飛機(jī)、飛龍、獵鷹或降落傘等不同的飛行方式。

　　在這個(gè)過(guò)程中，也同時(shí)測(cè)試了Genie處理不同控制對(duì)象動(dòng)作時(shí)的表現(xiàn)。

　　憑借強(qiáng)大的離散泛化能力，Genie 2可以將概念設(shè)計(jì)圖和手繪草圖轉(zhuǎn)化為可實(shí)際交互的場(chǎng)景。

　　從而讓藝術(shù)家和設(shè)計(jì)師能夠快速驗(yàn)證創(chuàng)意，提升場(chǎng)景設(shè)計(jì)的效率，并加快相關(guān)研究的進(jìn)度。

　　以下是由概念設(shè)計(jì)師創(chuàng)作出的一些虛擬場(chǎng)景示例。

　　AI智能體在世界模型中行動(dòng)

　　借助Genie 2，研究人員能夠快速構(gòu)建出豐富多樣的虛擬環(huán)境，并創(chuàng)造全新的評(píng)估任務(wù)，來(lái)測(cè)試AI智能體在從未接觸過(guò)的場(chǎng)景中的表現(xiàn)。

　　下面這個(gè)demo，就是由谷歌DeepMind與游戲開發(fā)者共同開發(fā)的SIMA智能體，它能夠在Genie 2僅通過(guò)一張圖片生成的全新環(huán)境中，準(zhǔn)確理解并完成各種指令。

prompt：一張第三人稱開放世界探索游戲的截圖。畫面中的玩家是一名在森林中探索的冒險(xiǎn)者。左邊有一座紅門的房子，右邊有一座藍(lán)門的房子。鏡頭正對(duì)著玩家的身后。#寫實(shí)風(fēng)格 #身臨其境

　　SIMA智能體的目標(biāo)是，能夠在多樣化的3D游戲環(huán)境中，通過(guò)自然語(yǔ)言指令完成各種任務(wù)。

　　在這里，團(tuán)隊(duì)使用Genie 2生成了一個(gè)包含兩扇門（藍(lán)色和紅色）的3D環(huán)境，并向SIMA智能體提供了打開每扇門的指令。

　　過(guò)程中，SIMA通過(guò)鍵盤和鼠標(biāo)來(lái)控制游戲角色，而Genie 2負(fù)責(zé)實(shí)時(shí)生成游戲畫面。

　　打開藍(lán)色的門

　　打開紅色的門

　　不僅如此，我們還可以借助SIMA來(lái)評(píng)估Genie 2的各項(xiàng)能力。

　　比如，通過(guò)讓SIMA在場(chǎng)景中四處查看并探索房屋背后的區(qū)域，測(cè)試Genie 2是否能夠生成一致性的環(huán)境。

　　轉(zhuǎn)身

　　去房子后面

　　盡管這項(xiàng)研究還處于起步階段，無(wú)論是AI智能體的表現(xiàn)，還是環(huán)境的生成都還有待提升。

　　但研究人員認(rèn)為，Genie 2是解決安全訓(xùn)練具身智能體這一結(jié)構(gòu)性問(wèn)題的路徑，同時(shí)也能夠?qū)崿F(xiàn)通向通用人工智能（AGI）所需的廣度和通用性。

prompt：一個(gè)電腦游戲場(chǎng)景，展示了一座粗獷的石洞或礦洞內(nèi)部。畫面采用第三人稱視角，鏡頭在主角上方俯視著。主角是一位手持長(zhǎng)劍的騎士。騎士面前矗立著三座石砌的拱門，他可以選擇進(jìn)入任一道門。透過(guò)第一扇門，可以看到隧道內(nèi)生長(zhǎng)著散發(fā)熒光的奇異綠色植物。第二扇門后是一條長(zhǎng)廊，洞壁上布滿了鉚接的鐵板，遠(yuǎn)處隱約透出令人不安的光芒。第三扇門內(nèi)則是一段粗糙的石階，蜿蜒通向未知的高處。

　　走上樓梯

　　去有植物的地方

　　去中間的門

　　擴(kuò)散世界模型

　　Genie 2是一種基于大規(guī)模視頻數(shù)據(jù)集訓(xùn)練的自回歸潛變量擴(kuò)散模型。

　　其中，視頻的潛變量幀首先先會(huì)由自動(dòng)編碼器進(jìn)行處理，然后被傳遞給一個(gè)基于類似LLM中因果掩碼訓(xùn)練的大規(guī)模Transformer動(dòng)態(tài)模型。

　　在推理階段，Genie 2可以以自回歸的方式進(jìn)行采樣，逐幀利用單個(gè)動(dòng)作和先前的潛變量幀。期間，無(wú)分類器指導(dǎo)（classifier-free guidance）會(huì)被用于提高動(dòng)作的可控性。

　　值得注意的是，上文中的演示均由未經(jīng)蒸餾的‘滿血版’基礎(chǔ)模型生成，從而充分地展示技術(shù)潛在的能力。

　　當(dāng)然，也可以實(shí)時(shí)運(yùn)行經(jīng)過(guò)蒸餾的版本（distilled version），但輸出質(zhì)量會(huì)相應(yīng)降低。

　　花絮

　　除了這些酷炫的demo之外，團(tuán)隊(duì)還在生成過(guò)程中發(fā)現(xiàn)了很多有意思的花絮：

　　在花園里站著發(fā)呆，突然間，一個(gè)幽靈出現(xiàn)了

　　這位朋友更喜歡在雪場(chǎng)里跑酷，而不是老老實(shí)實(shí)地用滑雪板滑雪

　　能力越大，責(zé)任越大

　　致謝

　　最后，谷歌DeepMind團(tuán)隊(duì)放出了一個(gè)長(zhǎng)長(zhǎng)的致謝名單。

　　參考資料：https：//deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

　　本文來(lái)源：新智元，原文標(biāo)題：《剛剛，DeepMind最強(qiáng)‘基礎(chǔ)世界模型’誕生！單圖生1分鐘游戲世界，解鎖下一代智能體》

　　風(fēng)險(xiǎn)提示及免責(zé)條款

　　市場(chǎng)有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議，也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資，責(zé)任自負(fù)。

你可能想看：

智能家電我的世界臥室，我的世界智能家居

李飛飛空間智能模型引關(guān)注多家大廠跟進(jìn)布局

印度推出創(chuàng)建本土人工智能基礎(chǔ)模型計(jì)劃

智能家電420我的世界，我的世界智能家居

智能家電模型簡(jiǎn)易版教程，智能家電模型簡(jiǎn)易版教程視頻

國(guó)際象棋世界冠軍賽丨教科書級(jí)名場(chǎng)面！來(lái)自棋王丁立人的最強(qiáng)反擊

港媒分析中國(guó)下一代戰(zhàn)機(jī)：世界一流，成功擺脫了傳統(tǒng)的美國(guó)模式

智能家電誕生背景和意義，智能家電誕生背景和意義介紹

我的世界網(wǎng)易版智能家電，我的世界網(wǎng)易版智能家電mod

智能家電怎么連接不上，智能家電怎么連接不上wifi

轉(zhuǎn)載請(qǐng)注明來(lái)自江蘇中陽(yáng)智能廣告設(shè)備有限公司，本文標(biāo)題：《剛剛，DeepMind最強(qiáng)「基礎(chǔ)世界模型」誕生！單圖生1分鐘游戲世界，解鎖下一代智能體》