谷歌大幅更新生成式AI，推出視頻模型VEO 2和最新版Imagen3

仙靈名哲 2024-12-17 技術(shù)資訊 34 次瀏覽 0個評論

專題：科技早報

　　作者：趙雨荷

　　來源：硬AI

　　谷歌的旗艦AI研究實驗室Google DeepMind周一大幅升級其人工智能驅(qū)動的內(nèi)容生成工具，推出了Veo 2視頻生成模型和增強版Imagen 3圖像模型，挑戰(zhàn)OpenAI在AI圖像和視頻生成的領(lǐng)先地位。谷歌表示，這些更新有望徹底改變創(chuàng)意工作流程，為視頻和圖像創(chuàng)作者提供更高的真實感和定制化體驗。

　　谷歌介紹，Veo 2是谷歌的視頻生成工具，能夠生成多樣化主題和風(fēng)格的高質(zhì)量視頻。谷歌在博客中表示，這款模型在真實感方面表現(xiàn)卓越，能夠捕捉到人類表情和電影效果等細(xì)節(jié)。其增強的物理和電影學(xué)理解能力使用戶能夠生成令人驚嘆的內(nèi)容，包括跟蹤鏡頭和廣角構(gòu)圖等。

　　例如，Veo 2熟悉電影拍攝語言，用戶可以要求某種類型的風(fēng)格，指定鏡頭，建議電影效果，Veo 2都會以高達4K分辨率并延長到數(shù)分鐘的視頻長度來呈現(xiàn)。比如，要求“低角度跟蹤鏡頭穿越場景中央”或“特寫科學(xué)家通過顯微鏡觀察”的鏡頭，Veo 2都能實現(xiàn)。提示“18mm鏡頭”，Veo 2知道生成廣角鏡頭；要求“淺景深”，它會模糊背景，突出主體。

　　值得注意的是，這一分辨率是OpenAI Sora模型的4倍，視頻時長更是其6倍以上。

　　不過，目前這些優(yōu)勢仍是理論上的。在谷歌的實驗性視頻創(chuàng)作工具VideoFX中，Veo 2生成的視頻被限制為720p分辨率、8秒的長度。（相比之下，Sora的最大輸出為1080p、20秒的短片。）

　　谷歌表示，雖然視頻生成模型往往會“幻象化”出不需要的細(xì)節(jié)，例如多余的手指或意外的物體，但Veo 2在這一方面的表現(xiàn)更為真實，生成錯誤的頻率較低。

　　此外，Veo 2生成的視頻包括不可見的SynthID水印，用于標(biāo)記它們?yōu)锳I生成的內(nèi)容，從而減少誤用或錯誤歸屬的風(fēng)險。

　　DeepMind產(chǎn)品副總裁Eli Collins對媒體表示，隨著模型逐漸具備規(guī)?；褂玫臏?zhǔn)備，谷歌將通過其Vertex AI開發(fā)者平臺提供Veo 2。

　　開發(fā)者和創(chuàng)作者目前可以通過谷歌實驗室（Google Labs）訪問該工具，預(yù)計到2025年，它將廣泛集成至諸如YouTube Shorts等平臺。

　　同時，Imagen 3模型在圖像構(gòu)圖和細(xì)節(jié)準(zhǔn)確性方面得到了增強，支持從寫實到抽象的各種風(fēng)格，能夠生成更豐富的紋理，并更加忠實地回應(yīng)用戶提示。

　　目前，Imagen 3已經(jīng)通過谷歌實驗室的ImageFX工具在100多個國家上線，全球用戶可以試驗其尖端功能。

　　此外，谷歌還推出了Whisk，這是一款結(jié)合了Imagen 3和Gemini視覺分析能力的創(chuàng)意工具。用戶可以輸入圖像，生成詳細(xì)的文字描述、重新混合風(fēng)格，或設(shè)計個性化作品，如數(shù)字玩偶或搪瓷徽章。

　　谷歌介紹，Whisk結(jié)合了Imagen 3模型和Gemini的視覺理解與描述能力。Gemini模型會自動為用戶的圖像生成詳細(xì)的文字描述，并將這些描述傳遞給Imagen 3。這一過程讓用戶能夠以有趣的新方式重新混合主題、場景和風(fēng)格。

　　本文來自微信公眾號“硬AI”，關(guān)注更多AI前沿資訊請移步這里

你可能想看：