近日,有媒體報(bào)道,谷歌正在人工智能領(lǐng)域加速布局,組建全新團(tuán)隊(duì)專注于開發(fā)可模擬物理世界的“世界模型”AI技術(shù)。值得關(guān)注的是,該團(tuán)隊(duì)由曾任OpenAI視頻生成器Sora聯(lián)合負(fù)責(zé)人的蒂姆·布魯克斯領(lǐng)導(dǎo),他于2024年10月從OpenAI跳槽至谷歌旗下的DeepMind。

蒂姆·布魯克斯在社交媒體平臺(tái)X上發(fā)文透露,DeepMind計(jì)劃構(gòu)建大規(guī)模生成模型,以模擬真實(shí)世界。他表示:“我們將專注于世界模型的開發(fā),這是一條通往通用人工智能(AGI)的關(guān)鍵路徑。”他還宣布正在招聘新團(tuán)隊(duì)成員,為這一目標(biāo)注入更多技術(shù)力量。
布魯克斯進(jìn)一步指出,該團(tuán)隊(duì)的重點(diǎn)是**“實(shí)時(shí)交互生成”工具的開發(fā)**,并探索如何將世界模型技術(shù)與谷歌現(xiàn)有的多模態(tài)模型(如Gemini)整合,提升AI的推理、規(guī)劃和交互能力。
什么是“世界模型”?
“世界模型”被認(rèn)為是當(dāng)前AI技術(shù)中最復(fù)雜的領(lǐng)域之一,其目標(biāo)是讓機(jī)器像人類一樣具備對(duì)物理世界的深刻理解。其核心優(yōu)勢(shì)在于:
1. 視覺推理與環(huán)境模擬:可廣泛應(yīng)用于機(jī)器人訓(xùn)練、自動(dòng)駕駛等領(lǐng)域。
2. 代理規(guī)劃與決策支持:為復(fù)雜場(chǎng)景中的AI決策提供支持。
3. 互動(dòng)娛樂與虛擬世界構(gòu)建:用于打造更智能的視頻游戲、電影和虛擬現(xiàn)實(shí)體驗(yàn)。
這一技術(shù)的發(fā)展不僅關(guān)乎AI的感知能力,還可能成為通用人工智能的基礎(chǔ)構(gòu)件。
谷歌的戰(zhàn)略與多模式模型整合
布魯克斯團(tuán)隊(duì)的研究方向?qū)⑴c谷歌現(xiàn)有的多模態(tài)模型項(xiàng)目深度協(xié)作,包括:
• Gemini:谷歌的旗艦AI模型,應(yīng)用于圖像分析、文本生成等多任務(wù)場(chǎng)景。
• Veo:谷歌的視頻生成模型,專注于內(nèi)容創(chuàng)作與動(dòng)態(tài)生成。
• Genie:谷歌的基礎(chǔ)世界模型,支持用戶通過多種輸入方式創(chuàng)建交互式虛擬環(huán)境。
布魯克斯計(jì)劃在這些技術(shù)的基礎(chǔ)上,進(jìn)一步提升世界模型的復(fù)雜性和實(shí)用性,以實(shí)現(xiàn)“最高水平的計(jì)算能力”。
行業(yè)熱潮:多方競(jìng)逐世界模型
不僅是谷歌,其他科技巨頭與初創(chuàng)公司也在爭(zhēng)奪“世界模型”賽道。包括:
• 李飛飛的World Labs:專注于世界模擬技術(shù)的前沿研究。
• 以色列公司Decart:開發(fā)真實(shí)感極高的機(jī)器人訓(xùn)練環(huán)境。
• Odyssey初創(chuàng)公司:致力于將世界模型應(yīng)用于互動(dòng)娛樂與模擬領(lǐng)域。
這些公司普遍認(rèn)為,“世界模型”將成為未來互動(dòng)媒體、仿真系統(tǒng)和智能代理技術(shù)的核心基石。
谷歌此次吸引布魯克斯加盟并組建新團(tuán)隊(duì),凸顯其對(duì)“世界模型”戰(zhàn)略的重要性。作為一種前沿技術(shù),世界模型不僅可以推動(dòng)AI技術(shù)在多模態(tài)交互上的跨越性進(jìn)步,還可能成為驅(qū)動(dòng)通用人工智能的關(guān)鍵助力。未來,谷歌能否在這一領(lǐng)域取得突破性成果,將決定其在AI領(lǐng)域的長(zhǎng)期競(jìng)爭(zhēng)力。