通信界訊 北京時(shí)間昨日凌晨,OpenAI發(fā)布文本到視頻生成模型Sora,它是一個(gè)人工智能模型,可以從文本指令中創(chuàng)建逼真和富有想象力的視頻場(chǎng)景。
這一模型的發(fā)布,引發(fā)廣泛熱議,針對(duì)Sora,360創(chuàng)始人周鴻祎發(fā)表評(píng)論認(rèn)為,這意味著AGI實(shí)現(xiàn)將從10年縮短到1年。
他指出,這次 Sora 只是小試牛刀,它展現(xiàn)的不僅僅是一個(gè)視頻制作的能力,它展現(xiàn)的是大模型對(duì)真實(shí)世界有了理解和模擬之后,會(huì)帶來(lái)新的成果和突破。
以下為周鴻祎評(píng)論全文:
年前我在風(fēng)馬牛演講上分享了大模型十大趨勢(shì)預(yù)測(cè),沒(méi)想到年還沒(méi)過(guò)完,就驗(yàn)證了好幾個(gè),從Gemini、英偉達(dá)的Chat With RTX到OpenAl發(fā)布Sora,大家都覺(jué)得很炸裂。朋友問(wèn)我怎么看 Sora,我談幾個(gè)觀點(diǎn),總體來(lái)說(shuō)就是我認(rèn)為 AGI 很快會(huì)實(shí)現(xiàn),就這幾年的事兒了:
第一,科技競(jìng)爭(zhēng)最終比拼的是讓人才密度和深厚積累。很多人說(shuō)Sora的效果吊打 Pika和 Runway。這很正常,和創(chuàng)業(yè)者團(tuán)隊(duì)比,OpenAl 這種有核心技術(shù)的公司實(shí)力還是非常強(qiáng)勁的。有人認(rèn)為有了 AI 以后創(chuàng)業(yè)公司只需要做個(gè)體戶(hù)就行,實(shí)際今天再次證明這種想法是非?尚Φ。
第二,AI不一定那么快顛覆所有行業(yè),但它能激發(fā)更多人的創(chuàng)作力。今天很多人談到Sora 對(duì)影視工業(yè)的打擊,我倒不覺(jué)得是這樣,因?yàn)闄C(jī)器能生產(chǎn)一個(gè)好視頻,但視頻的主題、腳本和分鏡頭策劃、臺(tái)詞的配合,都需要人的創(chuàng)意,至少需要人給提示詞。一個(gè)視頻或者電影是由無(wú)數(shù)個(gè)60秒組成的。今天Sora可能給廣告業(yè)、電影預(yù)告片、短視頻行業(yè)帶來(lái)巨大的顛覆,但它不一定那么快擊敗TikTok,更可能成為T(mén)ikTok的創(chuàng)作工具。
第三,我一直說(shuō)國(guó)內(nèi)大模型發(fā)展水平表面看已經(jīng)接近GPT-3.5了,但實(shí)際上跟4.0比還有一年半的差距。而且我相信 OpenAl手里應(yīng)該還藏著一些秘密武器,無(wú)論是GPT-5,還是機(jī)器自我學(xué)習(xí)自動(dòng)產(chǎn)生內(nèi)容,包括AIGC。奧特曼是個(gè)營(yíng)銷(xiāo)大師,知道怎樣掌握節(jié)奏,他們手里的武器并沒(méi)有全拿出來(lái)。這樣看來(lái)中國(guó)跟美國(guó)的AI差距可能還在加大。
第四,大語(yǔ)言模型最牛的是,它不是填空機(jī),而是能完整地理解這個(gè)世界的知識(shí)。這次很多人從技術(shù)上、從產(chǎn)品體驗(yàn)上分析Sora,強(qiáng)調(diào)它能輸出60秒視頻,保持多鏡頭的一致性,模擬自然世界和物理規(guī)律,實(shí)際這些都比較表象,最重要的是 Sora 的技術(shù)思路完全不一樣。因?yàn)檫@之前我們做視頻做圖用的都是Diffusion,你可以把視頻看成是多個(gè)真實(shí)圖片的組合,它并沒(méi)有真正掌握這個(gè)世界的知識(shí),F(xiàn)在所有的文生圖、文生視頻都是在2D平面上對(duì)圖形元素進(jìn)行操作,并沒(méi)有適用物理定律。但Sora 產(chǎn)生的視頻里,它能像人一樣理解坦克是有巨大沖擊力的,坦克能撞毀汽車(chē),而不會(huì)出現(xiàn)汽車(chē)撞毀坦克這樣的情況。所以我理解這次 OpenAI 利用它的大語(yǔ)言模型優(yōu)勢(shì),把LLM 和 Diffusion 結(jié)合起來(lái)訓(xùn)練,讓 Sora 實(shí)現(xiàn)了對(duì)現(xiàn)實(shí)世界的理解和對(duì)世界的模擬兩層能力,這樣產(chǎn)生的視頻才是真實(shí)的,才能跳出2D的范圍模擬真實(shí)的物理世界。這都是大模型的功勞。
這也代表未來(lái)的方向。有強(qiáng)勁的大模型做底子,基于對(duì)人類(lèi)語(yǔ)言的理解,對(duì)人類(lèi)知識(shí)和世界模型的了解,再疊加很多其他的技術(shù),就可以創(chuàng)造各個(gè)領(lǐng)域的超級(jí)工具,比如生物醫(yī)學(xué)、蛋白質(zhì)和基因研究,包括物理、化學(xué)、數(shù)學(xué)的學(xué)科研究上,大模型都會(huì)發(fā)揮作用。這次Sora對(duì)物理世界的模擬,至少將會(huì)對(duì)機(jī)器人具身智能和自動(dòng)駕駛帶來(lái)巨大的影響。原來(lái)的自動(dòng)駕駛技術(shù)過(guò)度強(qiáng)調(diào)感知層面,而沒(méi)有工作在認(rèn)知層面。其實(shí)人在駕駛汽車(chē)的時(shí)候,很多判斷是基于對(duì)這個(gè)世界的理解。比如對(duì)方的速度怎么樣,能否發(fā)生碰撞,碰撞嚴(yán)重性如何,如果沒(méi)有對(duì)世界的理解就很難做出一個(gè)真正的無(wú)人駕駛。
所以這次 Sora 只是小試牛刀,它展現(xiàn)的不僅僅是一個(gè)視頻制作的能力,它展現(xiàn)的是大模型對(duì)真實(shí)世界有了理解和模擬之后,會(huì)帶來(lái)新的成果和突破。
第五,Open AI訓(xùn)練這個(gè)模型應(yīng)該會(huì)閱讀大量視頻。大模型加上Diffusion 技術(shù)需要對(duì)這個(gè)世界進(jìn)行進(jìn)一步了解,學(xué)習(xí)樣本就會(huì)以視頻和攝像頭捕捉到的畫(huà)面為主。一旦人工智能接上攝像頭,把所有的電影都看一遍,把YouTube上和 TikTok 的視頻都看一遍,對(duì)世界的理解將遠(yuǎn)遠(yuǎn)超過(guò)文字學(xué)習(xí),一幅圖勝過(guò)千言萬(wàn)語(yǔ),而視頻傳遞的信息量又遠(yuǎn)遠(yuǎn)超過(guò)一幅圖,這就離AGI真的就不遠(yuǎn)了,不是10年20年的問(wèn)題,可能一兩年很快就可以實(shí)現(xiàn)。