前沿趨勢|OpenAI首個文生視頻模型Sora驚艷發(fā)布,聽聽園企技術(shù)專家怎么說······
2月16日凌晨,OpenAI又展開了一次超乎所有人想象的發(fā)布,其首款文生視頻模型Sora正式對外亮相。從ChatGPT、DALL-E3,再到Sora,如果用一句話來總結(jié)OpenAI的與眾不同之處,那就是:技術(shù)想象力和工程能力,要遠比技術(shù)路線或者黑科技重要。
首款文生視頻模型Sora火爆“出道”
2023年及以前,文生視頻的模型雖然出現(xiàn)Runway、Pika等現(xiàn)象級產(chǎn)品,但從整個行業(yè)來看,把擴散模型和語言模型相結(jié)合的工作并沒有被業(yè)內(nèi)放在“最高優(yōu)先級”。OpenAI指出,Sora與之前的文生視頻思路并不一樣,是讓模型一次預(yù)測多幀畫面,并且確保視頻主體保持不變。
Sora在視頻幀上做突破,巧妙地提升生成視頻的使用上限。把Transformer引入到文生視頻的擴散模型中,實現(xiàn)視頻幀之間的語義信息預(yù)測,讓語言模型在其中發(fā)揮出巨大的價值。也就是說:Transformer+Diffusion Model,在2024年初實現(xiàn)融合,不再是獨立兩條發(fā)展路徑。
Sora的效果已經(jīng)在科技圈內(nèi)不斷刷屏,以至于很多人對于OpenAI新技術(shù)的發(fā)布,如同期待蘋果喬布斯時代的發(fā)布一樣,總有超乎預(yù)期的技術(shù)讓人眼前一亮。
Sora 1.0版本將如何升級?
Sora模型能夠生成包含多個角色、特定類型運動和主體及背景精確細(xì)節(jié)的復(fù)雜場景。該模型不僅能理解用戶在提示中所要求的內(nèi)容,還能理解這些事物在現(xiàn)實世界中的存在方式。該模型對語言有深刻理解,能準(zhǔn)確解讀提示,并生成表達豐富情感的引人入勝的角色。Sora還能在單個生成的視頻中創(chuàng)建多個鏡頭,使角色和視覺風(fēng)格保持準(zhǔn)確一致。
當(dāng)然,對于Sora當(dāng)前存在的弱點,OpenAI也不避諱,指出它可能難以準(zhǔn)確模擬復(fù)雜場景的物理原理,并且可能無法理解因果關(guān)系。例如“五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”,狼的數(shù)量會變化,有的狼崽憑空出現(xiàn)或消失。
該模型還可能混淆提示詞的空間細(xì)節(jié),例如混淆左右,并且可能難以精確描述隨著時間推移發(fā)生的事件,例如遵循特定的相機軌跡。如根據(jù)提示詞“籃球穿過籃筐然后爆炸”生成的視頻中,籃球撞到籃筐邊緣竟然沒有反彈而是直接穿過。
OpenAI表示,他們正在教AI理解和模擬運動中的物理世界,目標(biāo)是訓(xùn)練模型來幫助人們解決需要現(xiàn)實世界交互的問題。如今,Sora正面向部分成員開放,以評估關(guān)鍵領(lǐng)域的潛在危害或風(fēng)險。同時,OpenAI也邀請一批視覺藝術(shù)家、設(shè)計師和電影制作人加入,期望獲得寶貴反饋,以推動模型進步,更好地助力創(chuàng)意工作者。
關(guān)于Sora,園企這樣說
達觀數(shù)據(jù)有限公司
副總裁 王文廣
語言是人類智能的基礎(chǔ),人類之所以成為人類就是出現(xiàn)了語言,所以人類制造的智能體,需要以語言為基礎(chǔ)。但要在人工智能中真正實現(xiàn)AGI,這中間還有一個關(guān)鍵環(huán)節(jié),那就是讓機器能夠自主地從物理世界中學(xué)習(xí),這就要求AGI具備連續(xù)的視覺理解能力,構(gòu)建出能夠模擬現(xiàn)實物理世界的時空模型。也就是說,連續(xù)的視覺理解能力是AGI從物理世界學(xué)習(xí)的基礎(chǔ)。Sora的出現(xiàn),正是在時空模型和視覺理解上往前推進了一大步。這有點像ChatGPT的出現(xiàn),在語言智能上往前推進了一大步一樣。也正是因為這個原因,Sora一出世即獲得極大關(guān)注,再一次重現(xiàn)一年多前的ChatGPT的場景。
另外,在技術(shù)上,Sora是在視覺領(lǐng)域重復(fù)了GPT3的路徑,是規(guī)模化的智能涌現(xiàn),而不是模型或算法上的突破。通過Sora,證實了不斷擴大視頻模型的規(guī)模,將有可能模擬整個物理世界,并讓人造智能體能夠理解世界,為改造世界打下基礎(chǔ)。
當(dāng)然,上面是從通用人工智能的視角來看待Sora的。Sora的直接影響是整個影視制作和媒體行業(yè),這是顛覆性的影響,有如火車的出現(xiàn),改變了整個運輸行業(yè)一樣。馬車不會消失,但成了小眾,未來的影視制作形態(tài)也會完全變了樣。
上海森億醫(yī)療科技有限公司
聯(lián)合創(chuàng)始人兼首席技術(shù)官 殷嘉珩
Sora模型一經(jīng)推出,就在視頻生成領(lǐng)域做到了SOTA(State of the Art),一下子就將相關(guān)領(lǐng)域的效果推進了很多,獲得廣泛關(guān)注。Sora使用基于視頻時空patch的方式,將視頻可以表示成類似大語言模型Token的形式,從而可以用類似LLM的方式使用Diffusion Transformer(DiT)進行訓(xùn)練和生成。Sora可以根據(jù)文本和圖片提示,生成60秒任意分辨率和長寬比的視頻,更令人興奮的是,這個視頻中會更好地模擬每個對象的物理特性,從而看起來非常真實。
不過就目前來看,Sora距離真正的強人工智能和世界模型還是有較大的差距。Meta的首席AI科學(xué)家Yann LeCun指出,Sora能生成出4條腿的螞蟻,就說明了Sora不能真正地像人一下理解世界的常識。比如幼兒哪怕是小動物,都能從簡單的觀察中意識到,一切拋擲的物體終將落向地面,但Sora這樣的模型,只能通過海量的訓(xùn)練數(shù)據(jù),去模擬這樣的行為,并不能真正地實現(xiàn)“世界模型”。
上海智位機器人股份有限公司
高級工程師/AIGC小組主理人 夏青
Sora是一個在工程領(lǐng)域成功的模型,其創(chuàng)新性地結(jié)合了擴展模型和Transformer模型。它的物理過程、長距離關(guān)聯(lián)性、3D連續(xù)性等特性讓人震驚,讓我們再次看到大規(guī)模參數(shù)訓(xùn)練后產(chǎn)生的涌現(xiàn)。它是否代表人工智能已經(jīng)理解了現(xiàn)實世界,甚至是通向AGI的第一步?同時,其生成60秒的視頻的能力也超越了許多現(xiàn)有的工具。雖然目前Sora并未提供接口供公眾使用,但我們預(yù)見其在短視頻領(lǐng)域的巨大潛力。然而,其穩(wěn)定性可能是一個問題,需要進一步地訓(xùn)練和使用以穩(wěn)定輸出。對于監(jiān)管,利用區(qū)塊鏈技術(shù)進行可追溯的水印可能是一個解決方案。
派歐云計算(上海)有限公司(PPIO)
Sora之所以能引起如此大的震動,是因為它在一定程度上實現(xiàn)了物理世界的虛擬化,是當(dāng)前最接近AGI概念的產(chǎn)品。Sora不僅能理解用戶在提示中提出的要求,還能模仿這些物體在物理世界中的存在方式。比如一大群紙飛機在樹林中飛過,Sora知道碰撞后會發(fā)生什么,并表現(xiàn)其中的光影變化,這其中的技術(shù)突破是遠超預(yù)期的。Sora的問世也正印證了硅谷的新摩爾定律:模型能力1-2年提升一代,訓(xùn)練成本18個月下降4倍,推理成本18個月下降10倍。
從商業(yè)上看,AI在應(yīng)用層如雨后春筍般發(fā)展,各行各業(yè)都在涉及。而大模型的訓(xùn)練與推理、生成式AI應(yīng)用的規(guī)?;涞?,需要新一代的基礎(chǔ)設(shè)施來支撐。GPU和云作為AI的軍火,其市場需求將更加旺盛,未來幾年甚至?xí)┎粦?yīng)求。當(dāng)下的AI模型訓(xùn)練主要依靠英偉達GPU,但主流算力芯片已經(jīng)供不應(yīng)求,有機構(gòu)預(yù)測到2024年需求將達到150-200萬。雖然現(xiàn)在來看ARM、英偉達、臺積電構(gòu)建的全球AI半導(dǎo)體產(chǎn)業(yè)鏈可能是短期的最大收益者,但未來或許會迎來更大的競爭。目前,對于中國企業(yè)來講,算力基礎(chǔ)設(shè)施的自主化建設(shè)、尤其是算力芯片,仍是在AI賽道上與全球保持同步進步的重要方向。
來源|央視網(wǎng)、騰訊科技、北京新聞廣播微信公眾號,達觀數(shù)據(jù)、森億智能、智位機器人、PPIO
編輯|王芳
審核|姚遠
校對|辦公室