前沿趨勢｜OpenAI首個文生視頻模型Sora驚艷發(fā)布，聽聽園企技術(shù)專家怎么說······

發(fā)布于： 2024-02-21

分類：浦軟聚焦

2月16日凌晨，OpenAI又展開了一次超乎所有人想象的發(fā)布，其首款文生視頻模型Sora正式對外亮相。從ChatGPT、DALL-E3，再到Sora，如果用一句話來總結(jié)OpenAI的與眾不同之處，那就是：技術(shù)想象力和工程能力，要遠比技術(shù)路線或者黑科技重要。

首款文生視頻模型Sora火爆“出道”

2023年及以前，文生視頻的模型雖然出現(xiàn)Runway、Pika等現(xiàn)象級產(chǎn)品，但從整個行業(yè)來看，把擴散模型和語言模型相結(jié)合的工作并沒有被業(yè)內(nèi)放在“最高優(yōu)先級”。OpenAI指出，Sora與之前的文生視頻思路并不一樣，是讓模型一次預(yù)測多幀畫面，并且確保視頻主體保持不變。

Sora在視頻幀上做突破，巧妙地提升生成視頻的使用上限。把Transformer引入到文生視頻的擴散模型中，實現(xiàn)視頻幀之間的語義信息預(yù)測，讓語言模型在其中發(fā)揮出巨大的價值。也就是說：Transformer+Diffusion Model，在2024年初實現(xiàn)融合，不再是獨立兩條發(fā)展路徑。

Sora的效果已經(jīng)在科技圈內(nèi)不斷刷屏，以至于很多人對于OpenAI新技術(shù)的發(fā)布，如同期待蘋果喬布斯時代的發(fā)布一樣，總有超乎預(yù)期的技術(shù)讓人眼前一亮。

Sora 1.0版本將如何升級？

Sora模型能夠生成包含多個角色、特定類型運動和主體及背景精確細(xì)節(jié)的復(fù)雜場景。該模型不僅能理解用戶在提示中所要求的內(nèi)容，還能理解這些事物在現(xiàn)實世界中的存在方式。該模型對語言有深刻理解，能準(zhǔn)確解讀提示，并生成表達豐富情感的引人入勝的角色。Sora還能在單個生成的視頻中創(chuàng)建多個鏡頭，使角色和視覺風(fēng)格保持準(zhǔn)確一致。

當(dāng)然，對于Sora當(dāng)前存在的弱點，OpenAI也不避諱，指出它可能難以準(zhǔn)確模擬復(fù)雜場景的物理原理，并且可能無法理解因果關(guān)系。例如“五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”，狼的數(shù)量會變化，有的狼崽憑空出現(xiàn)或消失。

該模型還可能混淆提示詞的空間細(xì)節(jié)，例如混淆左右，并且可能難以精確描述隨著時間推移發(fā)生的事件，例如遵循特定的相機軌跡。如根據(jù)提示詞“籃球穿過籃筐然后爆炸”生成的視頻中，籃球撞到籃筐邊緣竟然沒有反彈而是直接穿過。

OpenAI表示，他們正在教AI理解和模擬運動中的物理世界，目標(biāo)是訓(xùn)練模型來幫助人們解決需要現(xiàn)實世界交互的問題。如今，Sora正面向部分成員開放，以評估關(guān)鍵領(lǐng)域的潛在危害或風(fēng)險。同時，OpenAI也邀請一批視覺藝術(shù)家、設(shè)計師和電影制作人加入，期望獲得寶貴反饋，以推動模型進步，更好地助力創(chuàng)意工作者。

關(guān)于Sora，園企這樣說

達觀數(shù)據(jù)有限公司

副總裁王文廣

語言是人類智能的基礎(chǔ)，人類之所以成為人類就是出現(xiàn)了語言，所以人類制造的智能體，需要以語言為基礎(chǔ)。但要在人工智能中真正實現(xiàn)AGI，這中間還有一個關(guān)鍵環(huán)節(jié)，那就是讓機器能夠自主地從物理世界中學(xué)習(xí)，這就要求AGI具備連續(xù)的視覺理解能力，構(gòu)建出能夠模擬現(xiàn)實物理世界的時空模型。也就是說，連續(xù)的視覺理解能力是AGI從物理世界學(xué)習(xí)的基礎(chǔ)。Sora的出現(xiàn)，正是在時空模型和視覺理解上往前推進了一大步。這有點像ChatGPT的出現(xiàn)，在語言智能上往前推進了一大步一樣。也正是因為這個原因，Sora一出世即獲得極大關(guān)注，再一次重現(xiàn)一年多前的ChatGPT的場景。

另外，在技術(shù)上，Sora是在視覺領(lǐng)域重復(fù)了GPT3的路徑，是規(guī)模化的智能涌現(xiàn)，而不是模型或算法上的突破。通過Sora，證實了不斷擴大視頻模型的規(guī)模，將有可能模擬整個物理世界，并讓人造智能體能夠理解世界，為改造世界打下基礎(chǔ)。

當(dāng)然，上面是從通用人工智能的視角來看待Sora的。Sora的直接影響是整個影視制作和媒體行業(yè)，這是顛覆性的影響，有如火車的出現(xiàn)，改變了整個運輸行業(yè)一樣。馬車不會消失，但成了小眾，未來的影視制作形態(tài)也會完全變了樣。

上海森億醫(yī)療科技有限公司

聯(lián)合創(chuàng)始人兼首席技術(shù)官殷嘉珩

Sora模型一經(jīng)推出，就在視頻生成領(lǐng)域做到了SOTA（State of the Art），一下子就將相關(guān)領(lǐng)域的效果推進了很多，獲得廣泛關(guān)注。Sora使用基于視頻時空patch的方式，將視頻可以表示成類似大語言模型Token的形式，從而可以用類似LLM的方式使用Diffusion Transformer（DiT）進行訓(xùn)練和生成。Sora可以根據(jù)文本和圖片提示，生成60秒任意分辨率和長寬比的視頻，更令人興奮的是，這個視頻中會更好地模擬每個對象的物理特性，從而看起來非常真實。

不過就目前來看，Sora距離真正的強人工智能和世界模型還是有較大的差距。Meta的首席AI科學(xué)家Yann LeCun指出，Sora能生成出4條腿的螞蟻，就說明了Sora不能真正地像人一下理解世界的常識。比如幼兒哪怕是小動物，都能從簡單的觀察中意識到，一切拋擲的物體終將落向地面，但Sora這樣的模型，只能通過海量的訓(xùn)練數(shù)據(jù)，去模擬這樣的行為，并不能真正地實現(xiàn)“世界模型”。

上海智位機器人股份有限公司

高級工程師/AIGC小組主理人夏青

Sora是一個在工程領(lǐng)域成功的模型，其創(chuàng)新性地結(jié)合了擴展模型和Transformer模型。它的物理過程、長距離關(guān)聯(lián)性、3D連續(xù)性等特性讓人震驚，讓我們再次看到大規(guī)模參數(shù)訓(xùn)練后產(chǎn)生的涌現(xiàn)。它是否代表人工智能已經(jīng)理解了現(xiàn)實世界，甚至是通向AGI的第一步？同時，其生成60秒的視頻的能力也超越了許多現(xiàn)有的工具。雖然目前Sora并未提供接口供公眾使用，但我們預(yù)見其在短視頻領(lǐng)域的巨大潛力。然而，其穩(wěn)定性可能是一個問題，需要進一步地訓(xùn)練和使用以穩(wěn)定輸出。對于監(jiān)管，利用區(qū)塊鏈技術(shù)進行可追溯的水印可能是一個解決方案。

派歐云計算（上海）有限公司（PPIO）

Sora之所以能引起如此大的震動，是因為它在一定程度上實現(xiàn)了物理世界的虛擬化，是當(dāng)前最接近AGI概念的產(chǎn)品。Sora不僅能理解用戶在提示中提出的要求，還能模仿這些物體在物理世界中的存在方式。比如一大群紙飛機在樹林中飛過，Sora知道碰撞后會發(fā)生什么，并表現(xiàn)其中的光影變化，這其中的技術(shù)突破是遠超預(yù)期的。Sora的問世也正印證了硅谷的新摩爾定律：模型能力1-2年提升一代，訓(xùn)練成本18個月下降4倍，推理成本18個月下降10倍。

從商業(yè)上看，AI在應(yīng)用層如雨后春筍般發(fā)展，各行各業(yè)都在涉及。而大模型的訓(xùn)練與推理、生成式AI應(yīng)用的規(guī)?；涞?，需要新一代的基礎(chǔ)設(shè)施來支撐。GPU和云作為AI的軍火，其市場需求將更加旺盛，未來幾年甚至?xí)┎粦?yīng)求。當(dāng)下的AI模型訓(xùn)練主要依靠英偉達GPU，但主流算力芯片已經(jīng)供不應(yīng)求，有機構(gòu)預(yù)測到2024年需求將達到150-200萬。雖然現(xiàn)在來看ARM、英偉達、臺積電構(gòu)建的全球AI半導(dǎo)體產(chǎn)業(yè)鏈可能是短期的最大收益者，但未來或許會迎來更大的競爭。目前，對于中國企業(yè)來講，算力基礎(chǔ)設(shè)施的自主化建設(shè)、尤其是算力芯片，仍是在AI賽道上與全球保持同步進步的重要方向。

來源｜央視網(wǎng)、騰訊科技、北京新聞廣播微信公眾號，達觀數(shù)據(jù)、森億智能、智位機器人、PPIO

編輯｜王芳

審核｜姚遠

校對｜辦公室

前沿趨勢｜OpenAI首個文生視頻模型Sora驚艷發(fā)布，聽聽園企技術(shù)專家怎么說······

前沿趨勢｜OpenAI首個文生視頻模型Sora驚艷發(fā)布，聽聽園企技術(shù)專家怎么說······