導讀:美國人工智能研究公司OpenAI推出了一款文生視頻模型“Sora”
近日,美國人工智能研究公司OpenAI推出了一款文生視頻模型“Sora”。通過簡短或詳細的提示詞描述,或一張靜態(tài)圖片,“Sora”就能生成類似電影的逼真場景,涵蓋多個角色、不同類型動作和背景細節(jié)等,最高能生成1分鐘左右的1080P高清視頻。
OpenAI的官網(wǎng)介紹稱,如果給定一段簡短或詳細的描述或一張靜態(tài)圖片,“Sora”就能生成類似電影的1080P場景,包含多個角色、不同類型的動作和背景細節(jié)。使用這款模型可以用文本生成長達一分鐘的視頻。開發(fā)這一模型旨在教會人工智能理解和模擬運動中的物理世界,并訓練其幫助人們解決需要現(xiàn)實世界互動的問題?!癝ora是能夠理解和模擬現(xiàn)實世界的模型的基礎,我們相信這一功能將成為實現(xiàn)通用人工智能(AGI)的重要里程碑?!?/p>
OpenAI表示,當前的模型存在弱點,可能難以準確地模擬復雜場景的物理表現(xiàn),可能混淆提示的空間細節(jié),可能難以精確描述隨著時間推移發(fā)生的事件,如遵循特定的相機軌跡等。也可能無法理解因果關系的具體實例,并舉例稱,視頻很可能會出現(xiàn)“一個人咬了一口餅干,但餅干上沒有咬痕?!?/p>
“Sora”不僅能模擬真實世界,而且能學習攝影師和導演的表達手法,并在AI視頻中展現(xiàn)出來?!拔覀兲剿饕曨l數(shù)據(jù)生成模型的大規(guī)模訓練。具體來說,我們在可變持續(xù)時間、分辨率和寬高比的視頻和圖像上聯(lián)合訓練文本條件擴散模型。我們利用對視頻和圖像潛在代碼的時空補丁進行操作的Transformer架構。我們最大的模型Sora能夠生成一分鐘的高保真視頻。我們的結果表明,擴展視頻生成模型是構建物理世界通用模擬器的一條有前途的途徑?!監(jiān)penAI表示。整體來看,“Sora”生成的視頻噪音比較少,原始的訓練數(shù)據(jù)比較“干凈”,而且基于ChatGPT、DALL·E文生圖技術能力,“Sora”視頻生成技術更加高超。
“Sora”已經成為了目前最強的AI視頻生成類模型。