應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

Meta 推出 V-JEPA 模型,利用 AI 高效補(bǔ)充視頻受遮蔽部分

2024-02-18 09:41 IT之家
關(guān)鍵詞:視頻預(yù)測(cè)模型

導(dǎo)讀:Meta推出了一款名為“V-JEPA”的視頻預(yù)測(cè)模型

  2 月 17 日消息,Meta 首席AI科學(xué)家 Yann LeCun在2022年推出了 JEPA(Joint Embedding Predictive Architectures)模型架構(gòu),次年基于 JEPA 架構(gòu)開發(fā)了一款“I-JEPA”圖片預(yù)測(cè)模型,目前又推出了一款名為“V-JEPA”的視頻預(yù)測(cè)模型。

image.png

  據(jù)介紹,相關(guān) JEPA 架構(gòu)及 I-JEPA / V-JPA 模型主打“預(yù)測(cè)能力”,號(hào)稱可以以“人類理解”的方式,利用抽象性高效預(yù)測(cè)生成圖片 / 視頻中被遮蔽的部分。

  IT之家注意到,研究人員使用一系列經(jīng)過(guò)遮蔽處理的特定視頻訓(xùn)練 I-JEPA / V-JEPA 模型,研究人員要求模型利用“抽象方式”填充視頻中缺失的內(nèi)容,從而讓模型在填充間學(xué)習(xí)場(chǎng)景,進(jìn)一步預(yù)測(cè)未來(lái)的事件或動(dòng)作,進(jìn)而達(dá)到對(duì)世界更深層次的理解。

image.png

image.png

  ▲ 圖源Meta 官方新聞稿(下同)

  研究人員表示,這種訓(xùn)練方法能夠讓模型專注于影片的高層次概念,而“不會(huì)鉆牛角尖處理下游任務(wù)不重要的細(xì)節(jié)”,研究人員舉例“人類觀看內(nèi)含樹木的影片時(shí),不會(huì)特別關(guān)心樹葉的運(yùn)動(dòng)方式”,因此采用這種抽象概念的模型,相對(duì)于業(yè)界競(jìng)品效率更佳。

image.png

  研究人員同時(shí)提到,V-JEPA 采用一種名為“Frozen Evaluations”的設(shè)計(jì)結(jié)構(gòu),即“模型在預(yù)訓(xùn)練之后,核心部分不會(huì)再改變”,因此只需要在模型之上添加小型專門層即可適應(yīng)新任務(wù),具有更高普適性。