顛覆視頻創(chuàng)作？Sora還需“學(xué)好物理”

作者：用戶投稿時(shí)間：2024-02-22 14:57 點(diǎn)擊：次

導(dǎo)讀：　最近幾天，OpenAI公司發(fā)布的視頻生成大模型Sora成了全世界關(guān)注的焦點(diǎn),。它究竟會(huì)給我們的生活帶來怎樣的影響,？連日來，記者專訪了幾位人工智能領(lǐng)域的專家,，專

　　最近幾天，OpenAI公司發(fā)布的視頻生成大模型Sora成了全世界關(guān)注的焦點(diǎn),。它究竟會(huì)給我們的生活帶來怎樣的影響,？連日來,，記者專訪了幾位人工智能領(lǐng)域的專家，專家表示,，Sora還遠(yuǎn)未達(dá)到理解自然規(guī)律的地步,，仍有很長的路要走。

　　廣州日報(bào)全媒體記者肖歡歡（除署名外）

　　一山更比一山高,？Sora來自“組合拳”式技術(shù)創(chuàng)新

　　著名人工智能研究專家,、創(chuàng)新工場人工智能工程院執(zhí)行院長王詠剛表示，OpenAI公布的樣例視頻連貫,、流暢,、穩(wěn)定，與提示文本的符合程度極高,，無論是時(shí)長還是質(zhì)量都遠(yuǎn)超此前的視頻生成技術(shù),。“初步看,，Sora是人工智能發(fā)展史上的又一個(gè)里程碑,，是文生視頻領(lǐng)域的‘GPT-3時(shí)刻’?！彼J(rèn)為,，AI大模型從文本信息處理進(jìn)化到多模態(tài)信息處理，Sora可能是其中至關(guān)重要的一環(huán),?！癆I從處理文本一躍提升到能高質(zhì)量處理或生成視頻，這意味著AI對世界的理解達(dá)到了一個(gè)全新的高度,。通俗來說,，ChatGPT使AI學(xué)會(huì)了讀書寫字，Sora的發(fā)布則代表AI初步學(xué)會(huì)了‘拍攝’視頻或電影短片,，今年很可能掀起AI視頻技術(shù)與應(yīng)用發(fā)展的巨大浪潮,。”

　　王詠剛介紹,，從ChatGPT到Sora,，兩種技術(shù)之間有明確的繼承與發(fā)展關(guān)系。Sora的技術(shù)突破主要得益于兩個(gè)方面：第一,，融合了兩大生成式AI技術(shù)――雖然在整體算法框架上沿用了圖像生成領(lǐng)域常用的Diffusion模型,，但在框架內(nèi)部巧妙融入ChatGPT使用的Transformer來編碼和表達(dá)視頻中的時(shí)空信息，得到了名為Diffusion Transformer的組合模型,。根據(jù)技術(shù)報(bào)告,，Sora在視頻生成時(shí)涌現(xiàn)的精準(zhǔn)、連貫的表達(dá)能力就源自這種組合拳式的科技創(chuàng)新。第二,，發(fā)揮GPT的特長,，改進(jìn)標(biāo)注質(zhì)量――Sora使用類似GPT-4的技術(shù)對訓(xùn)練用的樣本視頻做了重新標(biāo)注，從根本上解決了目前視頻訓(xùn)練數(shù)據(jù)缺乏高質(zhì)量標(biāo)注的問題,?！艾F(xiàn)在經(jīng)過GPT重新標(biāo)注，AI可以知道訓(xùn)練視頻中的人長什么樣子,、穿什么衣服,、手從哪里運(yùn)動(dòng)到哪里、身體呈現(xiàn)什么姿勢等,。顯然AI可據(jù)此學(xué)有關(guān)這個(gè)世界運(yùn)動(dòng)規(guī)律的更多知識(shí),。”

　　“OpenAI首先研發(fā)出ChatGPT和GPT-4,，現(xiàn)在又把ChatGPT的核心技術(shù)與視頻生成的流行技術(shù)框架結(jié)合起來,，可以說Sora是站在ChatGPT的肩膀上，一山更比一山高,?！?/p>

　　多模態(tài)同步推進(jìn) 未來AI的AGI水平將極大提高

　　原云天勵(lì)飛聯(lián)合創(chuàng)始人、首席科學(xué)家王孝宇博士是人工智能領(lǐng)域的資深科學(xué)家,，連日來他也密切留意著Sora帶來的影響,。王孝宇認(rèn)為，在具體功能方面,，Sora能部分模擬人或事物在現(xiàn)實(shí)世界中的存在方式,，并由此產(chǎn)生一定水準(zhǔn)的情感表達(dá)；在生成視頻質(zhì)量上,，Sora高清的畫質(zhì),、豐富的細(xì)節(jié)，尤其是在處理遮擋和場景連貫性上,，跟之前的模型相比有了質(zhì)的飛躍,。

　　王孝宇介紹，OpenAI這些年一直在進(jìn)行多模態(tài)同步推進(jìn),，比如說將視頻轉(zhuǎn)化成文字，利用AI給視頻精準(zhǔn)配音等,?！按騻€(gè)比方，生成視頻先需要文本,，但先輸入的這句話機(jī)器不一定能理解,，先用ChatGPT重新寫一遍，將prompt(提示詞）轉(zhuǎn)化成Sora能夠理解的文字，然后再進(jìn)行視頻創(chuàng)作,；同時(shí),，也會(huì)把訓(xùn)練視頻轉(zhuǎn)化成Sora可以理解的文字。這些技術(shù)是相互夯實(shí),、相互搭臺(tái)的,，而不是相互替代。所以,，Sora的技術(shù)架構(gòu)并不復(fù)雜,，只不過它跳脫出以前大家做文生視頻的思路?！?/p>

　　王孝宇表示,，Sora正是在多模態(tài)演進(jìn)和高質(zhì)量數(shù)據(jù)學(xué)習(xí)的基礎(chǔ)上，實(shí)現(xiàn)了視頻涌現(xiàn)機(jī)制,，生成的視頻連貫性比較高,，并且能大概理解真實(shí)世界的一些規(guī)律?！癆I技術(shù)方面最大的進(jìn)步不一定是基礎(chǔ)技術(shù)的進(jìn)步,，工程學(xué)、呈現(xiàn)效果的進(jìn)步也是進(jìn)步,，Sora的最大意義在于,，它讓學(xué)界認(rèn)識(shí)到通過文字和視頻的橋接來提升AI的AGI（通用人工智能）水平是有可能的。未來Sora和ChatGPT結(jié)合,，將極大提高AI的AGI水平,。”

　　AI功能莫過分夸大邏輯推理,、自然規(guī)律理解能力待提高

　　王詠剛表示,，盡管Sora在文本生成視頻方面有了質(zhì)的提升，但并不能將其功能過分夸大,?！八€遠(yuǎn)遠(yuǎn)沒有達(dá)到掌握物理規(guī)律的地步?！?/p>

　　在王詠剛看來,，“機(jī)器學(xué)習(xí)完全理解自然界規(guī)律”還是一個(gè)遙遠(yuǎn)的命題?！癝ora在技術(shù)上并沒有跳出ChatGPT和Stable Diffusion等前沿AI大模型的范疇,，不大可能在智力水平上躍升到另一個(gè)完全不同的境界?！?/p>

　　對此,，王孝宇也表示認(rèn)同,。他表示，Sora的“文生視頻”技術(shù)還不是完美的,，還有很多不連貫性,，比如說，視頻中人的手指有時(shí)會(huì)多一根或者少一根,，它還不能準(zhǔn)確地理解現(xiàn)實(shí)世界,。“一個(gè)模型能生成逼真視頻,，并不能代表它理解了物理世界,，從目前來看，Sora并沒有完全掌握現(xiàn)實(shí)世界的物理規(guī)律,，因?yàn)橐彩强粗曨l學(xué)習(xí),，它可供學(xué)習(xí)的樣本相當(dāng)有限。模型的預(yù)測能力依賴于其訓(xùn)練數(shù)據(jù)的多少和質(zhì)量,，對于那些超出訓(xùn)練數(shù)據(jù)分布的新情況,，模型可能無法精確預(yù)測。要知道,，現(xiàn)實(shí)世界的復(fù)雜性遠(yuǎn)超過任何模型能夠通過有限數(shù)據(jù)學(xué)習(xí)到的經(jīng)驗(yàn),。” 王孝宇說,，這就像天氣預(yù)報(bào)一樣,，即便人類掌握了足夠多的衛(wèi)星云圖和氣象資料，也還是難以精確預(yù)報(bào)每一次臺(tái)風(fēng)的最終走向,?！八裕荒懿糠帜M現(xiàn)實(shí)世界,，掌握人或者其他物體在現(xiàn)實(shí)世界中的存在方式,。我同意現(xiàn)在有些學(xué)者的觀點(diǎn)，只讓 AI看視頻是學(xué)不成世界模型的,，它還不能用作現(xiàn)實(shí)世界的可靠模擬,，在邏輯推理上還有很大的進(jìn)步空間?！?/p>

　　AI大模型未來將向哪個(gè)方向發(fā)展,？王詠剛說，大語言模型的評估是一個(gè)復(fù)雜的課題,，但即便如此,，對AI大模型能力的評估數(shù)據(jù)仍然是其改進(jìn)的關(guān)鍵一環(huán)。他認(rèn)為,，目前AI體現(xiàn)出的寫作水平,、繪畫水平比較強(qiáng)，在某些方面可以接近人類的專業(yè)水平,，但在邏輯推理上,，AI的“智力水平”大概還處在人類孩童的階段，無法處理過于復(fù)雜的邏輯問題,，也無法完全依照人類指令完成所有任務(wù),。“缺乏復(fù)雜邏輯推理能力,，對世界的認(rèn)知不夠準(zhǔn)確,，難以完全按人類要求工作，這是阻礙AI應(yīng)用落地的最核心問題,。目前最流行的AI應(yīng)用還停留在知識(shí)問答,、陪伴式聊天、辦公文案生成,、輔助編程,、輔助設(shè)計(jì)等領(lǐng)域，只有更進(jìn)一步提高AI的邏輯推理能力及可控性,，AI相關(guān)應(yīng)用才能更進(jìn)一步普及,。”

打賞

感謝您的支持,，我會(huì)繼續(xù)努力的!

掃碼打賞，你說多少就多少

打開支付寶掃一掃,，即可進(jìn)行掃碼打賞哦

上一篇：馬斯克旗下腦機(jī)接口公司宣布新進(jìn)展
下一篇：大數(shù)據(jù)“殺熟”為何屢禁不止？

隨便看看：

相關(guān)推薦：

網(wǎng)友評論：

推薦使用友言、多說,、暢言(需備案后使用)等社會(huì)化評論插件

欄目分類