顛覆視頻創(chuàng)作?Sora還需“學(xué)好物理”
最近幾天,OpenAI公司發(fā)布的視頻生成大模型Sora成了全世界關(guān)注的焦點(diǎn),。它究竟會(huì)給我們的生活帶來怎樣的影響,?連日來,,記者專訪了幾位人工智能領(lǐng)域的專家,專家表示,,Sora還遠(yuǎn)未達(dá)到理解自然規(guī)律的地步,,仍有很長的路要走。
廣州日報(bào)全媒體記者 肖歡歡(除署名外)
一山更比一山高,?Sora來自“組合拳”式技術(shù)創(chuàng)新
著名人工智能研究專家,、創(chuàng)新工場人工智能工程院執(zhí)行院長王詠剛表示,OpenAI公布的樣例視頻連貫,、流暢,、穩(wěn)定,與提示文本的符合程度極高,,無論是時(shí)長還是質(zhì)量都遠(yuǎn)超此前的視頻生成技術(shù),。“初步看,,Sora是人工智能發(fā)展史上的又一個(gè)里程碑,,是文生視頻領(lǐng)域的‘GPT-3時(shí)刻’?!彼J(rèn)為,,AI大模型從文本信息處理進(jìn)化到多模態(tài)信息處理,Sora可能是其中至關(guān)重要的一環(huán),?!癆I從處理文本一躍提升到能高質(zhì)量處理或生成視頻,這意味著AI對世界的理解達(dá)到了一個(gè)全新的高度,。通俗來說,,ChatGPT使AI學(xué)會(huì)了讀書寫字,Sora的發(fā)布則代表AI初步學(xué)會(huì)了‘拍攝’視頻或電影短片,,今年很可能掀起AI視頻技術(shù)與應(yīng)用發(fā)展的巨大浪潮,。”
王詠剛介紹,,從ChatGPT到Sora,,兩種技術(shù)之間有明確的繼承與發(fā)展關(guān)系。Sora的技術(shù)突破主要得益于兩個(gè)方面:第一,,融合了兩大生成式AI技術(shù)――雖然在整體算法框架上沿用了圖像生成領(lǐng)域常用的Diffusion模型,,但在框架內(nèi)部巧妙融入ChatGPT使用的Transformer來編碼和表達(dá)視頻中的時(shí)空信息,得到了名為Diffusion Transformer的組合模型,。根據(jù)技術(shù)報(bào)告,,Sora在視頻生成時(shí)涌現(xiàn)的精準(zhǔn)、連貫的表達(dá)能力就源自這種組合拳式的科技創(chuàng)新。第二,,發(fā)揮GPT的特長,,改進(jìn)標(biāo)注質(zhì)量――Sora使用類似GPT-4的技術(shù)對訓(xùn)練用的樣本視頻做了重新標(biāo)注,從根本上解決了目前視頻訓(xùn)練數(shù)據(jù)缺乏高質(zhì)量標(biāo)注的問題,?!艾F(xiàn)在經(jīng)過GPT重新標(biāo)注,AI可以知道訓(xùn)練視頻中的人長什么樣子,、穿什么衣服,、手從哪里運(yùn)動(dòng)到哪里、身體呈現(xiàn)什么姿勢等,。顯然AI可據(jù)此學(xué)有關(guān)這個(gè)世界運(yùn)動(dòng)規(guī)律的更多知識(shí),。”
“OpenAI首先研發(fā)出ChatGPT和GPT-4,,現(xiàn)在又把ChatGPT的核心技術(shù)與視頻生成的流行技術(shù)框架結(jié)合起來,,可以說Sora是站在ChatGPT的肩膀上,一山更比一山高,?!?/p>
多模態(tài)同步推進(jìn) 未來AI的AGI水平將極大提高
原云天勵(lì)飛聯(lián)合創(chuàng)始人、首席科學(xué)家王孝宇博士是人工智能領(lǐng)域的資深科學(xué)家,,連日來他也密切留意著Sora帶來的影響,。王孝宇認(rèn)為,在具體功能方面,,Sora能部分模擬人或事物在現(xiàn)實(shí)世界中的存在方式,,并由此產(chǎn)生一定水準(zhǔn)的情感表達(dá);在生成視頻質(zhì)量上,,Sora高清的畫質(zhì),、豐富的細(xì)節(jié),尤其是在處理遮擋和場景連貫性上,,跟之前的模型相比有了質(zhì)的飛躍,。
王孝宇介紹,OpenAI這些年一直在進(jìn)行多模態(tài)同步推進(jìn),,比如說將視頻轉(zhuǎn)化成文字,利用AI給視頻精準(zhǔn)配音等,?!按騻€(gè)比方,生成視頻先需要文本,,但先輸入的這句話機(jī)器不一定能理解,,先用ChatGPT重新寫一遍,將prompt(提示詞)轉(zhuǎn)化成Sora能夠理解的文字,然后再進(jìn)行視頻創(chuàng)作,;同時(shí),,也會(huì)把訓(xùn)練視頻轉(zhuǎn)化成Sora可以理解的文字。這些技術(shù)是相互夯實(shí),、相互搭臺(tái)的,,而不是相互替代。所以,,Sora的技術(shù)架構(gòu)并不復(fù)雜,,只不過它跳脫出以前大家做文生視頻的思路?!?/p>
王孝宇表示,,Sora正是在多模態(tài)演進(jìn)和高質(zhì)量數(shù)據(jù)學(xué)習(xí)的基礎(chǔ)上,實(shí)現(xiàn)了視頻涌現(xiàn)機(jī)制,,生成的視頻連貫性比較高,,并且能大概理解真實(shí)世界的一些規(guī)律?!癆I技術(shù)方面最大的進(jìn)步不一定是基礎(chǔ)技術(shù)的進(jìn)步,,工程學(xué)、呈現(xiàn)效果的進(jìn)步也是進(jìn)步,,Sora的最大意義在于,,它讓學(xué)界認(rèn)識(shí)到通過文字和視頻的橋接來提升AI的AGI(通用人工智能)水平是有可能的。未來Sora和ChatGPT結(jié)合,,將極大提高AI的AGI水平,。”
AI功能莫過分夸大 邏輯推理,、自然規(guī)律理解能力待提高
王詠剛表示,,盡管Sora在文本生成視頻方面有了質(zhì)的提升,但并不能將其功能過分夸大,?!八€遠(yuǎn)遠(yuǎn)沒有達(dá)到掌握物理規(guī)律的地步?!?/p>
在王詠剛看來,,“機(jī)器學(xué)習(xí)完全理解自然界規(guī)律”還是一個(gè)遙遠(yuǎn)的命題?!癝ora在技術(shù)上并沒有跳出ChatGPT和Stable Diffusion等前沿AI大模型的范疇,,不大可能在智力水平上躍升到另一個(gè)完全不同的境界?!?/p>
對此,,王孝宇也表示認(rèn)同,。他表示,Sora的“文生視頻”技術(shù)還不是完美的,,還有很多不連貫性,,比如說,視頻中人的手指有時(shí)會(huì)多一根或者少一根,,它還不能準(zhǔn)確地理解現(xiàn)實(shí)世界,。“一個(gè)模型能生成逼真視頻,,并不能代表它理解了物理世界,,從目前來看,Sora并沒有完全掌握現(xiàn)實(shí)世界的物理規(guī)律,,因?yàn)橐彩强粗曨l學(xué)習(xí),,它可供學(xué)習(xí)的樣本相當(dāng)有限。模型的預(yù)測能力依賴于其訓(xùn)練數(shù)據(jù)的多少和質(zhì)量,,對于那些超出訓(xùn)練數(shù)據(jù)分布的新情況,,模型可能無法精確預(yù)測。要知道,,現(xiàn)實(shí)世界的復(fù)雜性遠(yuǎn)超過任何模型能夠通過有限數(shù)據(jù)學(xué)習(xí)到的經(jīng)驗(yàn),。” 王孝宇說,,這就像天氣預(yù)報(bào)一樣,,即便人類掌握了足夠多的衛(wèi)星云圖和氣象資料,也還是難以精確預(yù)報(bào)每一次臺(tái)風(fēng)的最終走向,?!八裕荒懿糠帜M現(xiàn)實(shí)世界,,掌握人或者其他物體在現(xiàn)實(shí)世界中的存在方式,。我同意現(xiàn)在有些學(xué)者的觀點(diǎn),只讓 AI看視頻是學(xué)不成世界模型的,,它還不能用作現(xiàn)實(shí)世界的可靠模擬,,在邏輯推理上還有很大的進(jìn)步空間?!?/p>
AI大模型未來將向哪個(gè)方向發(fā)展,?王詠剛說,大語言模型的評估是一個(gè)復(fù)雜的課題,,但即便如此,,對AI大模型能力的評估數(shù)據(jù)仍然是其改進(jìn)的關(guān)鍵一環(huán)。他認(rèn)為,,目前AI體現(xiàn)出的寫作水平,、繪畫水平比較強(qiáng),在某些方面可以接近人類的專業(yè)水平,,但在邏輯推理上,,AI的“智力水平”大概還處在人類孩童的階段,無法處理過于復(fù)雜的邏輯問題,,也無法完全依照人類指令完成所有任務(wù),。“缺乏復(fù)雜邏輯推理能力,,對世界的認(rèn)知不夠準(zhǔn)確,,難以完全按人類要求工作,這是阻礙AI應(yīng)用落地的最核心問題,。目前最流行的AI應(yīng)用還停留在知識(shí)問答,、陪伴式聊天、辦公文案生成,、輔助編程,、輔助設(shè)計(jì)等領(lǐng)域,只有更進(jìn)一步提高AI的邏輯推理能力及可控性,,AI相關(guān)應(yīng)用才能更進(jìn)一步普及,。”
隨便看看:
- [業(yè)內(nèi)]我國科研團(tuán)隊(duì)提出棉鈴蟲綠色防治新方法
- [業(yè)內(nèi)]人類Y染色體的組裝和分析完成
- [業(yè)內(nèi)]我國新網(wǎng)絡(luò)通信標(biāo)準(zhǔn)獲國際電信聯(lián)盟立項(xiàng)
- [業(yè)內(nèi)]智能,、綠色,、高端:“制造強(qiáng)國”高質(zhì)量發(fā)展透視
- [業(yè)內(nèi)]我國流動(dòng)科普項(xiàng)目累計(jì)服務(wù)公眾超5億人次
- [業(yè)內(nèi)]卓奧友峰科考:希望解密高原生理適應(yīng)機(jī)制
- [業(yè)內(nèi)]新型循環(huán)流化床鍋爐提升煤炭清潔利用水平
- [業(yè)內(nèi)]蘇寧易購召開2023家電商家共創(chuàng)會(huì) 發(fā)布“云帆計(jì)劃”
- [業(yè)內(nèi)]內(nèi)蒙古自治區(qū)第二屆氫能產(chǎn)業(yè)發(fā)展論壇在包頭市成功舉辦
- [業(yè)內(nèi)]海南自貿(mào)港:顏值之外有“研值”
相關(guān)推薦:
網(wǎng)友評論:
推薦使用友言、多說,、暢言(需備案后使用)等社會(huì)化評論插件
- 快意電梯榮耀加冕:雙百強(qiáng)榜單彰顯非凡實(shí)力,!
- 光伏電池技術(shù)從P型到N型,拉普拉斯(688726.
- 冷王VP Truck高頂系列重磅升級:強(qiáng)勁制冷,,價(jià)
- 高性能 CPU:Arm Cortex-X925 實(shí)
- 項(xiàng)老師App:內(nèi)容極為精細(xì)化設(shè)計(jì)的教育典范
- “未來科技領(lǐng)袖”青少年“科創(chuàng)+”專場論壇倒計(jì)時(shí)1周
- 巨量千川推出兩大勢能,,商家乘勢而起實(shí)現(xiàn)生意增長
- TCL實(shí)業(yè)硬核科技產(chǎn)品亮相2024 ChinaJo
- 為行業(yè)規(guī)范化發(fā)展賦能,天翼云獲頒智算工程平臺(tái)標(biāo)準(zhǔn)參
- 弘揚(yáng)奧運(yùn)精神 綻放國云力量,,天翼云科技賦能體育產(chǎn)業(yè)
- 熱點(diǎn)搶先看|2024南方網(wǎng)通第二十五屆渠道商交流會(huì)
- 《大數(shù)據(jù)平臺(tái)云化改造實(shí)踐指南(2024)》發(fā)布,,天
- 覺卿諦語智能科技在全國12355心理健康大會(huì)上展示
- 當(dāng)好“兩個(gè)稀土基地”建設(shè)主力軍,北方嘉軒永磁電機(jī)大
- 大模型助力工業(yè)智能化發(fā)展
- 工商業(yè)光伏發(fā)電施工指南-太陽庫光伏
- 科技賦能,,避震嬰兒車或成為行業(yè)硬通貨
- 龍旗科技進(jìn)軍AI PC市場,,激發(fā)行業(yè)創(chuàng)新活力
- 科技賦能教育:核桃編程亮相“科創(chuàng)中國·北京創(chuàng)新薈”
- 英偉達(dá)搶占高位,,市場急需尋求新機(jī)遇,這三支AI股值