華商專訪-Sora橫空出世,院士怎么看?
春節(jié)假日期間,美國(guó)人工智能研究公司OpenAI發(fā)布了Sora模型。在文生文、文生圖之后,Sora突破了文生視頻技術(shù),可以根據(jù)文本指令生成長(zhǎng)達(dá)1分鐘的逼真和富有想象力的視頻,引起網(wǎng)絡(luò)和公眾高度關(guān)注。
Sora模型的基本原理是什么?可能會(huì)帶來哪些變化和影響?我國(guó)目前在人工智能領(lǐng)域的研究處于什么水平?近日,華商報(bào)記者采訪了歐洲科學(xué)院院士、IEEE Fellow、西安電子科技大學(xué)華山學(xué)者杰出教授焦李成先生。
算法框架上的創(chuàng)新 本質(zhì)上并不明顯
主要是在各模塊集成與技術(shù)細(xì)節(jié)有突破
華商報(bào):焦院士過年好,很榮幸能采訪到您。Sora根據(jù)文本指令就能生成逼真視頻,其基本原理是什么?和之前的類似技術(shù)有何本質(zhì)不同?
焦李成:總的來說,Sora的成功源自于整個(gè)學(xué)界、業(yè)界、AI社區(qū)多年來在技術(shù)、工程等方面的探索和積累。
文生視頻是生成式人工智能中的一個(gè)典型應(yīng)用。生成式人工智能的核心是使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法,通過對(duì)大量數(shù)據(jù)的學(xué)習(xí)和模式識(shí)別,能夠生成新的、以前未見過的內(nèi)容,如圖像、音頻、視頻、文本等。
ChatGPT、Sora等都是人工智能生成式大模型。這些成功主要依靠三個(gè)要素,分別是數(shù)據(jù)、算力和算法。其核心是深度學(xué)習(xí)算法的突破,也就是指深度神經(jīng)網(wǎng)絡(luò)算法。其基本思想是模擬人腦的信息處理機(jī)制構(gòu)建人工神經(jīng)網(wǎng)絡(luò),基于大量數(shù)據(jù)訓(xùn)練模型,希望它能夠?qū)ψ匀恍畔⒂绕涫锹曇簟⒄Z(yǔ)言、圖像、視頻等進(jìn)行很好的處理。
盡管在大模型中展示了強(qiáng)大的性能,但對(duì)于人腦的知識(shí)處理機(jī)制和推理機(jī)制實(shí)現(xiàn)得還不夠,這也是我們近三十年一直深耕的領(lǐng)域。
Sora實(shí)際上是一種深度擴(kuò)散變換器模型(diffusion transformer),訓(xùn)練這個(gè)模型需要大量配有相應(yīng)文本提示的視頻。它在算法框架上的創(chuàng)新本質(zhì)上并不明顯,主要是在各模塊集成與技術(shù)細(xì)節(jié)有所突破。包括以下七個(gè)方面:
統(tǒng)一的視覺數(shù)據(jù)表示:Sora將所有類型的圖像和視頻數(shù)據(jù),轉(zhuǎn)換為統(tǒng)一的表達(dá)形式,以便適應(yīng)進(jìn)行大規(guī)模的生成模型訓(xùn)練。通過結(jié)合文本條件生成,Sora能夠根據(jù)文本提示生成上下文相關(guān)且視覺上連貫的視頻。關(guān)于這一點(diǎn),浙江大學(xué)人工智能研究所所長(zhǎng)吳飛教授解讀得很通俗:現(xiàn)實(shí)生活中每個(gè)人都是通過有價(jià)值的內(nèi)容組合來進(jìn)行交流和創(chuàng)作的,所以從ChatGPT到Sora,都遵循著同一個(gè)原理——對(duì)合成內(nèi)容中的最小單元進(jìn)行有意義的關(guān)聯(lián)組合。比如,在保持連貫的上下文語(yǔ)境中,對(duì)若干個(gè)單詞進(jìn)行有意義組合,從而連綴成一個(gè)會(huì)意句子;在保持合理的空間布局下,對(duì)眾多圖像小塊進(jìn)行有意義組合,拼合為一幅精彩圖像;在保持一致的連續(xù)時(shí)空內(nèi),對(duì)一系列時(shí)空子塊進(jìn)行有意義組合,從而拼接成一段動(dòng)感視頻。人工智能程序一旦捕獲了單詞與單詞之間的共生關(guān)聯(lián),就可利用這種關(guān)聯(lián)來合成句子。那么,將圖像切分為空間子塊,或者將視頻切分為時(shí)空子塊,人工智能模型去學(xué)習(xí)這些子塊在空間維度中的布局分布、在時(shí)間維度上的連續(xù)變化等信息,同時(shí)學(xué)習(xí)子塊之間運(yùn)動(dòng)、顏色、光照、遮擋等復(fù)雜視覺特征,就可能重建、合成新的視頻序列。
視頻壓縮網(wǎng)絡(luò):訓(xùn)練了一個(gè)模型網(wǎng)絡(luò),將高維空間的原始視頻壓縮到一個(gè)低維潛在的數(shù)據(jù)特征空間,Sora在這個(gè)壓縮的潛在空間中進(jìn)行訓(xùn)練并生成視頻。為何要這么做呢?吳飛教授也解釋得很好:文生視頻需要先提供文本提示詞,然后通過文本單詞和時(shí)空子塊之間的關(guān)聯(lián)來合成新的視頻。但因文本單詞與視覺信息分屬于不同類型,故而存在異構(gòu)鴻溝困難。其次,還要克服由視頻圖像分辨率過大而帶來的維度災(zāi)難,以及其所引發(fā)的操作上的挑戰(zhàn)。為應(yīng)對(duì)這些挑戰(zhàn),Sora先將文本單詞和視覺子塊映射到同構(gòu)低維隱性空間,在這一低維隱性空間中引入擴(kuò)散模型,對(duì)視覺信息反復(fù)迭代,千錘百煉地挖掘文本單詞、空間子塊和時(shí)空子塊之間的關(guān)聯(lián)關(guān)系。這種方式好比先通過“車同軌、書同文”,將文本、視覺等異構(gòu)信息投影到同構(gòu)空間,然后再通過“先破壞(添加噪音)”“再重建(去除噪音)”的迭代手段,來洞悉視頻中各種不同單元在時(shí)間和空間中的關(guān)聯(lián)關(guān)系,從而甄別和學(xué)習(xí)紋理、運(yùn)動(dòng)、光照、遮擋、交互等復(fù)雜視覺物理規(guī)律。這就好比魯班學(xué)藝,不斷將大橋拆散再拼裝,從這個(gè)反復(fù)過程中知曉它們的跨結(jié)構(gòu)、支座系統(tǒng)、橋墩、橋臺(tái)和墩臺(tái)之間的組合關(guān)系,從而練就重建大橋的能力。因此,Sora合成視頻的過程并非是簡(jiǎn)單隨機(jī)的“鸚鵡學(xué)舌”,而是對(duì)物理世界的重建。
擴(kuò)散模型:Sora是一個(gè)深度擴(kuò)散模型,它通過預(yù)測(cè)原始“干凈”的數(shù)據(jù)樣本,來從輸入的噪聲數(shù)據(jù)樣本中生成視頻。什么叫“干凈”的數(shù)據(jù)樣本?什么叫噪聲數(shù)據(jù)樣本?在圖像的獲取、傳輸、存儲(chǔ)過程中由于各種原因,都會(huì)受到噪聲(即噪點(diǎn))的影響。大家通常都不喜歡噪聲,因?yàn)樵肼曉缴伲瑘D像就越清晰,但是從文字生成圖片和視頻的過程卻利用了噪聲。比如當(dāng)圖片中的貓被一步步加噪聲,就會(huì)得到一幅幅越來越不清楚的圖,直到最后這張圖變成全是噪點(diǎn),根本看不出貓。這個(gè)過程就叫擴(kuò)散過程。系統(tǒng)用大量這樣的被噪聲淹沒過程中的圖片及其文字標(biāo)簽去訓(xùn)練神經(jīng)網(wǎng)絡(luò),所用數(shù)量通常是以億來計(jì)。而文字生成圖像的過程,則是這個(gè)過程的逆過程。即根據(jù)輸入的提示詞,從一張張全是噪聲的圖片上不斷地去除噪聲,一步步變成清晰的圖片。圖片是這樣生成的,而視頻實(shí)際上就是連續(xù)播放的圖片,所以生成視頻和生成圖片的基礎(chǔ)原理差不多。OpenAI把視頻中的很多不同的幀即每一張圖片切割成小塊,把它叫做spacetime patches,即“時(shí)空補(bǔ)丁”或“時(shí)空碎片”,這樣就可以方便進(jìn)行處理。
視頻生成的可擴(kuò)展性:Sora能夠生成不同分辨率、時(shí)長(zhǎng)和寬高比的視頻,包括全高清視頻。這種靈活性使得Sora能直接為不同設(shè)備生成內(nèi)容。
△Sora可以對(duì)不同比例的視頻進(jìn)行采樣
語(yǔ)言理解:Sora結(jié)合了大語(yǔ)言模型ChatGPT。Sora的訓(xùn)練樣本是文本-視頻對(duì),有些視頻對(duì)應(yīng)的標(biāo)題過于簡(jiǎn)短或者缺少,Sora采用了Dall-E的重新標(biāo)題技術(shù),即首先訓(xùn)練一個(gè)高度描述性的標(biāo)題生成器網(wǎng)絡(luò),然后為訓(xùn)練數(shù)據(jù)集中的所有視頻生成相對(duì)較為完整的文本標(biāo)題。
△提示:幾只巨大的毛茸茸的猛犸象踩著白雪皚皚的草地走近,它們長(zhǎng)長(zhǎng)的毛茸茸的毛毛在風(fēng)中輕輕吹拂,遠(yuǎn)處白雪皚皚的樹木和壯觀的白雪皚皚的山脈,午后的光線與薄薄的云層和遠(yuǎn)處高高的太陽(yáng)營(yíng)造出溫暖的光芒,低相機(jī)視角令人驚嘆,用美麗的攝影捕捉了大型毛茸茸的哺乳動(dòng)物。
△提示:紐約市像亞特蘭蒂斯一樣被淹沒。魚、鯨魚、海龜和鯊魚在紐約的街道上游來游去。
△提示:一窩金毛獵犬幼犬在雪地里玩耍。他們的頭從雪地里探出頭來,被雪覆蓋著。
圖像和視頻編輯:Sora不僅能基于文本提示生成視頻,還可以用圖像或視頻作為輸入提示,這使Sora能夠執(zhí)行各種圖像和視頻編輯任務(wù),創(chuàng)建完美循環(huán)的視頻、為靜態(tài)圖像制作動(dòng)畫、在時(shí)間上向前或向后擴(kuò)展視頻。
△圖片
△根據(jù)圖片生成的視頻截圖
模擬能力:當(dāng)視頻模型在大規(guī)模訓(xùn)練時(shí),它們展現(xiàn)出了一些有趣的新興能力,使得Sora 能夠模擬物理世界中的某些方面,如動(dòng)態(tài)相機(jī)運(yùn)動(dòng)(即隨著攝像機(jī)的移動(dòng)和旋轉(zhuǎn),人物和場(chǎng)景元素在三維空間中始終如一地移動(dòng))、長(zhǎng)期一致性(比如當(dāng)不同物體間存在遮擋或消失等情況時(shí),依舊可保持它們之間的依賴關(guān)系)、對(duì)象持久性(單個(gè)樣本可生成同一角色的多個(gè)鏡頭,在整個(gè)視頻中保持其外觀)等。
△隨著攝像機(jī)的移動(dòng)和旋轉(zhuǎn),人物和場(chǎng)景元素在三維空間中始終如一地移動(dòng)
△當(dāng)不同物體間存在遮擋或消失等情況時(shí),依舊可保持它們之間的依賴關(guān)系
△單個(gè)樣本可生成同一角色的多個(gè)鏡頭,在整個(gè)視頻中保持其外觀。這段由文字提示生成的視頻時(shí)長(zhǎng)達(dá)59秒
△Sora還可以在兩個(gè)視頻之間無縫過渡,無人機(jī)在飛行中突然變成蝴蝶,場(chǎng)景也自然變換
總的來說,Sora展現(xiàn)的三維空間連貫性和長(zhǎng)期物體持久性,提升了視頻內(nèi)容的真實(shí)感。通過模擬數(shù)字世界和與世界互動(dòng),Sora能夠創(chuàng)造出富有創(chuàng)意的視頻內(nèi)容。這種獨(dú)特訓(xùn)練方法及其對(duì)不同縱橫比的原生支持,標(biāo)志著視頻生成技術(shù)的一個(gè)新時(shí)代從此開啟。
盡管Sora并未使用與過往不同的新技術(shù),幾乎所有技術(shù)都是已經(jīng)公開的,但其所用的視頻生成方式對(duì)算力要求極高,而這種對(duì)算力和資金消耗極大的方式,大幅提升了同行跟進(jìn)的門檻。同時(shí),Sora利用GPT系統(tǒng)對(duì)提示詞進(jìn)行了潤(rùn)色與豐富,從而拉開了與之前文本生成視頻模型之間的差距,形成了對(duì)手短期內(nèi)難以跟進(jìn)的優(yōu)勢(shì)。
Sora目前的技術(shù)路線
還無法正確模擬世界的物理規(guī)律
華商報(bào):Sora技術(shù)報(bào)告中的“世界模擬器”、“物理世界通用模擬器”這樣的詞在網(wǎng)絡(luò)上討論很熱烈,聽起來也讓人感到很振奮。OpenAI技術(shù)報(bào)告介紹視頻模型在大規(guī)模訓(xùn)練時(shí)涌現(xiàn)出的新興仿真功能中列出了“與世界互動(dòng)”:“例如畫家可以在畫布上留下新的筆觸,這些筆觸會(huì)隨著時(shí)間的推移而持續(xù)存在,或者一個(gè)人可以吃漢堡并留下咬痕。”但Sora生成的一些視頻似乎并不符合現(xiàn)實(shí)世界物理規(guī)律,比如老奶奶吹了生日蠟燭,蠟燭的火苗卻紋絲不動(dòng)。這是為何?
焦李成:Sora之所以能對(duì)物理世界規(guī)律進(jìn)行模擬,一個(gè)可能的原因在于大數(shù)據(jù)驅(qū)動(dòng)下,人工智能模型體現(xiàn)出一種學(xué)習(xí)能力,即Sora通過觀察和學(xué)習(xí)海量視頻數(shù)據(jù)后,洞察了視頻中時(shí)空子塊單元之間所應(yīng)保持的物理規(guī)律。其實(shí),人類也是基于對(duì)自然界斗轉(zhuǎn)星移、節(jié)氣變遷和晝夜交替,以及微觀物質(zhì)世界物質(zhì)合成與生命演化的觀測(cè),推導(dǎo)出各種物理規(guī)律。雖然Sora很難像人類一樣,將物理世界中諸如牛頓定律、湍流方程和量子學(xué)定理等,以數(shù)學(xué)方程羅列于人工模型中,但Sora能記住時(shí)空子塊單元之間應(yīng)遵守的模式,進(jìn)而利用這些模式約束時(shí)空子塊的組合。
OpenAI 技術(shù)報(bào)告中透露,Sora能夠深刻地“理解”運(yùn)動(dòng)中的物理世界,堪稱真正的世界模型。OpenAI想強(qiáng)調(diào),Sora不是單純的視頻生成模型,不只是視頻行業(yè)顛覆者,而是世界的模擬器,它打開了一條通往模擬物理世界的有效路徑。OpenAI僅列舉了作為物理世界的模擬器應(yīng)具備的幾個(gè)特點(diǎn)和例子——3D一致性、遠(yuǎn)程相關(guān)性、物體持久性、與世界互動(dòng)等,卻并未對(duì)“什么是世界的模擬器”做任何定義和具體分析。但我們大概可以總結(jié)出它的邏輯:Sora生成的視頻能夠在相當(dāng)長(zhǎng)的時(shí)空范圍內(nèi)不違反物理世界的常見規(guī)律,比如重力、光電、碰撞等。如果模型規(guī)模進(jìn)一步提升,它有可能模擬生成物理世界的視頻。
世界模擬器是指可以逼真反映虛擬世界或現(xiàn)實(shí)世界的模型或系統(tǒng)。物理世界的模擬器能夠在虛擬環(huán)境中重現(xiàn)物理現(xiàn)實(shí),為用戶提供一個(gè)逼真且不違反物理規(guī)律的數(shù)字世界。
Sora生成視頻中之所以會(huì)出現(xiàn)違背物理學(xué)規(guī)律的例子,也可以從其文生視頻的原理來分析:
Sora將視頻分解成時(shí)空令牌,然后學(xué)習(xí)上下文中令牌間連接的概率分布,并且依據(jù)這一概率分布由白噪聲生成令牌、連接令牌,解碼成短視頻。每個(gè)令牌表達(dá)圖像或者視頻中的一個(gè)局部區(qū)域,不同局部區(qū)域間的拼接成為問題的關(guān)鍵。
Sora相對(duì)獨(dú)立地學(xué)習(xí)每個(gè)令牌,將令牌間的空間關(guān)系用訓(xùn)練集中體現(xiàn)的概率來表達(dá),但無法精準(zhǔn)表達(dá)令牌間時(shí)空的因果關(guān)系。這種“局部合理,整體荒謬”的生成視頻,意味著模型學(xué)會(huì)了碎片化知識(shí)的連接概率,但是缺乏時(shí)空上下文的大范圍整體觀念。
另外Sora采用的是目前最為熱門的擴(kuò)散模型,在計(jì)算傳輸映射的時(shí)候,必然會(huì)光滑化數(shù)據(jù)流形的邊界,從而混淆不同的模式,直接跳過臨界態(tài)圖像的生成。因此視頻看上去從一個(gè)狀態(tài)突然跳躍到另外一個(gè)狀態(tài),中間最為關(guān)鍵的傾倒過程缺少,導(dǎo)致物理上的荒謬。
由此可見,雖然Sora聲稱是“作為世界模擬器的視頻生成模型”,但目前的技術(shù)路線無法正確模擬世界的物理規(guī)律。
究其原因,我比較認(rèn)同顧險(xiǎn)峰老師的分析:
首先,用概率統(tǒng)計(jì)的相關(guān)性(指Transformer用以表達(dá)令牌之間的統(tǒng)計(jì)相關(guān)性)無法精確表達(dá)物理定律的因果性,自然語(yǔ)言的上下文相關(guān)無法達(dá)到偏微分方程的精密程度,而物理定律目前只有偏微分方程才能精密表達(dá);
其次,雖然Transformer可以學(xué)習(xí)臨近時(shí)空令牌間的連接概率,但是無法判斷全局的合理性,整體的合理性需要更高層次的數(shù)學(xué)理論觀點(diǎn)、或者更為隱蔽而深厚的自然科學(xué)和人文科學(xué)的背景,目前的Transformer無法真正悟出這些全局觀點(diǎn);
另外,Sora忽略了物理過程中最為關(guān)鍵的臨界(災(zāi)變)態(tài),一方面因?yàn)榕R界態(tài)樣本的稀缺,另一方面因?yàn)閿U(kuò)散模型將穩(wěn)恒態(tài)數(shù)據(jù)流形的邊界模糊化,消弭了臨界態(tài)的存在,生成的視頻出現(xiàn)了不同穩(wěn)恒態(tài)之間的跳躍。
文生視頻技術(shù)
未來將會(huì)在多個(gè)領(lǐng)域得到應(yīng)用
華商報(bào):文生視頻技術(shù)將來最可能的應(yīng)用場(chǎng)景主要在哪些方面?
焦李成:隨著生成式人工智能技術(shù)的不斷發(fā)展,特別是文生視頻技術(shù)受到大家的關(guān)注,后續(xù)關(guān)于這方面的研究會(huì)推動(dòng)該領(lǐng)域再上一個(gè)臺(tái)階,技術(shù)的走向除了Sora目前存在的缺點(diǎn),應(yīng)該還有會(huì)其他突破。將來可能會(huì)在以下方面得到廣泛應(yīng)用:
創(chuàng)意行業(yè):文生視頻技術(shù)可以幫助藝術(shù)家、設(shè)計(jì)師和創(chuàng)作者快速生成創(chuàng)意作品,包括動(dòng)畫、影片、廣告等,提高創(chuàng)作效率和降低成本。
營(yíng)銷和廣告:文生視頻技術(shù)可以根據(jù)用戶的偏好和行為數(shù)據(jù)生成個(gè)性化的廣告內(nèi)容,提高廣告效果和用戶參與度。
視頻制作和編輯:文生視頻技術(shù)可以自動(dòng)生成視頻剪輯、字幕、特效等內(nèi)容,簡(jiǎn)化視頻制作和編輯的流程。
虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí):文生視頻技術(shù)可以生成逼真的虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)內(nèi)容,用于游戲、培訓(xùn)、教育等領(lǐng)域。
自動(dòng)化視頻生成:文生視頻技術(shù)可以自動(dòng)生成新聞、體育賽事、天氣預(yù)報(bào)等視頻內(nèi)容,提高新聞媒體和娛樂行業(yè)的自動(dòng)化程度。
客戶服務(wù)和教育培訓(xùn):文生視頻技術(shù)可以幫助企業(yè)和教育機(jī)構(gòu)快速生成培訓(xùn)視頻、產(chǎn)品演示等內(nèi)容,提升客戶服務(wù)和教學(xué)效果。
隨著文生視頻技術(shù)的發(fā)展和完善,除了上述的基本應(yīng)用領(lǐng)域外,將來還會(huì)滲透到更加專業(yè)的領(lǐng)域,帶來更高效、創(chuàng)新和個(gè)性化的視頻內(nèi)容生成體驗(yàn)。
△提示:逼真的特寫視頻,兩艘海盜船在一杯咖啡中航行時(shí)相互爭(zhēng)斗。
△提示:一個(gè)20多歲的年輕人坐在天空中的一片云上,看書。
△提示:一個(gè)小小的、圓形的、蓬松的生物,有著大而富有表現(xiàn)力的眼睛,探索著一個(gè)充滿活力、迷人的森林。這種生物是兔子和松鼠的異想天開的混合體,有著柔軟的藍(lán)色皮毛和濃密的條紋尾巴。它沿著波光粼粼的溪流跳躍,驚奇地睜大了眼睛。森林里充滿了神奇的元素:會(huì)發(fā)光和變色的花朵,葉子呈紫色和銀色的樹木,以及類似螢火蟲的小漂浮燈。這個(gè)生物停下來與一群圍繞著蘑菇圈跳舞的精靈般的小生物嬉戲互動(dòng)。這個(gè)生物敬畏地抬頭看著一棵發(fā)光的大樹,這棵樹似乎是森林的中心。
△提示:一朵巨大的、高聳的云,人形的云層籠罩著大地。云人將閃電射向地面。
給人們帶來便捷的同時(shí)
生成式人工智能也可能帶來風(fēng)險(xiǎn)
華商報(bào):技術(shù)是一柄雙刃劍,Sora可能會(huì)給人們帶來哪些便捷與變化?也可能帶來哪些風(fēng)險(xiǎn)?
焦李成:這是一個(gè)哲學(xué)問題。但是對(duì)于今天的生成式人工智能大模型或者Sora來說,有些方面具有其特有屬性。
它們可能給人們帶來的便捷和變化主要有四點(diǎn):
創(chuàng)造性內(nèi)容生成:生成式人工智能可以生成以前未見過的圖像、音頻、視頻和文本等創(chuàng)造性作品,為藝術(shù)家、設(shè)計(jì)師和創(chuàng)作者提供了新的靈感和工具。
自動(dòng)化創(chuàng)作:生成式人工智能可以自動(dòng)化創(chuàng)作過程,減少人工勞動(dòng),提高效率。例如可以自動(dòng)生成文章、音樂、影片等內(nèi)容。
個(gè)性化體驗(yàn):生成式人工智能可以根據(jù)用戶的偏好和歷史數(shù)據(jù)生成個(gè)性化的推薦、廣告和服務(wù),提供更好的用戶體驗(yàn)。
自然語(yǔ)言處理和機(jī)器翻譯:生成式人工智能在自然語(yǔ)言處理和機(jī)器翻譯領(lǐng)域有廣泛應(yīng)用,可以幫助人們更好地進(jìn)行溝通和交流。
與此同時(shí),它們可能帶來的風(fēng)險(xiǎn)也有四點(diǎn):
假新聞和虛假信息:生成式人工智能可能被用于制造虛假的新聞和信息,對(duì)社會(huì)造成誤導(dǎo)和混亂。
侵犯隱私和數(shù)據(jù)安全:生成式人工智能需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,在處理個(gè)人數(shù)據(jù)時(shí)可能會(huì)引發(fā)隱私和數(shù)據(jù)安全的問題。
不可控的生成結(jié)果:生成式人工智能可能會(huì)產(chǎn)生不可預(yù)測(cè)、不受控制的生成結(jié)果,包括有害、冒犯或違法的內(nèi)容。
倫理和道德問題:生成式人工智能可能引發(fā)倫理和道德問題,如利用人工智能制作深度偽造視頻等。
需要加強(qiáng)對(duì)人工智能生成數(shù)據(jù)的監(jiān)管和審查
確保數(shù)據(jù)的準(zhǔn)確性、可靠性并加強(qiáng)安全防護(hù)
華商報(bào):在用人工智能工具文生圖的操作過程中,經(jīng)常會(huì)發(fā)現(xiàn)輸入的關(guān)鍵詞希望生成的圖片和最終實(shí)際生成的圖片存在著中西方文化的差異。不知在文生視頻中是否也會(huì)出現(xiàn)這樣的情況?
焦李成:會(huì)出現(xiàn)這種情況,幾乎所有基于數(shù)據(jù)訓(xùn)練的模型都會(huì)出現(xiàn)這樣的問題。這種中西方文化差異在人工智能生成圖像中出現(xiàn)的原因可能有幾個(gè)方面:
訓(xùn)練數(shù)據(jù)集的偏差:人工智能模型在生成圖像時(shí)通常會(huì)基于大量的訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)可能來自于特定地區(qū)或特定文化背景的圖片。如果訓(xùn)練數(shù)據(jù)集中的圖像偏向某種文化,那么生成的圖片也可能會(huì)受到這種文化影響。
模型設(shè)計(jì)和算法:人工智能生成圖像的模型和算法可能對(duì)不同文化的視覺特征和風(fēng)格有所偏好,導(dǎo)致生成的圖像在中西方文化之間存在差異。例如,某些模型可能更擅長(zhǎng)模仿西方藝術(shù)風(fēng)格,而另一些模型可能更適合模仿東方藝術(shù)風(fēng)格。
數(shù)據(jù)樣本不足:對(duì)于一些特定主題或概念,可能存在的中西方文化差異導(dǎo)致某些文化的樣本數(shù)據(jù)較少,從而影響了模型對(duì)于該主題的理解和生成能力。
為減小這種中西方文化差異帶來的影響,可以嘗試使用更廣泛和多樣化的訓(xùn)練數(shù)據(jù)集,同時(shí)調(diào)整模型參數(shù)或使用不同的生成算法。此外,也可通過后期處理或編輯生成的圖片來使其更符合文化背景和偏好的要求。
華商報(bào):在一條視頻中,美籍華人、美國(guó)工程院院士、NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛提出:AI主權(quán)要獨(dú)立掌握,否則歷史文化會(huì)被篡改,每個(gè)國(guó)家都需要擁有自己的智能產(chǎn)品。他還進(jìn)一步解釋了“主權(quán)人工智能”的概念:你擁有自己的數(shù)據(jù),沒有其他人擁有它,它編纂了你們的文化,你們的社會(huì)智慧,你們的常識(shí),你們的歷史,這些數(shù)據(jù)必須掌握在自己手里。因此你必須拿到這些數(shù)據(jù)、提煉完善這些數(shù)據(jù),擁有自己的國(guó)家智能,不能交給其他人幫你們完成。Sora的橫空出世,也再次說明了數(shù)據(jù)資源的重要性。在這方面,您有何觀點(diǎn)?
焦李成:數(shù)據(jù)資源的重要性不言而喻,我們國(guó)家也高度重視這塊,成立了國(guó)家數(shù)據(jù)局來主要做這個(gè)事情,當(dāng)然也包括對(duì)生成數(shù)據(jù)的管控問題,但這是一個(gè)世界范圍內(nèi)的數(shù)據(jù)治理問題。
人工智能生成的數(shù)據(jù)存在潛在的安全隱患,為了減少這些安全隱患,需要加強(qiáng)對(duì)人工智能生成數(shù)據(jù)的監(jiān)管和審查,確保數(shù)據(jù)的準(zhǔn)確性和可靠性。同時(shí),需要加強(qiáng)數(shù)據(jù)隱私保護(hù)和安全防護(hù),避免敏感信息被不當(dāng)使用或泄露。此外,對(duì)抗性攻擊和法律倫理問題也需要引起重視,建立相應(yīng)的防護(hù)機(jī)制和監(jiān)管措施。
我國(guó)人工智能研究處于全球領(lǐng)先水平
未來研究方向主要將從兩個(gè)方面出發(fā)
華商報(bào):目前我國(guó)在該領(lǐng)域的研究處于什么水平?未來該領(lǐng)域的發(fā)展方向是什么?
焦李成:目前我國(guó)在人工智能領(lǐng)域的研究處于全球領(lǐng)先水平,政府和企業(yè)對(duì)人工智能的投入和支持力度也非常大。研究機(jī)構(gòu)和高校在人工智能領(lǐng)域取得了許多重要的成果,包括在語(yǔ)音識(shí)別、計(jì)算機(jī)視覺、自然語(yǔ)言處理等方面取得了顯著的進(jìn)展。
關(guān)于未來的研究方向,主要從兩個(gè)方面出發(fā),分別是判別式人工智能和生成式人工智能。
判別式人工智能是一種通過學(xué)習(xí)輸入數(shù)據(jù)的特征和模式來進(jìn)行分類、識(shí)別或預(yù)測(cè)的人工智能方法。與生成式人工智能不同,判別式人工智能的主要任務(wù)是建立一個(gè)模型來直接對(duì)輸入數(shù)據(jù)進(jìn)行建模,從而對(duì)其進(jìn)行分類或預(yù)測(cè)輸出結(jié)果。
判別式人工智能的發(fā)展方向是不斷提升模型性能、數(shù)據(jù)效率和資源利用率,注重解釋性和可解釋性,同時(shí)加強(qiáng)泛化和遷移學(xué)習(xí)能力,應(yīng)對(duì)多模態(tài)數(shù)據(jù)處理等挑戰(zhàn)。
生成式人工智能的主要任務(wù)是使用已知數(shù)據(jù)的統(tǒng)計(jì)特征來生成新的、以前未見過的數(shù)據(jù)。與判別式人工智能不同,生成式方法不僅能夠?qū)σ延袛?shù)據(jù)進(jìn)行分類或預(yù)測(cè),而且還能夠生成新的數(shù)據(jù)樣本,從而模擬現(xiàn)實(shí)世界中的數(shù)據(jù)分布和特征。
生成式人工智能的發(fā)展方向是不斷提升生成模型的各方面的能力,包括穩(wěn)定性、連貫性、邏輯性、真實(shí)性等,實(shí)現(xiàn)更多領(lǐng)域的創(chuàng)新和應(yīng)用。
西電人工智能領(lǐng)域人才培養(yǎng)起步很早
專注于遙感和醫(yī)學(xué)大模型的研究
華商報(bào):您所帶領(lǐng)的團(tuán)隊(duì)在人工智能領(lǐng)域耕耘三十余載,可否簡(jiǎn)單介紹一下相關(guān)研究成果嗎,以及對(duì)未來的設(shè)想?
焦李成:西電在人工智能領(lǐng)域人才培養(yǎng)工作方面起步很早,1986年就展開了研究生的人工智能教育與培養(yǎng),2001年獲批模式識(shí)別與智能系統(tǒng)的博士點(diǎn),2003年設(shè)立了智能信息處理碩士點(diǎn)與博士點(diǎn),1991年成立國(guó)內(nèi)第一個(gè)神經(jīng)網(wǎng)絡(luò)研究中心,2017年成立部屬高校首個(gè)人工智能學(xué)院。西電是全國(guó)唯一一所“智科”和“人工智能”專業(yè)雙雙入選國(guó)家“雙一流”建設(shè)的高校,且均被評(píng)為A+專業(yè),也是教育部獲批的“人工智能+教育”三所標(biāo)桿大學(xué)之一。
在大模型技術(shù)方面,我們一直面向國(guó)家重大需求開展著研究。主要做了西電遙感腦大模型和智能醫(yī)學(xué)影像分析大模型系統(tǒng)。
西電遙感腦大模型是基于三十多年的技術(shù)積淀開發(fā)的,該系統(tǒng)主要對(duì)機(jī)載和星載衛(wèi)星獲取的圖像和視頻進(jìn)行智能識(shí)別與解譯。它是基于“國(guó)產(chǎn)遙感衛(wèi)星數(shù)據(jù)+國(guó)產(chǎn)人工智能框架+國(guó)產(chǎn)人工智能算力平臺(tái)+自主知識(shí)產(chǎn)權(quán)技術(shù)”,能夠進(jìn)行遙感數(shù)據(jù)經(jīng)濟(jì)生態(tài)體系的創(chuàng)新及應(yīng)用研究,也是國(guó)際上第一個(gè)遙感大模型。
智能醫(yī)學(xué)影像分析大模型是一款全面的醫(yī)學(xué)影像分析平臺(tái),能夠協(xié)助從醫(yī)工作者提高診斷效率,支持MRI、X光、CT和B超等多種醫(yī)學(xué)影像數(shù)據(jù)的顯示與處理。可提供豐富的醫(yī)學(xué)影像解譯算法,包括海馬體分割、腦瘤分割與識(shí)別、腫瘤檢測(cè)與定位、肺部感染診斷、多器官2D、3D分割、結(jié)腸癌原發(fā)灶分割、乳腺癌病灶分割等。還支持統(tǒng)計(jì)分析功能,包括區(qū)域統(tǒng)計(jì)分析、按類別的統(tǒng)計(jì)分析以及數(shù)量統(tǒng)計(jì)等,為醫(yī)學(xué)影像領(lǐng)域的專業(yè)用戶提供了有效實(shí)用的工具和功能。
總的來說,大模型既是一個(gè)基礎(chǔ)模型,又是面向重大工程應(yīng)用的通用平臺(tái),這既是考驗(yàn),也是機(jī)遇,我們要從基礎(chǔ)理論、關(guān)鍵技術(shù)、創(chuàng)新應(yīng)用等方面突破,從而在國(guó)際上處于領(lǐng)先地位。
>>>>焦李成院士簡(jiǎn)介
焦李成,歐洲科學(xué)院院士,IEEE Fellow,西安電子科技大學(xué)華山學(xué)者杰出教授。現(xiàn)任西安電子科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)部主任、人工智能研究院院長(zhǎng)、智能感知與圖像理解教育部重點(diǎn)實(shí)驗(yàn)室主任、教育部科技委學(xué)部委員、“一帶一路”人工智能創(chuàng)新聯(lián)盟理事長(zhǎng)、陜西省人工智能產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟理事長(zhǎng)、西安市人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟理事長(zhǎng)、中國(guó)人工智能學(xué)會(huì)第六-七屆副理事長(zhǎng)、亞洲計(jì)算智能學(xué)會(huì)主席,IEEE/IET/CAAI/CCF/CIE/CAA/CSIG/AIIA/AAIA/ACIS Fellow,連續(xù)九年入選愛思唯爾高被引學(xué)者榜單。國(guó)務(wù)院學(xué)位委員會(huì)學(xué)科評(píng)議組成員, 第八屆全國(guó)人大代表, 國(guó)務(wù)院政府津貼的專家,全國(guó)模范教師、陜西省突出貢獻(xiàn)專家、陜西省師德標(biāo)兵和陜西省西遷精神傳承人。焦院士的主要研究方向?yàn)橹悄芨兄c圖像理解、深度學(xué)習(xí)與類腦計(jì)算、進(jìn)化優(yōu)化與遙感解譯。
華商報(bào)記者 馬虎振(視頻截圖圖源為OpenAI官網(wǎng))
來源:華商網(wǎng)-華商報(bào)
- 1大金冷氣故障代碼a3(大金冷氣故障代碼A3解析指南)
- 2空調(diào)繼電器壞了出現(xiàn)什么問題(如何判斷及更換)
- 3凱福將指紋鎖售后服務(wù)中心(凱福指紋鎖服務(wù)中心:專業(yè)售后服務(wù)一站解決)
- 4樂開指紋鎖售后電話(樂開指紋鎖售后電話:快速與貼心的服務(wù)!)
- 5步陽(yáng)防盜門打不開怎么辦(步陽(yáng)防盜門無法開啟應(yīng)對(duì)策略)
- 6創(chuàng)維G6圖像模式怎么調(diào)(創(chuàng)維G6圖像模式指南:如何實(shí)現(xiàn)最佳中心調(diào)節(jié)?)
- 7奧克斯柜機(jī)空調(diào)故障代碼e4(奧克斯柜機(jī)空調(diào)故障代碼e4:疑難排解及解決方案
- 8小米電視換屏幕多少錢(維修費(fèi)用詳解)
- 9西門子洗衣機(jī)報(bào)e17故障(西門子洗衣機(jī)E17故障解決方案)
- 10十大不建議買的燃?xì)庠钆琶?哪些品牌不靠譜?)