OpenAI 在 2/5 推出最新生成式 AI 模型 Sora,你只要以文字描述場景與內容,甚至提供圖片作為範例,它就可以生成一支長達一分鐘的 Full HD 影片,這影片還能包含多種不同角色、動作與背景細節。根據 OpneAI 的說明,Sora 對語言有著深刻的理解,這使其能夠準確地解讀提示並生成表達生動情感的吸引人角色。該模型不僅理解用戶在提示中要求的是什麼,而且理解這些事物在物理世界中是如何存在的。
from Sora
在 Sora 官網上示範以不同文字描述所產生的影片,每一支影片都可以看出有些微的瑕疵,但畫面基本上都非常逼真。
當下達 “一位時尚女性走在充滿溫暖霓虹燈和動畫城市標誌的東京街道上。 她穿著黑色皮夾克、紅色長裙和黑色靴子,拎著黑色皮夾。 她戴著太陽眼鏡,塗著紅色口紅。 她走路自信又隨興。 街道潮濕且反光,在彩色燈光的照射下形成鏡面效果。 許多行人走來走去。” 這樣有著主角外型穿搭、背景環境、角色情緒時,所產生的影片如下:
在影片中,雖然女主角的腳步有些浮動不自然外,其他像是地面上水漬與墨鏡上的倒影、背景人物的走動與招牌的細節,都相當逼真。不過有個小小的問題,就是亞洲臉孔的時尚女性,通常不會沒有上粉底就出門,影片後半段女主角的臉部細節雖然逼真,但基本上與亞洲大眾認知的時尚女性相違背。
from Sora
另一支描述寫著 “無人機拍攝海浪拍打 Big Sur garay point beach 崎嶇懸崖的景象, 蔚藍的海水激起白色的波浪,夕陽的金色光芒照亮了岩石海岸。 遠處有一座小島,島上有一座燈塔,懸崖邊長滿了綠色的灌木叢。 從公路到海灘的陡峭落差是一項戲劇性的壯舉,懸崖邊緣伸出海面。 這一景觀捕捉到了海岸的原始之美和太平洋海岸公路的崎嶇景觀。”,這描述所產生的影片雖然只有幾秒鐘,但描述中的 Big Sur garay point beach 是真實場景,所以能夠模擬出的逼真程度,當然也會更真實,不過能做成這樣真的很強大。
在虛構場景部分,當敘述 “兩艘海盜船在一杯咖啡內航行時互相戰鬥的逼真特寫影片。” 所產生的影片,其實也滿逗趣的,有點像是動畫場景般,畫面感也相當好。
雖然部分影片還是可以看出瑕疵,但作為像是 YouTube 製作時的 B-Roll 素材,是非常夠用的。當然這樣的 AI 模型並不是完美的,OpenAI 自己也非常清楚,他們承認 Sora 可能難以準確模擬複雜場景的物理特性,也可能無法理解特定的因果關係。例如,一個人可能咬了一口餅乾,但事後,餅乾上可能沒有咬痕。
目前所釋出的影片與相關資訊,只是 OpenAI 展示的研究成果,目前也沒正式將這功能開放給大眾使用,它們認為以現階段來說非常有可能造成濫用與惡意使用。所以 OpenAI 也努力發展檢測系統,用以判斷影片是否由 Sora 所產生,讓觀看影片的受眾知道這並不是真實的影片。
除了 OpenAI Sora 外,其實像是 Meta、Google、Runway AI…等公司,也都積極研究文字轉影片的 AI 技術,但我認為這些公司在開發技術同時,還是得做好防範惡意濫用措施。對於一般大眾,更需要改變有影片有真相的認知,未來的影片生成技術,只會讓不真實變得更真實。