OpenAI Sora 用文字敘述就能產生影片?它可能比你想的更強大

OpenAI 在 2/5 推出最新生成式 AI 模型 Sora,你只要以文字描述場景與內容,甚至提供圖片作為範例,它就可以生成一支長達一分鐘的 Full HD 影片,這影片還能包含多種不同角色、動作與背景細節。根據 OpneAI 的說明,Sora 對語言有著深刻的理解,這使其能夠準確地解讀提示並生成表達生動情感的吸引人角色。該模型不僅理解用戶在提示中要求的是什麼,而且理解這些事物在物理世界中是如何存在的。

image
from Sora

 

在 Sora 官網上示範以不同文字描述所產生的影片,每一支影片都可以看出有些微的瑕疵,但畫面基本上都非常逼真。

當下達 “一位時尚女性走在充滿溫暖霓虹燈和動畫城市標誌的東京街道上。 她穿著黑色皮夾克、紅色長裙和黑色靴子,拎著黑色皮夾。 她戴著太陽眼鏡,塗著紅色口紅。 她走路自信又隨興。 街道潮濕且反光,在彩色燈光的照射下形成鏡面效果。 許多行人走來走去。” 這樣有著主角外型穿搭、背景環境、角色情緒時,所產生的影片如下:

 

在影片中,雖然女主角的腳步有些浮動不自然外,其他像是地面上水漬與墨鏡上的倒影、背景人物的走動與招牌的細節,都相當逼真。不過有個小小的問題,就是亞洲臉孔的時尚女性,通常不會沒有上粉底就出門,影片後半段女主角的臉部細節雖然逼真,但基本上與亞洲大眾認知的時尚女性相違背。

image
from Sora

 

另一支描述寫著 “無人機拍攝海浪拍打 Big Sur garay point beach 崎嶇懸崖的景象, 蔚藍的海水激起白色的波浪,夕陽的金色光芒照亮了岩石海岸。 遠處有一座小島,島上有一座燈塔,懸崖邊長滿了綠色的灌木叢。 從公路到海灘的陡峭落差是一項戲劇性的壯舉,懸崖邊緣伸出海面。 這一景觀捕捉到了海岸的原始之美和太平洋海岸公路的崎嶇景觀。”,這描述所產生的影片雖然只有幾秒鐘,但描述中的 Big Sur garay point beach 是真實場景,所以能夠模擬出的逼真程度,當然也會更真實,不過能做成這樣真的很強大。

 

在虛構場景部分,當敘述 “兩艘海盜船在一杯咖啡內航行時互相戰鬥的逼真特寫影片。” 所產生的影片,其實也滿逗趣的,有點像是動畫場景般,畫面感也相當好。

 

雖然部分影片還是可以看出瑕疵,但作為像是 YouTube 製作時的 B-Roll 素材,是非常夠用的。當然這樣的 AI 模型並不是完美的,OpenAI 自己也非常清楚,他們承認 Sora 可能難以準確模擬複雜場景的物理特性,也可能無法理解特定的因果關係。例如,一個人可能咬了一口餅乾,但事後,餅乾上可能沒有咬痕。

目前所釋出的影片與相關資訊,只是 OpenAI 展示的研究成果,目前也沒正式將這功能開放給大眾使用,它們認為以現階段來說非常有可能造成濫用與惡意使用。所以 OpenAI 也努力發展檢測系統,用以判斷影片是否由 Sora 所產生,讓觀看影片的受眾知道這並不是真實的影片。

除了 OpenAI Sora 外,其實像是 Meta、Google、Runway AI…等公司,也都積極研究文字轉影片的 AI 技術,但我認為這些公司在開發技術同時,還是得做好防範惡意濫用措施。對於一般大眾,更需要改變有影片有真相的認知,未來的影片生成技術,只會讓不真實變得更真實。

其他

Kisplay為Saydigi.com總編輯,喜好各式各樣科技生活新鮮事,也樂於以輕鬆自然方式將新知傳達給讀者,讓科技話題與生活品味永遠圍繞在彼此身邊。

■作者:Kisplay
■主題:3C、生活品味
■連絡方式:Kisplay@gmail.com
■FaceBook:https://www.facebook.com/KisplaySayGoodbuy/

More in 其他

Insta360 Go 3S 動手玩!升級 4K 畫質,配件更好用!真心大推!

Kisplay2024/07/07

台灣手機備份品牌 Maktar 東京發表會 結合快充備份和外部儲存 新品 Qubii Power 秀超強功能

Daphne2024/07/05

2030 達全電車目標 Volvo 還能延續瑞典坦克稱號?

Kisplay2024/07/05

New Defender OCTA 極致性能全地形新標竿

Kisplay2024/07/05

徠卡 D-Lux 8 攜帶型相機正式上市 變焦鏡頭與經典設計結合

Kisplay2024/07/05

福容徠旅/鄰近機場捷運線與三井Outle t/有三溫暖跟24小時點心吧 ~

小佳2024/07/04
-->
一起用好點子過好生活吧!