OpenAI Sora 用文字敘述就能產生影片？它可能比你想的更強大

Kisplay

2024/02/17

瀏覽： views

OpenAI 在 2/5 推出最新生成式 AI 模型 Sora，你只要以文字描述場景與內容，甚至提供圖片作為範例，它就可以生成一支長達一分鐘的 Full HD 影片，這影片還能包含多種不同角色、動作與背景細節。根據 OpneAI 的說明，Sora 對語言有著深刻的理解，這使其能夠準確地解讀提示並生成表達生動情感的吸引人角色。該模型不僅理解用戶在提示中要求的是什麼，而且理解這些事物在物理世界中是如何存在的。

from Sora

在 Sora 官網上示範以不同文字描述所產生的影片，每一支影片都可以看出有些微的瑕疵，但畫面基本上都非常逼真。

當下達 “一位時尚女性走在充滿溫暖霓虹燈和動畫城市標誌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子，拎著黑色皮夾。她戴著太陽眼鏡，塗著紅色口紅。她走路自信又隨興。街道潮濕且反光，在彩色燈光的照射下形成鏡面效果。許多行人走來走去。” 這樣有著主角外型穿搭、背景環境、角色情緒時，所產生的影片如下：

在影片中，雖然女主角的腳步有些浮動不自然外，其他像是地面上水漬與墨鏡上的倒影、背景人物的走動與招牌的細節，都相當逼真。不過有個小小的問題，就是亞洲臉孔的時尚女性，通常不會沒有上粉底就出門，影片後半段女主角的臉部細節雖然逼真，但基本上與亞洲大眾認知的時尚女性相違背。

from Sora

另一支描述寫著 “無人機拍攝海浪拍打 Big Sur garay point beach 崎嶇懸崖的景象，蔚藍的海水激起白色的波浪，夕陽的金色光芒照亮了岩石海岸。遠處有一座小島，島上有一座燈塔，懸崖邊長滿了綠色的灌木叢。從公路到海灘的陡峭落差是一項戲劇性的壯舉，懸崖邊緣伸出海面。這一景觀捕捉到了海岸的原始之美和太平洋海岸公路的崎嶇景觀。”，這描述所產生的影片雖然只有幾秒鐘，但描述中的 Big Sur garay point beach 是真實場景，所以能夠模擬出的逼真程度，當然也會更真實，不過能做成這樣真的很強大。

在虛構場景部分，當敘述 “兩艘海盜船在一杯咖啡內航行時互相戰鬥的逼真特寫影片。” 所產生的影片，其實也滿逗趣的，有點像是動畫場景般，畫面感也相當好。

雖然部分影片還是可以看出瑕疵，但作為像是 YouTube 製作時的 B-Roll 素材，是非常夠用的。當然這樣的 AI 模型並不是完美的，OpenAI 自己也非常清楚，他們承認 Sora 可能難以準確模擬複雜場景的物理特性，也可能無法理解特定的因果關係。例如，一個人可能咬了一口餅乾，但事後，餅乾上可能沒有咬痕。

目前所釋出的影片與相關資訊，只是 OpenAI 展示的研究成果，目前也沒正式將這功能開放給大眾使用，它們認為以現階段來說非常有可能造成濫用與惡意使用。所以 OpenAI 也努力發展檢測系統，用以判斷影片是否由 Sora 所產生，讓觀看影片的受眾知道這並不是真實的影片。

除了 OpenAI Sora 外，其實像是 Meta、Google、Runway AI…等公司，也都積極研究文字轉影片的 AI 技術，但我認為這些公司在開發技術同時，還是得做好防範惡意濫用措施。對於一般大眾，更需要改變有影片有真相的認知，未來的影片生成技術，只會讓不真實變得更真實。

Related ItemsOpenAI Sora

其他

2024/02/17

瀏覽： views

Kisplay

Kisplay為Saydigi.com總編輯，喜好各式各樣科技生活新鮮事，也樂於以輕鬆自然方式將新知傳達給讀者，讓科技話題與生活品味永遠圍繞在彼此身邊。
—
■作者：Kisplay
■主題：3C、生活品味
■連絡方式：Kisplay@gmail.com
■FaceBook：https://www.facebook.com/KisplaySayGoodbuy/

Related ItemsOpenAI Sora

Insta360 Go 3S 動手玩！升級 4K 畫質，配件更好用！真心大推！

台灣手機備份品牌 Maktar 東京發表會結合快充備份和外部儲存新品 Qubii Power 秀超強功能

2030 達全電車目標 Volvo 還能延續瑞典坦克稱號？

New Defender OCTA 極致性能全地形新標竿

徠卡 D-Lux 8 攜帶型相機正式上市變焦鏡頭與經典設計結合

福容徠旅/鄰近機場捷運線與三井Outle t/有三溫暖跟24小時點心吧 ~

點子專區