Sora:OpenAI影像生成工具的深度剖析
在AI科技不斷創新突破的浪潮中,OpenAI的Sora如同一顆耀眼新星嶄露頭角。它的出現,究竟如何改變創作格局?又該如何使用?其對影視及創作產業的衝擊更是不容小覷。
Sora 是什麼?功能初窺
早在 2024 年 2 月,OpenAI 便邁出了重大一步,推出文字生成影像(text – to – video)的模型暨工具 Sora,其名源自日文 “天空”,寓意著它能為普通創作者開拓一片廣闊的創作天空。
Sora 作為一款多模態生成工具,具有強大的功能。它能依據文字指令、圖片或影片生成短片,最高解析度可達 1080p。其核心功能涵蓋探索(Explore)、故事板(Storyboard)、混搭(Remix)、循環(Loop)等。探索功能可讓使用者瀏覽他人生成的精彩影片,從中汲取創作靈感;故事板功能允許使用者依照時間軸逐步生成影片內容,助力劇本構思與影片製作;混搭功能可修改生成影片的元素,在特效設計與創作方面大顯身手;循環功能能創造無縫重複影片,在動畫與遊戲場景設計中有著重要用途。
Sora 如何使用?使用資格揭秘
如今,Sora 正式向大眾開放。使用資格方面,使用者需訂閱 ChatGPT Plus,每月付費 20 美元,或者選擇價格更高的 ChatGPT Pro 方案,每月 200 美元。然而,因初始流量爆棚,若先前未登入過獨立於 ChatGPT 的 Sora 網站,可能暫時無法使用其生成影片。
Sora 對創作產業的重塑
自今年 2 月 Sora 預覽版推出,便在影視產業掀起波瀾。好萊塢導演 Tyler Perry 因之停止工作室擴建計劃,可見其對影視產業就業市場的巨大挑戰。它使得一些傳統的場景搭建和外景拍攝需求可能降低。但對於資源有限的個人創作者而言,Sora 提供了低成本製作高品質內容的難得機會。在企業層面,Sora 的應用更是廣泛,如廣告製作、教育影片以及虛擬實境等領域都能一展身手。
Sora 的運作原理:ChatGPT 團隊的創新匠心
OpenAI 執行長奧特曼表示,打造 Sora 旨在為創意工作者提供有力工具,助力文化傳播,推動人類更好地利用 AI,此舉與 ChatGPT 和 DALL・E 助力白領工作者的理念相似。且 OpenAI 重視多模態發展,期望通過 Sora 等工具的完善,向通用人工智慧(AGI)邁進。
Sora 的故事板運作類似影像編修軟體的時間軸查看功能,但目的是生成影片。使用者在時間軸內放置卡片,在卡片中描述環境、角色及期望在特定時間點發生的動作,Sora 便會依此生成影像。使用者還可自行調整卡片配置,如增加或減少卡片間的時間間隔,前者能讓 Sora 自動填補連續鏡頭,後者則更接近電影剪輯效果。Sora 的產品設計師菲林強調,其重點不在一鍵生成影片,而是基於生成內容進一步編輯與調整,是 “創作者的延伸”。
Sora 的實際應用與限制
在實際應用中,如音樂人 Washed Out 的〈The Hardest Part〉MV 便啟用了 Sora。該 MV 呈現一對情侶 40 年生活片段,未用演員和搭建場景,但生成內容一致性難以維持,需大量後製。日本導演曽根隼人使用正式版 Sora 製作仿遊戲影片,雖逼真但地圖有錯誤。這些都表明 Sora 在實際應用中仍有可改進之處,其性能和效果有待更多使用者深入探索和驗證。
Sora 與其他 AI 影像工具的差異比較
在 AI 影像生成工具的大家族中,Sora 有其獨特優勢。它可生成最長 60 秒的長片段,先進的擴散模型架構使其生成影片具備時間一致性和真實感,還能為靜態圖片添加動畫效果或延展現有影片,創作靈活性和技術優勢明顯。
相比之下,Google 的影音生成模型 Veo 能服務創作者和企業用戶,YouTube 創作者可利用其輔助製作影音背景與內容,企業可活用素材轉化動態影片。Snapchat 母公司 Snap 推出 Snap Video、Meta 推出 Movie Gen,主要用於幫助創作者打造內容或改動既有影音元素。而在創意產業中,Runway Gen3、Pika 等工具常用於廣告、遊品、影視等行業的特定任務,HeyGen、Synthesia 等工具則在企業內部訓練影片、跨國多語言行銷素材製作等方面發揮作用。
總之,Sora 的出現標誌著 AI 影像生成技術的新進展,它在改變創作方式、衝擊傳統產業的同時,也面臨著諸多挑戰和限制。但不可否認,它正引領著個人與產業在 AI 浪潮中,在驚慌與興奮間摸索前行,未來其發展值得密切關注。