Sora全新版本在準確性和穩定性上取得了顯著突破。最引人注目的升級之一是解決了「綁定」問題—就是AI在生成圖像時,要如何正確搭配用戶所下的形狀和顏色指令。現在,Sora可以處理最多15至20個物件,遠超過舊版本的5到8個物件的限制,確保生成的圖像更為精準。這一版本還搭載了GPT-4o的「omnimodal」核心,使其不僅能理解並生成圖像,還能處理文字、音頻和影片,顯示出OpenAI在多模態技術上的雄心。
另一個重要進步是文字渲染的精確度。許多AI生成的圖像在處理文字時會出現拼寫錯誤或亂碼,這也使得圖像在用於海報、菜單等創作時無法使用。現在,Sora已經克服了這些問題,提供穩定且清晰的文字輸出,對於大多數實際應用場景已經足夠。雖然極小字體仍可能略有誤差,但整體已經達到可用的標準。

根據OpenAI官方的說明,Sora的另一大亮點是它結合了廣泛的世界知識,讓生成的圖像不僅具美學價值,還能體現特定知識背景。無論是科學實驗圖、連環漫畫還是教育用圖,Sora都能理解並準確呈現這些圖像背後的概念,讓使用者能夠輕鬆生成符合預期的圖像,而不需要過多解釋細節。
儘管如此,影像生成的速度略有減慢,OpenAI 解釋這是為了提升品質所做出的取捨。使用者可能會經歷短暫的延遲,但OpenAI強調,這些圖像的品質和知識深度完全值得等待。
值得注意的是,Sora生成的圖片不會添加浮水印,但會內嵌C2PA標準的元資料以標示來源。使用者擁有圖像的完整使用權,只需遵循平台的使用政策即可自由應用。
除了在ChatGPT中使用,Sora影像生成也已於Sora平台上提供,並將很快開放給開發者透過API進行使用。
