Fugatto 是一個基礎生成式轉換器模型,建立在該團隊多年來於語音建模、音訊處理及音訊理解的研究基礎之上。完整版本使用25億個參數,並在搭載32個NVIDIA H100 Tensor核心GPU的 NVIDIA DGX 系統上進行訓練。 想要深入探索 Fugatto 的特色,連結在此。
Fugatto 是一個基礎生成式轉換器模型,建立在該團隊多年來於語音建模、音訊處理及音訊理解的研究基礎之上。完整版本使用25億個參數,並在搭載32個NVIDIA H100 Tensor核心GPU的 NVIDIA DGX 系統上進行訓練。 想要深入探索 Fugatto 的特色,連結在此。:模型的最大挑戰在於資料集的構建。Fugatto 的研發團隊集合了來自印度、巴西、中國、約旦及韓國的專家,他們耗時一年,整合了數百萬個音訊樣本,並利用多種策略創建與擴展資料範圍,以提升模型對多語言及多口音的支持能力。團隊的核心成員之一、NVIDIA 應用音訊研究部門經理 Rafael Valle 表示:「我們希望創造一個能像人類一樣理解並生成聲音的模型。」
Valle 不僅是 Fugatto 的主要推手之一,還是一位管弦樂指揮家與作曲家。他指出,Fugatto 是首個展現「突現性質(emergent property)」的基礎生成式音訊模型,能透過自由形式指令執行多種複雜的聲音任務,並在資料與模型規模上持續發展。
Fugatto 的誕生為音樂製作人與廣告創意人員開闢了新的天地。曾多次獲得白金唱片殊榮的製作人 Ido Zmishlany表示:「這項技術太瘋狂了!它讓我能在錄音室內即時創造新聲音,實現過去難以想像的可能性。」
作為 One Take Audio 的共同創辦人,Zmishlany 也提到音樂科技的演進如何推動音樂史:「電吉他帶來搖滾樂,採樣器催生嘻哈音樂,而 AI 正在為我們譜寫下一個篇章。這是一個全新樂器,改變了我們創作音樂的方式。」
廣告創作者則可利用 Fugatto 為多國市場快速定制配音,調整口音與情感,以增強本地化效果,節省大量時間與資源。
Fugatto 的應用範疇超越傳統音訊創作,還可個人化語言學習工具,讓使用者選擇自己或家人熟悉的聲音講授課程內容。電玩開發人員則能藉此即時創造動態聲景,例如根據玩家動作變化,讓背景音樂或環境音效隨之調整,提升沉浸感。
AI 研究員 Rohan Badlani 提到,Fugatto 的創新功能如時間插值(temporal interpolation),能模擬聲音隨時間變化的過程,例如暴風雨逐漸消散的聲音,或雷雨伴隨鳥鳴聲迎接清晨的聲景。「這讓我感覺自己彷彿成了藝術家,儘管我的專業是電腦科學。」
Fugatto 還支持結合不同指令的技術,稱為ComposableART。使用者可以調整多種屬性,例如讓模型用法國口音演繹帶有悲傷情感的文字,並精細控制其程度。
Valle 舉例說明:「模型甚至能生成喇叭與薩克斯風融合的獨特聲音。」經過微調後,Fugatto 還能基於少量歌唱資料,產生高品質的歌聲,應用範圍涵蓋音樂、語音與藝術創作。
對於 Fugatto 的潛力,Valle 滿懷信心地表示:「這只是我們邁向未來的第一步。」隨著無監督多任務學習的技術進步,Fugatto 有望成為音訊創作與轉換的核心技術之一,激發更多創意靈感,並重塑人們與聲音互動的方式。