▲ Google研究人員強調,AI系統VLOGGER的特點在於不需要先針對每個人物進行訓練
由生成式AI掀起的熱潮,除了AI機械人,還包括圖像生成影片技術。Google研究人員近日開發新的圖像及音訊生成影片AI系統「VLOGGER」,僅需輸入一張靜態照片及音訊檔案,就可以讓照片中的人物,做出對應到聲音的面部表情、頭部動作及手勢。
Google研究人員強調,AI系統VLOGGER的特點在於不需要先針對每個人物進行訓練,不依賴臉部偵測及裁剪,可以產出完整的畫面,而且考慮到不同人物的身體或不同身份等。
生成多元種族人物影片
據解釋,系統基於擴散模型以及一個關鍵的數據庫「MENTOR」,當中包括超過80萬名不同的人物分身及長達2,200小時的影片,令其足而生成多元種族、年齡,且穿著不同服裝,擺著各種姿勢的人物影片。
然而,該系統目前仍存有限制,例如生成影片長度較短,背景較多為靜態,人物並不會在3D環境中移動。
責任編輯:張寶燕
(本文由hket新聞 授權轉載)
留言