top of page
hktechblog

【Google新模型】Google開發AI系統VLOGGER 輸入圖像+音訊自動「對嘴形」生成影片


Google研究人員強調,AI系統VLOGGER的特點在於不需要先針對每個人物進行訓練


由生成式AI掀起的熱潮,除了AI機械人,還包括圖像生成影片技術。Google研究人員近日開發新的圖像及音訊生成影片AI系統「VLOGGER」,僅需輸入一張靜態照片及音訊檔案,就可以讓照片中的人物,做出對應到聲音的面部表情、頭部動作及手勢。

Google研究人員強調,AI系統VLOGGER的特點在於不需要先針對每個人物進行訓練,不依賴臉部偵測及裁剪,可以產出完整的畫面,而且考慮到不同人物的身體或不同身份等。


生成多元種族人物影片

據解釋,系統基於擴散模型以及一個關鍵的數據庫「MENTOR」,當中包括超過80萬名不同的人物分身及長達2,200小時的影片,令其足而生成多元種族、年齡,且穿著不同服裝,擺著各種姿勢的人物影片。

然而,該系統目前仍存有限制,例如生成影片長度較短,背景較多為靜態,人物並不會在3D環境中移動。

責任編輯:張寶燕

(本文由hket新聞 授權轉載)

8 次查看0 則留言

留言

評等為 0(最高為 5 顆星)。
暫無評等

新增評等
bottom of page