【Google新模型】Google開發AI系統VLOGGER　輸入圖像＋音訊自動「對嘴形」生成影片

▲ Google研究人員強調，AI系統VLOGGER的特點在於不需要先針對每個人物進行訓練

由生成式AI掀起的熱潮，除了AI機械人，還包括圖像生成影片技術。Google研究人員近日開發新的圖像及音訊生成影片AI系統「VLOGGER」，僅需輸入一張靜態照片及音訊檔案，就可以讓照片中的人物，做出對應到聲音的面部表情、頭部動作及手勢。

Google研究人員強調，AI系統VLOGGER的特點在於不需要先針對每個人物進行訓練，不依賴臉部偵測及裁剪，可以產出完整的畫面，而且考慮到不同人物的身體或不同身份等。

生成多元種族人物影片

據解釋，系統基於擴散模型以及一個關鍵的數據庫「MENTOR」，當中包括超過80萬名不同的人物分身及長達2,200小時的影片，令其足而生成多元種族、年齡，且穿著不同服裝，擺著各種姿勢的人物影片。

然而，該系統目前仍存有限制，例如生成影片長度較短，背景較多為靜態，人物並不會在3D環境中移動。

責任編輯：張寶燕

（本文由hket新聞授權轉載）

最新文章