多才多藝的「虛擬主播」,你了解多少?丨智言智語

中科院之聲 發佈 2020-06-24T09:08:04+00:00

中科院之聲與中國科學院自動化研究所聯合開設「智言智語」科普專欄,為你介紹人工智慧相關知識與故事,從最新成果到背後趣聞,帶你徜徉AI空間,看人工智慧如何喚醒萬物,讓世界變得更美好 。

編者按: 智顯未來,洞見新知。中科院之聲與中國科學院自動化研究所聯合開設「智言智語」科普專欄,為你介紹人工智慧相關知識與故事,從最新成果到背後趣聞,帶你徜徉AI空間,看人工智慧如何喚醒萬物,讓世界變得更美好 。

隨著近年來音視頻生成技術的不斷發展,「虛擬主播」逐漸走入人們視野。虛擬主播使用視頻生成技術和虛擬現實技術,實現2D/3D虛擬形象代替真人主播,並因其在虛擬客服、遠程會議、電影剪輯等現實應用場景中的重要作用而獲得了社會各界的廣泛關注。

目前,虛擬主播背後的音視頻生成技術能夠將文稿或者音頻自動轉化為播音視頻,實現了虛擬形象的多語種自動播報,並可以通過虛擬現實等技術展現出來,其中最廣為人所知的形象莫過於虛擬Youtuber。據不完全統計, 2018年末在YouTube網站上有超過8000名虛擬主播開展線上活動。

現實需求與技術挑戰

虛擬主播技術的關鍵在於如何控制虛擬形象的面部表情、嘴唇運動與播報聲音一致,且動作姿態符合場景,過程高效。從觀眾的直觀感受而言,一個好的虛擬主播,需要口型符合發音習慣,動作姿態符合場景,情緒表達符合說話語境。如果視頻或虛擬現實呈現的人表情僵硬、口型也無法與音頻對應,那麼觀眾就很難獲得舒適的觀看體驗。而從技術攻關角度而言,研究人員在直觀感受之外更加關注整體視頻或虛擬現實影像的清晰度以及銜接的連貫程度。這一直以來都是視頻生成以及虛擬現實任務中的挑戰和難點,亟需科研人員不斷探索更好的解決方案。

我國應用現狀及前景預測

我國在相關技術上的研究和應用進程啟動較早,2017年8月國內市場即出現了首批虛擬主播的身影,近兩年也呈現了較好的發展態勢。如今,在國內部分網站上活躍的虛擬主播粉絲數量已經達到幾十萬甚至百萬數量級。2018年11月, 搜狗與新華社聯合發布了以新華社新聞主播邱浩為原型的全球首個「AI合成主播」;2019年與2020年,升級的站立式虛擬主播「新小萌」、「新小薇」,連續在2019年和2020年全國兩會上崗擔播。

隨著技術的不斷發展,在未來「虛擬主播」不僅能在文化娛樂方向全面產能,在服務行業方面也能實現高效交互。除了目前應用較多的娛樂場景,虛擬主播的技術也可以在其他的場景得以應用,如電影配音編輯、抖音對口型視頻、全民K歌、虛擬客戶服務、虛擬形象視頻會議等。

隨著其應用場景的不斷豐富,一個優秀的虛擬主播需要展現出「多才多藝」:不僅是語音播報,還需要實現自然交互,以替代線上人工客服以及線下的智能終端產品,實現可視化數字人客服產品。同時,該技術未來也可與其他實現方式相結合,如虛擬現實、增強現實等,給用戶提供更沉浸的全方位體驗、更具有衝擊力的感官體驗、更加真實的人機互動體驗。

圖1 新華社「新小萌」

相關技術進展

虛擬主播的實現流程一般包括:視頻採集,數據處理,模型訓練,形象輸出,集成使用等。其具體環節涉及人臉關鍵點檢測、人臉特徵提取、人臉重建、深度學習、音視頻協同等技術,從而生成如同真實的播音員主持人一樣的虛擬形象。在該技術的萌芽階段,整個流程非常耗時耗力,並且只適用於特定單一任務,無法實現任意形象的調換。比如,如果希望得到一個歐巴馬形象的虛擬主播,那麼首先是需要採集大量歐巴馬演講數據,之後再進行數據清洗、數據處理、網絡訓練、性能調優等一系列流程,十分耗時耗力。

目前,該技術主要依賴三維模型或者生成對抗網絡實現。三維模型渲染方法一般需要較長時間模型渲染,且此類方法往往存在著生成視頻逼真程度低、嘴型不合理、數據豐富性差等問題,並不適宜大規模應用場景。基於生成對抗網絡的方法需要經過數據採集、網絡訓練、性能調優等流程。該過程不僅需要耗費大量計算與人力資源,而且還存在著學習樣本不足等問題,最終影響人工智慧合成視頻的真實程度。

近期,為了滿足更加廣泛和通用的需求,科研人員將虛擬主播技術更進一步地推向任意人物協同生成技術。這項技術旨在利用一段音頻與任意人物的形象生成該人物的說話視頻。該過程需要考慮從語音到嘴部運動的一到多映射問題,即同樣的說話內容對不同的人物會有不盡相同的嘴部運動,這取決於不同人的口腔結構差異、說話的習慣等。另外,低維度音頻與高維度視頻之間的數據差異也是該技術無法迴避的難點之一。

為解決上述問題,中科院自動化所智能感知與計算研究中心設計了一個非對稱式互信息估計器(圖2)。如果希望從音頻與一張靜態圖像就能夠生成自然、連貫、準確的虛擬主播視頻,那麼音頻在向視頻轉換的過程中的損耗應該儘可能的小、轉換的映射應該儘可能的準確,模型對不同人物說話方式也應該具有一定的想像力。為此,該方法提出了非對稱式的互信息估計模塊,以構建音視頻模態間的約束,最終使得合成視頻中人物的虛擬口型更加準確自然。

圖2 模型基本流程與結構

結語:

虛擬形象的優勢在於它比自然人狀態更加穩定,且無需休息,不會出現口誤。因此,虛擬主播可以把真人主播從較為簡單的(如固定文字的語音播報等)主持活動中解脫出來,使其能夠更加專注於對臨場應對能力要求較高或需要真人情感的複雜主持任務。由於目前虛擬主播技術缺乏語音情感化、內容理解語義化和個性化,其發展依然受到一定程度限制。相信隨著神經科學、心理學、計算機科學和人工智慧技術的發展和融合,未來虛擬主播一定可以為廣播電視事業和播音主持行業的發展注入新的活力,帶來新的變革。

作者:朱昊、宋林森、赫然

來源:中國科學院自動化研究所

關鍵字: