亞馬遜詳解Alexa「耳語模式」技術,AI雖好卻一直不賺錢?

前瞻網 發佈 2020-01-20T22:29:32+00:00

這一新功能是為了服務一個常見的家庭場景:當房間內有人睡著後,你會不自覺地放低聲音,而走進來的對話者感受到後也會同樣自覺降低音量。

亞馬遜一直在致力於讓其人工智慧虛擬語音助手變得更加智能。2018年年底,亞馬遜推出了Alexa的「耳語模式」(Whisper Mode)。

這一新功能是為了服務一個常見的家庭場景:當房間內有人睡著後,你會不自覺地放低聲音,而走進來的對話者感受到後也會同樣自覺降低音量。

耳語對話模式在睡前或夜間場景很有用,可以在與Alexa對話的同時,讓房間保持安靜。它也讓Alexa與人的互動變得更加自然。

亞馬遜在2019年11月將該功能擴展到所有地區,所有使用Alexa助手的智能家電現在都可以通過耳語模式回應用戶的低聲講話。

耳語模式的實現難度在於,其與正常說話的發音是不同的,耳語主要是清音,也就是說,它不涉及聲帶的振動。與普通語音相比,它在低頻帶中往往具有更少的能量。

據亞馬遜Alexa語音系統專家Zeynab Raeesy發布的一篇博文,他們研究了兩種不同神經網絡的使用,以區分正常說話和耳語的單詞。

神經網絡是一層數學函數,大體上模仿了人類大腦的神經元。

2020年1月,一篇發表在《IEEE信號處理快報》(IEEE Signal Processing Letters)雜誌2020年1月號上的學術論文和一篇附帶的博客文章中詳細介紹了關於「耳語模式」技術的研究。

亞馬遜文本到語音(text-to-speech)研究小組的應用科學家Marius Cotescu解釋說,主要的挑戰是如何在保持自然和說話人身份的同時,將正常的語言轉換成耳語。

他和他的同事們研究了幾種不同的轉換技術,包括基於聲音分析的手工優化的數位訊號處理(DSP),但他們最終選擇了兩種機器學習方法,以保證它們的魯棒性(它們很容易對不熟悉的說話者進行概括)和性能(它們的性能優於手工優化的DSP)。

數位訊號處理器(DSP)是一種專門的微處理器(或SIP塊),信號(可能來自音頻或視頻傳感器)不斷從模擬轉換到數字,經過數字處理,然後轉換回模擬形式。手工優化的彙編代碼往往比機器的更高效,而且許多與DSP計算相關的常用算法都是手寫的,以便充分利用架構優化。

研究團隊選擇的兩種機器學習方法——利用高斯混合模型(GMMs)和深度神經網絡(DNNs)——都涉及到訓練算法,將正常語音的聲學特徵映射到低聲語音的聲學特徵上。

GMMs嘗試為對應於輸入值的相關分布的每個輸出特性標識值範圍,而DNNs(簡單處理節點的密集算法)通過網絡試圖預測與特定輸入相關的輸出的過程來調整它們的內部設置。

圖:正常發聲語音的聲譜圖(左),以及將低語-語音轉換模型應用於此聲譜圖的結果。

(圖源:亞馬遜)

研究人員的系統將聲音特徵表示傳遞給語音編碼器,語音編碼器將其轉換成連續信號。

雖然實驗版本依賴於一個名為WORLD的開源語音編碼器,但部署到客戶端的低語模式利用了一個神經語音編碼器,進一步提高了耳語語音的質量。

該團隊使用了兩套數據來訓練他們的語音轉換系統:一套是他們自己製作的,使用了來自澳大利亞、加拿大、德國、印度和美國的五名專業配音演員;另一套是該領域的流行基準。

(兩個語料庫都包含了許多說話者的話語對——一個是完全音量的,一個是低聲的。)

為了評估他們的系統,他們將輸出與自然語音記錄和通過語音編碼器輸出的語音記錄進行了比較。

在第一組實驗中,研究小組對語音轉換系統進行訓練,讓它們識別來自不同說話者的數據,並對來自相同說話者的數據進行測試。

他們發現,雖然原始錄音聽起來最自然,但由模型合成的低語聽起來比「語音編碼」的人類語言更自然。

最先進的文本-語音轉換模型已經可以產生聽起來像人類的語音片段。這種技術在谷歌助手Google Assistant里也有出現,還有Alexa和亞馬遜Polly服務提供的新聞播報員語音,以及Alexa的名人語音功能。

用戶可以添加智能揚聲器或顯示器的名人語音,入門價格為 0.99 美元,在試用期過後價格將提高至 4.99 美元。

在智能語音市場,亞馬遜已經占據了近七成的市場份額,遠超最大的競爭對手谷歌公司。智能語音助手Alexa越來越多地出現在各種智能設備上,在2019年5月亞馬遜就宣布Alexa的接入設備量已經超過6萬台。

不過,儘管Alexa的普及度不錯,其利潤卻一直存疑。著名付費科技媒體The Information在去年年底發表文章指出,亞馬遜在2019年前10個月共獲得了140萬美元的Alexa技能收入,遠低於其550萬美元的目標。

而Alexa的內購應用也存在較大利潤缺口,亞馬遜預計Alexa技能內購買在2019年前10個月的總收入將超過1800萬美元,但實際收入僅為470萬美元左右。不少用戶都認為自己已經購買了Alexa設備,不應該再為功能和服務花錢。

對此,亞馬遜倒是很淡定,一位發言人通過電子郵件回應稱:「Alexa是亞馬遜的長期賭注,我們對它的未來一直持樂觀態度。我們才剛剛開始探索Alexa的潛力。」

關鍵字: