智能助手推動語音革命 - eet電子工程專輯

語音通信技術面臨又一次革命。

150多年前，電話的發明掀起了一場通信革命。如今，隨著各種新型智能設備利用人工智慧（AI）從語音中提取含義，人們能夠通過更加直觀的新途徑與身邊的設備進行交互，一場新的語音通信革命正在到來。本文探討了技術發展的現狀，並預測了哪些技術將最終使無處不在的語音助手成為我們日常生活的一部分。

「沃森先生，請過來……」

1876年亞歷山大·格拉漢姆·貝爾說出的這句舉世聞名的話，標誌著聲音首次成功地通過電話傳輸。從那以後，人們的工作、生活和娛樂方式發生了翻天覆地的變化，而這項改變世界的創新始終是這些變化的核心。現在，人們與世界交互的方式也取得了新的突破，語音通信仍是其中不可分割的組成部分。

在電話誕生後的第一個世紀裡，有線電話網絡遍及全球，將人們連接在一起。而過去50年間發生的電子革命，促進了可攜式無線語音和視頻通話的發展。最近10年，通信技術已經從人與人之間的免提通話，發展到人與機器對話。儘管只是初具雛形，但這種新型人機互動正在推動新一輪創新。

目前，計算機、智慧型手機和智能音箱等都採用內置語音助手，使用基於雲的深度學習系統來支持用戶提問和設定操作。人們日常使用的其他設備很快也將實現這樣的功能。根據市場研究機構Statistica的數據，預計到2021年，將有多達18億人在隨身攜帶的設備上，以及在家中甚或商業環境中其他類型的平台上，使用語音助手（圖1）。

然而，由於當今技術的局限，語音助手系統在邁向成功的道路上還面臨挑戰。人工智慧、專用處理器和更靈敏的麥克風等技術的進步，將提升語音助手的性能，促進市場普及。

富於人性的人機對話

人類對話極其豐富，同時又具有交互性，這是語音助手系統面臨的一大挑戰。有時候，人們的話音還未落地，朋友就能心領神會。從技術上講，人們相互交談時的響應時間僅為數十毫秒。在與朋友聊天時，偶爾略加思索再緩緩回答是很自然的事，但如果正常對話中的停頓每次長達數秒，或者經常需要複述問題或命令，日常交流將變得多麼令人難堪。

語音助手「對話」反應遲鈍與其底層技術的諸多方面有關。語音識別和響應所採用的算法要占用大量處理能力，因此，如今的智慧型手機和智能音箱系統是將錄音發送至雲端計算資源。為了儘可能縮短傳輸時延，系統通常傳輸低質量音頻文件，這會導致較高的錯誤率。而網際網路本身是一種變速媒介，所以傳輸速度是變化不定的。這兩個因素合起來，必然會影響依靠雲來完成語音識別重任的語音助手的質量。

儘管有這些缺點，這項技術仍然令消費者振奮不已。智能音箱系統是繼智慧型手機之後第一款提供語音助手的全新產品，其銷量增速之迅猛，是智慧型手機問世以來未曾見過的。voicebot.ai發布的數據表明，2018年智能音箱在美國的銷量增幅高達40%，算上新賣出的6640萬台，智能音箱數量已達到1.33億台，占美國成年人口數量的26%多一點（圖2）。

此外，語音助手一定會不斷提升性能，更好地模擬人類對話。除了縮短對話時延，算法也在不斷優化，人與設備的交互會更人性化。這樣的改善在很大程度上是源於讓處理功能更靠近用戶。

將人機對話移到邊緣設備

隨著實現雲端處理語音助手的技術日新月異，這些設備將變得更加個性化。當前的語音助手是向雲發送信息並接收從雲傳回的信息。實現這一功能的人工智慧技術未來將應用於邊緣設備，從而改善系統的私密性、功耗和響應速度。簡而言之，邊緣計算可以將人工智慧從雲端轉移到人們的家中、工作場所或身邊的其他設備中，使語音助手更加高效。英飛凌不久前展示的世界上功耗最低的關鍵詞識別邊緣解決方案，使我們朝著這個目標邁進了一步。

醫療和個人健康監測，將是更智能的語音助手大有可為的領域。譬如，高靈敏度麥克風可以監測睡眠時的呼吸聲，預測睡眠呼吸暫停等睡眠障礙的發生。將這類個人健康信息傳輸到雲端進行處理，可能令許多人感到不安。邊緣處理則在本地捕獲音頻、進行計算並存儲分析數據，完成對健康信息的監測和分析。這樣一來，用戶就能管理數據共享的方式和時間，能夠確保更高私密性的語音助手，使人們對監測心臟和呼吸健康、睡眠狀態以及整體健康狀況感到更加安心。

當前人工智慧發展迅速，其動力來自深度學習研究和構建專業深度學習系統的新型硬體。該領域的先驅、英飛凌合作夥伴Syntiant正研製可以為邊緣設備帶來深度學習能力的新型晶片。短短几年內，語音助手技術支持的人機互動將成為數十億人日常生活中司空見慣的事。針對智能語音助手而開發的技術所具備的用電特性，使得採用小型電池供電的智能音頻識別也能在許多其他應用中大展拳腳。想想你聽到的聲音如何影響你與世界的互動，就能預見到這項技術還在哪些領域發揮價值。除了日常生活中的應用，語音助手技術也將成為物聯網（IoT）和工業4.0智能機器傳感器系統的組成部分。

自動駕駛車輛還將利用音頻輸入和其他傳感器來檢測並響應周圍環境。諸如自行車、火車、其他交通工具和大喊大叫的孩子等發出的聲音，都是人工智慧網絡的音頻輸入，使汽車能夠「看到」拐角處的目標。在工廠中，智能控制網絡可以根據機器運行發出的聲音進行診斷，排查故障，防患於未然。智慧城市系統會「聽到」諸如玻璃破碎或交通事故等異常事件，並向有關部門發出警報。未來的機器人將把音頻系統納入傳感器網絡，以支持智能操作及交互。實際上，潛在應用數不勝數。

MEMS麥克風超越人類聽覺

人類的聽覺和認知處理是極其豐富的感覺系統的一部分。然而，有朝一日，基於人工智慧的語音助手將在某些方面超越人類的能力。語音助手目前利用微型麥克風陣列和智能晶片來準確檢測並理解傳入的聲音。其中一項關鍵技術是遠場識別，這項技術通過高靈敏度MEMS麥克風和語音處理器晶片，使用高級音頻處理算法來聽到可能是房間另一頭傳出的竊竊私語。其他算法則有助於麥克風陣列從一個房間內的多個聲源（包括其他人、電視和收音機）中，辨別出發布命令的具體聲音。英飛凌研發出一個演示系統，將麥克風和語音處理器與微型雷達晶片合為一體，進一步改善存在檢測和焦點（圖3）。

Emile Berliner發明的麥克風讓電話變得實用，如果他今天還活著，一定會對袖珍如斯的麥克風感到驚奇，但他仍然看得出來聲音捕捉和回放的工作原理。當前市場上MEMS麥克風的工作原理與Berliner研發的第一款實用麥克風完全相同：由一片薄膜檢測到聲波產生的空氣壓力並將其轉換為電信號。從低聲耳語的0dB SPL（聲壓級），到搖滾音樂會現場的120dB SPL，MEMS麥克風能夠檢測到的可聞聲範圍很大。dB刻度是對數形式，這意味著120dB SPL的能量比0dB SPL聲音高12個數量級（1萬億倍）。

在許多應用中，最尖端的MEMS麥克風的靈敏度超過了人耳通常能聽到的聲音範圍。相比同樣尺寸的類似麥克風，英飛凌提供的最新一代器件具備更加優異的性能，可使信噪比（SNR）改善達10dB（圖4）。它可以在新一代系統中為音頻處理提供高質量音頻信號，從而提升總體靈敏度並降低誤差率。

智能的發展無止境

如今使用的音頻處理技術通常採用諸如回聲消除和有源濾波等概念來抑制有害噪音，並隔離目標音頻信號以進行語音識別。事實上，這種類型的音頻識別是將噪音信息視為背景音。新一代神經網絡人工智慧處理器則將採取不同的方法，學習區分噪音與有用信號之間的差異。目前英飛凌正與合作夥伴共同開發能夠實現這一任務的麥克風和硬體組合。合作的另一個目的是提供一些必要的開發工具，用來為工業、商業和消費類產品設計人工智慧音頻檢測和語音識別系統。

不久的將來，利用語音助手技術，人們能夠與所使用的機器進行有意義的對話，哪怕並未連接到雲，人機對話亦不受影響。用於監測人們健康和安全的傳感器系統也將採用這種智能音頻技術。這是一場持續的語音通信革命，人們將以新的方式與機器交互，同時機器也能夠檢測所處的環境並作出響應。