揭秘阿里達摩院！P10 大佬教你如何構建 AIoT 智能語音交互技術

【CSDN 編者按】已經換個江湖的馬老師說過，達摩院活得要比阿里巴巴長。關注達摩院的開發者朋友應該有所了解，達摩院是面向未來探索未知的研究院，研究領域主要分為 5 個方面，本文作者 —— 阿里巴巴達摩院研究員付強博士就來自其中非常重要的機器智能方面的語音實驗室，他有著 20 多年的語音信號處理研究和應用開發經驗。

在「CSDN 在線峰會 —— 阿里雲核心技術競爭力」上，付強博士深入分享了面向 AIoT 的智能語音交互技術及實踐，本文為演講精華整理。

複製連結或點擊「閱讀原文」可免費觀看付強博士分享視頻：

https://edu.csdn.net/course/play/28249/388356

演講 | 付強，阿里巴巴達摩院研究員

責編 | 唐小引

頭圖 | CSDN 下載自東方 IC

出品 | CSDN（ID：CSDNnews）

走近阿里達摩院

阿里巴巴達摩院成立於 2017 年，致力於探索科技未知，以人類願景為驅動力的立足於基礎科學、創新性技術和應用技術。達摩院秉承著「Research for solving problems with profit and fun」的宗旨，意在「以科技，創新世界」。

達摩院的研究領域

阿里達摩院分布於中國、美國、以色列以及新加坡等，主要包括了 5 大研究領域，即機器智能、數據計算、機器人、金融科技以及 X 實驗室。其中語音實驗室屬於機器智能方向。

機器智能技術實驗室的研究方向

機器智能技術實驗室的研究方向包括了語音、語義、視覺以及運籌優化等，面向的領域包括了政府、交通、農業、傳媒、工業、新零售等場景。

語音實驗室在整個達摩院的學術領域還是具有一定地位的，2019 年力壓海外巨頭突破人機對話難題，獲得了 DSTC7 國際大賽雙料冠軍。也是在 2019 年，阿里巴巴語音 AI 入選了「2019 年的全球十大突破性技術」。

達摩院語音方案的技術優勢，可以分為以下 6 點來介紹：

過硬的技術能力：達摩院擁有全棧的技術鏈條以及世界領先的技術能力。
基礎能力免費：基礎語音能力免費提供等政策。
更靈活的解決方案：分層服務的差異化策略和基於不同廠商不同能力的定製輸出。
阿里生態和服務：阿里巴巴集團提供的龐大生態。
豐富的量產經驗：軟硬體設計、多設備量產經驗。
服務客戶的能力：迅速接入、全鏈路定製以及持續疊代和 BI 等能力。

NUI 端雲一體平台架構

語音交互主要包括了語音分離/增強、識別、理解、合成、對話等。達摩院有一套稱之為 NUI（Natural User Interface）的端雲一體化平台架構，基於阿里的生態提供內容和服務，支持了淘系、支付寶等應用。NUI 通過自然交互的方式為人提供信息、操控設備或者完成其他任務的產品形態。

面向智能硬體的端雲一體語音技術能力

細化到語音相關技術能力，可以分為基本功能和高階功能。基本能力包括 ASR：近場+遠場語音識別、TTS：語音合成、WWV：本地遠場喚醒、信號處理：抗噪+AEC 回聲抵消、遠場 2/4 MIC 模組方案；高階技術則屬於達摩院自主研發的獨有專利技術，包括了方言、快捷命令詞、喚醒詞定製、基於聲紋的個性化推薦、基於盲分離的語音增強、10 多個領域的對話理解功能以及即時熱詞功能等。

同時，還對阿里的生態資源進行整合調用，包括了阿里系的本地、生活、出行、旅遊、智能、家居、購物、娛樂等方向。

遠場語音交互技術

AIoT 時代，語音交互無處不在。從網際網路到移動網際網路演進的過程，均伴隨著硬體終端的革新，而每一次革新其實都伴隨著人際交互方式的顛覆。從最早的網際網路時代，電腦為辦公效率帶來了一次革新；在移動網際網路時代，重點的端是手機，以使用便捷為中心；在物聯網時代，端是萬物，這個時候以溝通自然為中心，因此自然語音交互會起到非常重要的作用。

智能設備類語音交互技術鏈路長

語音交互的技術鏈條非常長，從硬體側的電路設計、聲學結構到音頻鏈路的排查、連接，再到雲上語音識別服務的調優、對話理解領域模型，再到 TTS 合成，整個鏈條非常的長。

因此在這麼多年的語音交互技術的發展過程中，具有全棧技術鏈條能力的服務商角色越發重要。接下來介紹阿里達摩院在智能設備類語音交互技術鏈條中的技術積累。

基於盲源分離的遠場前端處理統一框架

如前面所提到的，與客戶設備端緊密相連的技術就是信號處理。針對於終端側面向各種各樣的聲學噪聲環境，達摩院擁有獨有的基於盲源分離的遠場信號處理統一框架。

所謂盲源分離，就是基於處於「盲源」的假設，不對信號或者傳播路徑做過多的先驗要求。它只有一個獨立性假設，就是不同源的信號相互獨立，通過最大化輸出之間的獨立性實現分離。

此外，還實現了統一框架，將回聲、混響、點聲源干擾看做獨立信號，並使用盲源分離技術來並來統一來處理，這裡面包含的技術有雙講模型、集成學習以及信號處理和喚醒聯合優化，這些都是阿里在多年實踐中總結沉澱下來的業界領先技術。

前端信號處理技術方案

下圖展示了達摩院提供的幾種前端信號處理技術方案，包括 2 個麥克風、4 個麥克風以及 8 個麥克風的，分別對應了不同的場景。前兩個方案更多適用於電視、車載等場景；最後一個則適用於公共空間、地鐵售票機、商業大屏等場景。

喚醒技術

在喚醒技術方面，達摩院語音實驗室可以提供芯·端·雲一體的喚醒體驗，具有極低的誤喚醒率；嵌入到晶片的低功耗喚醒能力；本地設備 AP 上的喚醒模塊等，並且提供了端雲一體的喚醒機制。

免喚醒技術

達摩院的免喚醒技術提供了 Oneshot 語音識別、快捷喚醒詞技術、動態喚醒詞技術以及連續對話等。

語音識別/語音識別自定製能力

語音識別方面，達摩院擁有領先的聲學模型技術，比如 DFSMN 受到了全世界和開源社區的好評，包括谷歌和微軟等也在跟進。除此之外，在語言模型技術方面，達摩院還有單遍大規模語言模型解碼技術，並且對於領域語言模型有不同的定製，可以解決不同行業和領域的識別準確率問題，能夠做到分鐘級生效。

語音合成

近兩年，達摩院在語音合成技術方面取得了長足的進步，自然度在逐步提升，同時具有超低成本的定製方案，僅需要 2 小時的語音數據就能夠提供 TTS 定製方案。

聲紋技術

阿里遠場的聲紋技術是目前工業界率先實施的遠場聲紋技術，比如天貓精靈音箱的身份認定等。與此同時，達摩院還提供隱式的聲紋畫像技術。

自然語言理解

達摩院在自然語言理解這部分在過去兩年的時間裡，支持了常見電視領域的 NLU 理解能力，屬於基於規則和統計的混合系統，並且支持客戶數據的聯合深度優化。

多模態融合技術

所謂多模態就是音頻和視頻的融合，過往音視頻融合的過往經驗都是停留在比較淺層的疊加，但是達摩院的多模態融合技術除了能夠提供人臉識別、人臉檢測、屬性之外，能夠把基於視頻的屬性特徵利用於聲學層面的語音增強，這樣才能達到公共空間高噪聲場景下的語音交互。

模組方案介紹

聲學硬體模組化

聲學模組是對語音交互端側的核心鏈路，包括音視頻軟硬體鏈路、端側引擎和上雲協議的封裝。聲學硬體模組化能夠實現產品方案平台化，與硬體相關的技術和經驗被沉澱，提升與客戶對接效率，降低對人力和時間成本的要求；在軟硬體層面均可做二次開發。

面向 AIoT 的語音交互端雲一體引擎（NUI-Things）

NUI-Things 引擎是面向低資源的語音引擎，在底層有 AliOS/YoC 這樣面向多端的物聯網作業系統進行支撐，語音部分包括了端點檢測、回聲消除、語音增強等前端處理模塊，還包括了語音喚醒、本地語音識別以及本地語義理解。通過 NLS 的語音交互服務協議上雲，雲端則有阿里語音 AI 雲平台、IoT 飛燕平台以及相應的內容資源池。

拾音模組-適配智能電視、投影儀等

Linux 語音模組

語音模組將語音引擎內置到硬體模塊之中；多模態的語音模組，將音視頻技術沉澱到模組之中。下圖中的 Linux 語音模式早在 2018 年就已經成熟了，目前已經應用於消費級的語音面板和售賣機等場景，支持 2 至 8 麥克風的高性能前端處理算法，360 度拾音，端雲一體高性能語音喚醒，並且支持「主控模式」和「下位機」模式等。

RTOS 語音模組

在 2019 年的時候，達摩院語音實驗室重點發展了 RTOS 的語音模組。面向廣泛的家電、電工照明、故事機等場景，符合業界的期待，即在低成本和低功耗的條件下達到高體驗。RTOS 語音模組基於多核異構架構，能夠支持高性能 2 到 4 個麥克風的前端處理算法，360 度拾音，端雲一體語音喚醒，支持離線語音識別和快速響應，並且支持低功耗待機語音喚醒，以及「主控模式」和「下位機」模式。

多模態交互模組

多模態交互模組更多地應用於智能零售櫃、信息查詢大屏、服務機器人、多模態娛樂等場景，其具有 NPU 多核異構架構，支持 2 至 8 麥克風，強噪聲聲學環境拾音，具有對於物體、人體、行為、身份等檢測識別能力。

達摩院在提供模組級或者晶片級方案的同時，還提供了聲學硬體研發、質量控制服務體系。從模組期間選型到整機性能，從研發性能到產線質量控制，從國際標準測試環境到自研測試軟硬體系統的全方位閉環，除此之外，還提供平台化的聲學和 PCB 設計服務。

演講嘉賓簡介：付強博士，阿里巴巴達摩院機器智能技術實驗室研究員。曾是中國科學院聲學所的研究員，具有 20 餘年語音信號處理研究和應用開發經歷，在包括 IEEE Trans.等國內外權威學術刊物及會議上發表論文近百篇，發明專利 10 餘項，主持制訂 1 項語音國家標準。主持和參與包括國家自然科技基金國家和省部委在內的幾十項科研課題，其中多項成果在相關部委列裝。在智能車載、電視、音箱遠場語音和多模交互技術和方案領域均做出過業界開創性的工作。付強博士帶領的團隊在國際語音分離和識別挑戰賽 CHiME3、4 中均取得過前端信號處理環節的較好成績。2014 年獲中國科學院傑出科技成就獎，2016 年獲中國語音產業聯盟先進個人。

系列閱讀：

黑客「借刀殺人」，阿里 14 年經驗安全大佬教你如何防禦 DDoS 攻擊！

一群阿里人如何用 10 年自研洛神雲網絡平台？技術架構演進全揭秘！

☞朱廣權李佳琦直播掉線，1.2 億人在線等

☞「抗疫」新戰術：世衛組織聯合IBM、甲骨文、微軟構建了一個開放數據的區塊鏈項目！

☞快速搭建對話機器人，就用這一招！

☞據說，這是當代極客們的【技術風向標】...

☞iPhone 12系列旗艦有望分批發布；美威脅吊銷中國電信在美經營許可，外交部發言人回應；VS Code新版發布| 極客頭條

今日福利：評論區留言入選，可獲得價值299元的「2020 AI開發者萬人大會」在線直播門票一張。快來動動手指，寫下你想說的話吧。

果斷「在看」一下！