Facebook發布低延遲在線語音識別框架,實現語音快速識別

圖靈聯邦 發佈 2020-01-14T14:53:58+00:00

1月13日,Facebook發布低延遲語音識別框架Wav2letter@anywhere,可在雲或嵌入式邊緣環境中實現在線自動語音識別的快速性能。

1月13日,Facebook 發布低延遲語音識別框架Wav2letter@anywhere,可在雲或嵌入式邊緣環境中實現在線自動語音識別的快速性能。


將輸入的實時音頻轉為語音的過程稱為在線語音識別。大多數自動語音識別(ASR)研究都集中在提高準確性上,而沒有實時的時間限制。


但是,對於諸如實時視頻字幕或音頻轉錄等,重要的是減少等待時間。在這些情況下,需要具有有限時間延遲的在線語音識別,以提供良好的用戶體驗。


為了解決這一需求,研究者開發了Wav2letter @ anywhere並將其開源,這是一個可用於執行在線語音識別的推理框架。Wav2letter @anywhere建立在Wav2letter和Wav2letter ++的基礎之上。


2108年,Facebook AI Research(FAIR)曾提出了一種基於卷積神經網絡(CNNs)的新語音識別技術,並開源了高性能語音識別工具包Wav2letter ++。

對於Wav2letter@anywhere,研究者使用了一個完全卷積的聲學模型,這使得某些推斷模型的吞吐量提高了3倍,並且在LibriSpeech上實現了最先進的性能。


要使系統在生產環境中運行(在伺服器cpu或低功耗環境中的設備上),需要確保系統的計算效率。


將一個ASR系統從研究環境轉變為一個低延遲的、計算效率高的系統,並且具有很高的準確性,這涉及到對實現和算法的重要更改。這篇文章解釋了研究者如何創建Wav2letter@anywhere。

Wav2letter@anywhere推理平台

作為Wav2letter++存儲庫的一部分,Wav2letter@anywhere可以用來執行在線語音識別。建立該框架的目的如下:

Streaming API推理應該是有效的,但要足夠模塊化以處理各種類型的語音識別模型。

該框架應該支持並發音頻流,這對於在生產規模上執行任務時的高吞吐量是非常重要的。

API應該足夠靈活,可以方便地在不同的平台(個人電腦、iOS、Android)上使用。modular Streaming API允許該框架支持各種模型,包括RNNs和卷積神經網絡(速度更快)。


wav2letter@anywhere是用c++編寫的,它是獨立的,並且儘可能高效,並且可以嵌入到任何地方。


研究者使用了高效的後端,如FBGEMM,以及針對iOS和Android的特定例程。從一開始,它就考慮到了流技術的開發(不同於某些依賴於通用推理管道的替代方案),這使研究者能夠實現有效的內存分配設計。

在最新的延遲控制ASR的工作中,使用了延遲控制雙向LSTM(LC-BLSTM)RNN,RNN傳感器(RNN-T)或這些方法的變體。


與先前的工作不同,研究者提出了一種具有連接主義時間分類(CTC)準則的全卷積聲學模型。研究者的論文表明,這種系統的部署效率更高,同時還實現了更低的單詞錯誤率(WER)和延遲。

低延遲聲學建模

Wav2letter@anywhere的一個重要組成部分是時間-深度可分(TDS)卷積,它可以在保持精度的同時顯著減少模型大小和計算錯誤。


研究者對所有的卷積使用非對稱填充,在輸入開始處添加更多的填充。這減少了聲學模型看到的未來環境,從而減少了延遲。


通過在同一基準上,將該系統與兩個強大的基準(LC BLSTM +無晶格MMI混合系統和LC BLSTM + RNN-T端到端系統)進行比較發現,該系統能夠實現更好的WER性能,吞吐量和延遲。最值得注意的是,即使在FP16中運行推理,而在INT8中運行基線的推理,模型也要快3倍。



在最近的一項工作中,研究者在監督和半監督環境下將Wav2letter ++與現代聲學和語言模型結合在一起,重新審視了標準的半監督技術,即使用在1,000小時的標籤數據上訓練的聲學模型,在60,000小時的未標籤音頻上生成偽標籤。


然後,研究者使用了61,000小時的偽標籤數據訓練了一個新的聲學模型,從而在LibriSpeech上建立了新的技術水平。與在監督環境下訓練的最新模型相比,有超過16%的改進。

研究者將發布與本文相關的模型,以及適用於Wav2letter @ anywhere的延遲受限模型以進行快速實時推斷。

自一年前開源Wav2letter++以來,研究者已經做了大量的改進,包括增強解碼器性能(seq2seq解碼速度提高了10倍);為特性、解碼器、標準等添加python綁定和更好的文檔。

Wav2letter@anywhere使在線語音識別成為可能,並顯著降低了音頻和轉錄之間的延遲,這是一個新的飛躍。


原文連結:

https://venturebeat.com/2020/01/13/facebook-releases-low-latency-online-speech-recognition-framework/


視頻點擊預測大賽火熱進行中


3萬元獎金、證書、實習、就業機會已準備就位,快叫上小夥伴一起來組隊參賽吧。

賽題:希望參賽者通過已有的用戶信息、視頻信息以及他們是否觀看過某些視頻,來預測我們推薦給這些用戶的視頻對方是否會觀看。

個人、高等院校、科研單位、網際網路企業、創業團隊、學生社團等人員均可報名。

報名及組隊時間:即日起至2020年2月1日


報名入口:


http://www.turingtopia.com/competitionnew/detail/e4880352b6ef4f9f8f28e8f98498dbc4/sketch

關鍵字: