AAAI 2020 | 中科院自動化所：通過識別和翻譯交互打造更優的語音翻譯模型

作者 | 劉宇宸、張家俊

編輯 | Camel

本文對中科院宗成慶、張家俊團隊完成、被 AAAI-20 錄用的口頭報告論文《Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding》進行解讀。

論文：https://arxiv.org/abs/1912.07240

語音翻譯技術是指利用計算機實現從一種語言的語音到另外一種語言的語音或文本的自動翻譯過程。該技術可以廣泛應用於會議演講、商業會談、跨境客服、出國旅遊等各個領域和場景，具有重要的研究價值和廣闊的應用前景。

近年來，隨著人工智慧技術在語音、翻譯等相關領域的蓬勃發展，語音翻譯技術逐漸成為學術界和企業界競相研究的熱點。當前的語音翻譯系統通常由語音識別、機器翻譯和語音合成等多個模塊串聯組成，方法簡單，但面臨著噪聲容錯、斷句標點、時間延遲等一系列技術難題。

端到端的語音翻譯模型在理論上可以緩解級聯繫統的缺陷，它通過直接建立源語言語音到目標語言文本的映射關係，一步實現跨模態跨語言的翻譯，一旦技術成熟，理論上可以讓語音翻譯更准更快，極大地提升模型的性能。我們發現語音識別和語音翻譯兩個任務是相輔相成的。

如圖1所示，

圖1語音識別和語音翻譯交互示例

相比於直接將原始語音作為輸入，如果能夠動態獲取到識別出的文本信息，語音翻譯將變得更加容易；而翻譯出的結果也有助於同音詞識別的消歧，使識別結果更加準確。因此，我們希望設計一種交互式的模型，讓語音識別與語音翻譯兩個任務可以動態交互學習，實現知識的共享和傳遞。

方法

針對上述問題，中科院自動化所自然語言處理組博士生劉宇宸、張家俊研究員、宗成慶研究員和百度公司合作提出了一種基於交互式解碼的同步語音識別與語音翻譯模型。如圖2所示，

圖 2 基於交互式解碼的同步語音識別與語音翻譯

我們使用基於自注意力機制的Transformer模型作為主框架，語音識別任務和語音翻譯解碼任務共享同一個編碼器，在解碼器中加入一個交互注意力機制層，實現兩個任務的知識交互和傳遞。如圖3所示，

圖3 交互注意力機制層

交互注意力機制層包含一個自注意力模塊和一個跨任務注意力模塊。其中前者用於提取當前任務輸出端的特徵表示，後者用於提取另一個任務輸出端的特徵表示，兩者通過一個線性插值函數融合得到包含兩個任務信息的特徵表示。

在訓練階段，兩個任務同時優化；在解碼階段，兩個任務同步進行。如此，在預測下一個詞的過程中既可以用到當前任務的已生成的詞語，也可以利用到另一個任務上已生成的詞語。為了進一步提升語音翻譯的性能，我們採用了一種wait-k的方法，使得語音翻譯任務相比語音識別任務延遲k個詞語進行，以獲得更多更可靠的文本信息作為輔助。

實驗結果

目前語音翻譯數據十分匱乏且質量不高，為此我們構建了一個新的語音翻譯數據集。我們從TED網站上爬取了視頻和字幕文件，從中提取出音頻、英文字幕和多語言翻譯字幕，得到了語音、識別文本、翻譯文本的對齊語料。這裡使用了英德、英法、英中、英日四種語言，前兩種屬於較為相似的語言對，後兩種是不相似的語言對。

語音識別和語音翻譯的結果分別使用詞錯誤率(WER)和BLEU進行衡量。我們與多個強基線模型進行了對比，包括由語音識別和機器翻譯模型串聯組成的級聯繫統(Pipeline)，在語音識別語料上進行預訓練的端到端語音翻譯模型(E2E)，語音識別和語音翻譯共享編碼器的多任務模型(Multi-task)，以及一個兩階段模型(Two-stage)(第一階段解碼器用於獲取識別文本的中間表示，第二階段解碼器基於編碼器的表示和第一階段解碼器的中間表示生成對應的翻譯)。

表1不同模型在多個語言對上的實驗結果

表1給出了不同模型在英德、英法、英中、英日不同語言對上的識別和翻譯效果。可以看出在大多數情況下，基於交互式解碼的同步語言識別與語音翻譯模型的性能表現不管在語音識別任務還是語音翻譯任務上都要顯著高於預訓練的端到端模型、多任務模型和兩階段模型。

在相似的語言對上基於交互式解碼的模型可以超越級聯繫統，在不相似的語言對上也與級聯繫統可比。值得注意的是之前端到端的語音翻譯模型幾乎都很難達到級聯繫統的性能。

表2 wait-k對翻譯性能的影響

為了進一步提升語音翻譯的性能，我們讓語音翻譯任務相比語音識別任務延遲k個詞語進行，以獲得更多的文本信息作為輔助。表2給出了在開發集和測試集上不同的延遲詞語數對於模型性能的影響。可以看出，雖然延遲詞語會輕微影響識別任務的表現，但是語音翻譯任務的性能可以得到提升。

表3 模型參數、訓練速度和解碼速度

我們也對比了不同模型的參數量、訓練和解碼速率。表3給出了模型的參數量大小、每秒的訓練步數和每秒的解碼句子數。可以看出，我們的模型較好的平衡了參數量和解碼速率，相比級聯繫統，參數量獲得的大幅降低；訓練和解碼速率顯著低於兩階段模型；雖然解碼速率略低於預訓練端到端模型和多任務模型，但是我們的方法可以實現兩個任務的同步解碼。

相關細節可參考發表於人工智慧頂級學術會議AAAI2020的論文：

Yuchen Liu, Jiajun Zhang,Hao Xiong, Long Zhou, Zhongjun He, Hua Wu, Haifeng Wang, and Chengqing Zong.Synchronous Speech Recognition and Speech-to-Text Translation with InteractiveDecoding. AAAI-2020. (available on https://arxiv.org/abs/1912.07240)

Youtube上也有學者介紹我們的工作：https://www.youtube.com/watch?v=ZgbUBmVFcBc

AAAI 2020 論文集：

AAAI 2020 | 這 10 篇論文值得你了解（附PPT下載）