百度 ERNIE 在 GLUE 大賽中擊敗了微軟和谷歌

受中英文差異的啟發，ERNIE 的成功表明人工智慧研究可以集百家之長。

作者 | Karen Hao

譯者 | 彎月，責編 | Elle

以下為譯文：

本月初，中國的一家科技巨頭在一場持續的人工智慧競爭中悄悄擊敗了微軟和谷歌。該公司就是百度，其在中國的地位就相當於谷歌在北美。而這場比賽就是通用語言理解評估測試（General Language Understanding Evaluation，即GLUE）。

GLUE 是評價AI系統理解人類語言方面廣泛認可的標準。該比賽由9個不同的測試組成，其中包括找出句子中的人名和組織，以及理解「it」等代詞指代的是句子中的哪個。因此，如果在GLUE比賽中得分很高，則意味著該語言模型可以處理各種閱讀理解任務。比賽滿分為100分，平均得分約為87分。而如今百度的 ERNIE 成為了第一個超過90分的模型。

GLUE 的公開排行榜在持續不斷地變化，也許很快就會出現另一支隊伍超越百度。然而，百度的成功表明 AI 研究能夠集百家之長。在構建 ERNIE 之際，百度的研究人員不得不研發一種專門的技術來處理中文。ERNIE（Enhanced Representation through kNowledge IntEgration）代表「知識增強的語義表示模型」。然而，很湊巧的是，這項技術也可以讓模型更好地理解英語。

ERNIE的前身

說起 ERNIE，它的靈感來源於 Google BERT。

BERT 問世於2018年末，在這之前的自然語言模型都不是很理想。這些模型擅長預測句子中的下一個單詞（因此它們非常適合自動補齊等應用程式），但是它們無法理解整段話的含義，哪怕是很小一段。這是因為它們不理解句子的含義，例如它們無法理解「it」一詞指代的是什麼。

但是 BERT 改變了這一點。之前的模型在預測和理解單詞的含義時，只能考慮單詞之前或之後的上下文，卻無法同時兼顧兩者。換句話說，它們是單向的。

相比之下，BERT 能夠同時考慮單詞前後的上下文，所以是雙向的。它使用一種名叫「覆蓋」（masking）的技術來完成雙向的操作。BERT 會在一段給定的文本段落中，隨機覆蓋15%的單詞，然後嘗試根據剩餘的單詞進行預測。由於它擁有雙倍的線索，因此可以做出更準確的預測。舉個例子，「他去__購買牛奶」，這個句子開頭和結尾部分都能給出有關缺失詞語的提示：__是一個你可以去的地方，也是一個可以買到牛奶的地方。

「覆蓋」技術的出現是自然語言處理工作得到極大提升背後的核心創新之一，而且也是諸如 OpenAI GPT-2 等模型能夠撰寫出極具說服力的散文而又不偏離核心論題的原因之一。

從英文到中文再回到英文

當初百度的研究人員剛開始開發自家的語言模型時，他們希望以「覆蓋」技術為基礎構建模型。但是他們意識到他們需要對這項技術進行調整，才能處理中文。

在英語中，單詞是語義單元，即便完全脫離上下文含義仍然不會丟失。但是，中文裡的單個字並不能表達完整的含義。儘管某些字確實有含義，例如火、水或木等，但是大多數字只有與其他字組詞之後才具有完整的含義。組詞不同意思也不同，舉個例子，「靈」這個字，在「機靈」中表示聰明，但在「神靈」中就指神仙了。而專有名詞中的字一旦拆開來後，就完全不是一個意思了，比如「波士頓」，「美國」（其含義並不是「美麗的國家」）。

因此，百度的研究人員在訓練 ERNIE 的時候，研發了新一版的「覆蓋」技術，它可以覆蓋詞而不僅僅是一個字。他們還訓練 ERNIE 區分有意義的詞和隨機的詞，教會它相應地覆蓋正確的詞。結果，ERNIE 對於如何解讀中文信息有了更深入的了解，而且在預測缺失的字和詞方面也更加準確。事實證明，這對於翻譯和檢索文本文檔的信息應用程式非常有幫助。

研究人員很快發現，實際上這種方法對於英文理解也很有好處。儘管沒有中文那麼頻繁，但英語也具有類似的現象，即一組單詞表示的意思與每個單詞單獨的含義不同。比如「Harry Potter」（哈利·波特）之類的專有名詞，以及短語「chip off the old block」（孩子酷似雙親，字面意思為「切去舊塊」），你不能通過拆分解析這些短語的含義。

對於如下這句話：

Harry Potter is a series of fantasy novels written by J. K. Rowling.（哈利·波特是J·K·羅琳所著的一系列魔幻小說。）

BERT 的覆蓋方式為：

__ Potter is a series __ fantasy novels __ by J. __ Rowling.

但是 ERNIE 的覆蓋方式為：

Harry Potter is __ __ __ fantasy novels by __ __ __.

可見，ERNIE 能夠根據含義來學習更可靠的預測，而不僅僅是統計單詞的使用模式。

各種想法

最新版的 ERNIE 還使用了其他幾種訓練技巧。它考慮了句子的順序及句子之間的距離，例如了解段落合理的進展。但是，最重要的是，它通過一種名叫連續訓練的方法，在新數據集上針對新任務開展訓練，同時還不會忘記以前學習的內容。這樣一來，隨著時間的推移，這個模型就可以越來越好地執行越來越多的任務，而人類的干預也會降到最低。

百度積極地使用 ERNIE 來為用戶提供更多有效的搜索結果，刪除新聞源中的重複報導，並提高其AI助手小度準確響應請求的能力。百度還在一篇論文中描述了 ERNIE 的最新架構，該論文將在明年人工智慧發展協會大會上發表。百度的研究人員曾經借鑑了 Google BERT，所以如今他們希望其他團隊也能從 ERNIE 中受益。

百度研究的首席架構師Hao Tian說：「在剛著手這項工作的時候，我們首先考慮了中文的某些特徵，但是很快我們就發現它的應用不僅限於中文。」

原文：https://www.technologyreview.com/s/614996/ai-baidu-ernie-google-bert-natural-language-glue/

本文為 CSDN 翻譯，轉載請註明來源出處。