百度NLP十年:基於知識增強的語言技術,實現跨模態一體化理解

ai科技評論 發佈 2020-08-26T09:34:20+00:00

ACL首任華人主席、百度CTO王海峰認為,過去的十年是NLP技術進步和產業發展交織並進的十年。在8月25日舉行的百度大腦語言與知識技術峰會上,王海峰表示,「在百度語言與知識技術的布局和發展中,我們始終在注意把握兩個趨勢,即技術發展趨勢和產業發展趨勢,并力爭引領趨勢。」

作者 | 陳大鑫

編輯 | 青 暮

自然語言理解(NLP)素有「人工智慧皇冠上的明珠」盛譽,這也意味著語言與知識等認知層面的技術突破將進一步促進AI深入發展。

那麼,十年足以使得NLP領域產生什麼樣的變化?

ACL首任華人主席、百度CTO王海峰認為,過去的十年是NLP技術進步和產業發展交織並進的十年。在8月25日舉行的百度大腦語言與知識技術峰會上,王海峰表示,「在百度語言與知識技術的布局和發展中,我們始終在注意把握兩個趨勢,即技術發展趨勢和產業發展趨勢,并力爭引領趨勢。」

從王海峰在演講中提及的《機器翻譯淺說》(1964年,中國NLP領域的先行者劉湧泉、劉倬、高祖舜合作出版)一書算起,中國的自然語言處理研究已經經歷了半個多世紀的發展和演變。從最初在機器翻譯領域摸石頭過河、到80年代初計算語言學與自然語言處理的萌芽、90年代初中文分詞方法和理論的建立以及21世紀初的與國際研究接軌,中國的NLP研究在近十年開始加速,也進入了一個前所未有的繁榮時代。

正如大衛·米切爾在他的第三部小說《雲圖》中所說:歷史是一副牌,我們的祖輩那代拿到的是3、4、5,而我們這一代人拿到的是10、J和Q。雖然今天的NLP研究者們仍然在吐槽「NLP太難了」,但毫無疑問,站在前人的肩膀上,我們離摘下皇冠上的明珠又近了一步。

王海峰還為我們全面分享了百度近十年來在語言與知識技術上積累的成果。十年前,百度NLP事業部成立,作為國內最早設立NLP研發部門、最早參與NLP學術頂會的企業,百度NLP事業部在技術和產品兩條線上的創新和落地應用,正是這十年NLP領域發展的一個縮影。百度在這個時點召開「百度大腦語言與知識技術峰會」,正是在表達這樣一個信息:

NLP已經進入了技術和產業結合的快車道。

1十年一劍,網友直呼內行

從2010年的百度搜索業務上的應用起步,經過了十餘年的發展,百度已經構建了完整的語言與知識技術布局,包括知識圖譜、語言理解與生成技術,以及上述技術所支持的包含智能搜索、機器翻譯、對話系統、智能寫作、深度問答等在內的的應用系統。從展示中也可以看到,在百度知心輸入法、圖片搜索、小度機器人、度秘、智能客服、數字員工等明星產品背後,百度語言與知識技術也經歷了與時俱進的演變:

  • 首先在研究方法上,百度語言與知識的研究方法從最早的基於規則的學習到機器學習,再到基於神經網絡的深度學習最後到現在基於知識增強的深度學習;

  • 第二是研究對象,百度語言與知識的研究對象從最開始的詞、短語、句子、篇章發展到了現在的包含語音、視覺以及語言的跨模態一體化。

  • 第三是研究方向,百度語言與知識的研究方向到目前為止已經橫跨了語言分析、語言生成、知識圖譜、機器翻譯以及深度語義理解等方方面面。

這一口氣亮出如此密集的語言與知識技術,在展示了百度NLP十年完整的技術積累同時,也讓觀看直播的網友驚呼:有內味了。

2 全球最大知識圖譜

在整個百度語言與知識技術體系中,知識圖譜處於底層位置。知識圖譜包含概念圖譜、實體圖譜等不同類型的圖譜,以及知識挖掘、知識歸一融合、知識推理計算等一整套知識相關的技術和平台。正如王海峰所說,知識圖譜是機器認知世界的基礎,機器認知能力的突破,越來越依賴於對知識和大規模知識圖譜的應用。

因此,百度打造了世界上最大的多源異構知識圖譜,擁有超過50億實體和5500億事實,並在不斷演進和更新,已應用於各行各業,每日調用次數超過400億次。

不僅如此,針對不同應用場景和知識形態,百度還建立起多樣化的知識圖譜類型,既有基礎的實體知識圖譜,也有行業知識圖譜、事件圖譜、關注點圖譜等,以及融合語音、視頻、圖片的多模態知識圖譜。這背後,是百度創建的包括無標籤大數據開放知識挖掘技術、知識體系自擴展的知識圖譜自學習技術、以及融合多源異構數據的知識補全與整合技術在內的一整套知識圖譜構建方法。

3 刷新榜單的知識增強框架

除了知識圖譜之外,語言理解能力還需不斷增強。2019年3月,百度提出知識增強的語義理解框架ERNIE,它在深度學習的基礎上融入知識,同時具備持續學習能力,曾一舉登頂全球權威數據集GLUE榜單,首次突破90分大關,刷新榜單歷史。基於知識圖譜和語義表示,突破了閱讀理解、對話理解以及跨模態深度語義理解等技術。而通過融入知識、語義理解、以及增強小樣本學習能力,機器的閱讀理解和對話能力也在迅速增強。

和人類認知世界的形式類似,機器認知世界時,也不僅是運用自然語言,而往往是對語音、視覺、語音等多模態信息的綜合應用。為此,百度研製了知識增強的跨模態深度語義理解方法,通過知識關聯跨模態信息,運用語言描述不同模態信息的語義,進而讓機器實現從「看清」到「看懂」、從「聽清」到「聽懂」,即圖像和語言、語音和語言的一體化理解。而融合場景圖知識的跨模態語義理解預訓練技術,則大幅提升了跨模態推理能力。

在機器理解自然語言之外,要與人進行交互,語言生成的任務也必不可少。基於預訓練技術的成功經驗,百度提出基於多流機制的語言生成預訓練技術,兼顧詞、短語等不同粒度的語義信息,顯著提升生成效果。百度也探索了多文檔摘要生成,通過圖結構語義表示引入篇章知識,在單文檔和多文檔摘要生成效果都有提升。

而多文檔摘要生成,則通過圖結構語義表示,引入篇章結構知識,增強長文本語義表示能力的同時,解決了跨文檔領域關係建模難題。結合語言生成技術和其他語言與知識技術,百度打造了智能創作平台,已被20多家媒4體所採用,日調用量超過35萬次。

成績卓著的對話系統和機器翻譯

在應用系統層面,百度的對話系統和機器翻譯等成績同樣卓著。百度提出了知識圖譜驅動的對話控制技術,以及首個基於隱空間的大規模開放域對話模型PLATO以及PLATO-2(以下兩圖)。在機器翻譯方面,百度翻譯支持200多種語言,每天響應超過千億字符的翻譯請求,支持超過40多萬家第三方應用,技術上,提出了多智能體聯合學習、基於語義單元的同傳模型、稀缺語種分組混合訓練算法等。

智能對話定製和服務平台UNIT

百度同時推出智能對話定製和服務平台UNIT,幫助開發者高效構建智能對話系統,實現規模化應用。百度翻譯支持200多種語言,每天響應超過千億字符的翻譯請求,支持超過40多萬家第三方應用,技術上,提出了多智能體聯合學習、基於語義單元的同傳模型、稀缺語種分組混合訓練算法等。

百度大腦語言與知識技術的持續探索和創新取得了令業界矚目的成績,同時這些技術以平台化的方式輸出,賦能千行萬業,持續提升產業智能化水平。

多款產品的新發布、兩大計劃

除了對百度大腦語言與知識產品全景圖的總結外,峰會上還發布了語義理解技術與平台文心、智能文檔分析平台TextMind和AI同傳會議解決方案3大新產品,同時發布了6項升級,包括智能創作平台的3個場景方案、以及智能對話定製與服務平台UNIT的3項全新升級。

在上述產品中,尤為引人注意的是語義理解技術與平台文心(ERINE)。百度副總裁吳甜表示,文心全面降低了 NLP 定製開發成本,能減少90%的數據標註量,節約90%的算力投入,減少85%的模型開發時長。相比之下,近段時間十分火爆的GPT-3雖然展示出了眼花繚亂的各種強大生成能力,但是它的背後是一次訓練數周以及數百萬美元的巨大成本,而文心卻可以讓開發者更簡單、高效地定製企業級NLP模型。

在減少數據標註量、算力投入、開發時長的同時,文心語言與知識深度融合的閱讀理解能力也大大提升。王海峰現場用如何從一段話中推斷出「但使龍城飛將在,不在胡馬度陰山」一詩的作者為例,演示了百度文心系統利用知識作為背景信息融入文本語義表示後的模型推理能力,這與網友們利用GPT-3所遇到的各種「翻車」以及Gary Marcus聲稱的「GPT-3並不能真正理解語義」相比,同樣也讓人有眼前一亮的感覺。

在吳甜之後,百度技術委員會主席吳華還宣布了百度聯合中國計算機學會、中國中文信息學會發起中文自然語言處理數據共建計劃——千言,解決語言與知識技術研發中普遍面臨的數據稀疏、算力不足問題。

千言一期由來自國內11家高校和企業的數據資源研發者共同建設,已涵蓋開放域對話、閱讀理解等7大任務,20餘個中文開源數據集,支持多維度綜合評價。吳華表示:「未來,我們希望有更多的數據集作者能夠參與共建千言,共同推動中文信息處理技術的進步,建設世界範圍的中文信息處理影響力。我們計劃在未來3年,面向20多個任務,收集和建設不少於100個中文自然語言處理數據集,覆蓋語言與知識技術全部領域。」

在峰會上,百度技術委員會主席吳華(中)與中國中文信息學會副理事長兼秘書長孫樂(左)、中國計算機學會自然語言處理專委會主任周國棟(右)一起正式啟動千言計劃:

除此之外,吳華還發布了百度語言與知識技術算力共享計劃,通過百度AI STUDIO平台提供算力支持,讓廣大開發者破除算力桎梏,專注於技術創新。

AI STUDIO這兩年一經上線頗受廣大AI開發者的喜愛,百度也是闊氣無比,每個開發者每日都可免費享用16GB顯存的Tesla V100 顯卡資源。

4 百度NLP十年十人

十年征程,百度語言與知識技術發展歷程中培養、吸引了大量全球頂尖人才。在峰會上,百度推出以王海峰為代表的百度NLP「十年十人」,他們分別是:

  • 王海峰,百度首席技術官。

  • Kenneth Church,Baidu Research Fellow,EMNLP 創始人。

  • 吳甜,百度集團副總裁。

  • 吳華,百度技術委員會主席。

  • 趙世奇,百度 MEG 用戶產品策略平台負責人。

  • 黃亮,百度傑出架構師、IDL(美國)主任。

  • 田浩,百度研究院首席架構師。

  • 何中軍,百度人工智慧技術委員會主席。

  • 呂雅娟,百度高級科學家知識圖譜技術負責人。

  • 於佃海,百度飛槳平台總架構師。

百度NLP的十年已經取得了我們所見的輝煌成就,2020年,我們繼續眺望百度NLP的下一個十年,也盼望著下一代「十年十人」甚至是「十人二十年」給學術界產業界帶來意想不到的驚喜。

關鍵字: