人工智慧發展的熱點透視 - 光明日報

2019世界人工智慧大會，工作人員演示一款基於5G網絡實現遠程控制的機器人。新華社發

▶智能「小冰」在創作繪畫。新華社發

近期，清華大學-中國工程院知識智能聯合研究中心、中國人工智慧學會吳文俊人工智慧科學技術獎評選基地聯合發布了《2019人工智慧發展報告》，遴選了13個人工智慧的重點領域，包括深度學習、計算機視覺、語音識別、機器人等熱點前沿技術的基礎及應用研究、發展動向等。

深度學習讓圖像、語音等感知類問題取得突破

機器學習是一門多領域交叉學科，專門研究計算機怎樣模擬或實現人類的學習行為，以獲取新的知識或技能。

1950年，阿蘭·圖靈創造了圖靈測試來判定計算機是否智能。圖靈測試認為，如果一台機器能夠與人類展開對話而不能被辨別出其機器身份，那麼稱這台機器具有智能。這一簡化使得圖靈能夠令人信服地說明「思考的機器」是可能的。

後來，IBM科學家亞瑟·塞繆爾開發的跳棋程序，駁倒了普羅維登斯提出的機器無法超越人類的論斷，像人類一樣寫代碼和學習的模式，他創造了「機器學習」這一術語。

然而，從20世紀60年代中期到70年代末期，機器學習的發展步伐幾乎停滯。無論是理論研究還是計算機硬體限制，整個人工智慧領域的發展都遇到了很大的瓶頸，神經網絡學習機因理論缺陷也未能達到預期效果而轉入低潮。直到偉博斯在神經網絡反向傳播（BP）算法中具體提出了多層感知機模型，機器學習得以重振，並且直到今天BP算法仍然是神經網絡架構的關鍵因素。

神經網絡研究人員相繼提出了使用BP算法訓練的多參數線性規劃的理念，成為後來深度學習的基石。在另一個譜系中，昆蘭提出了一種非常出名的機器學習算法，具體地說是ID3算法，這種算法至今仍然活躍在機器學習領域中。

機器學習迎來爆發期是神經網絡研究領域領軍者Hinton在2006年提出了神經網絡Deep Learning算法，使神經網絡的能力大大提高。Hinton和他的學生 Salakhutdinov在《科學》上發表了一篇文章，開啟了深度學習在學術界和工業界的浪潮。

2015年，為紀念人工智慧概念提出60周年，LeCun、Bengio和Hinton推出了深度學習的聯合綜述。深度學習可以讓那些擁有多個處理層的計算模型來學習具有多層次抽象的數據的表示，這些方法在許多方面都帶來了顯著的改善。深度學習的出現，讓圖像、語音等感知類問題取得了真正意義上的突破，離實際應用已如此之近，將人工智慧推進到一個新時代。

計算機視覺催生出人臉識別、智能視頻監控等應用

計算機視覺，顧名思義，是分析、研究讓計算機智能化地達到類似人類的雙眼「看」的一門研究科學，即對於客觀存在的三維立體化的世界的理解以及識別依靠智能化的計算機去實現。

計算機視覺技術就是利用了攝像機以及電腦替代人眼使得計算機擁有人類的雙眼所具有的分割、分類、識別、跟蹤、判別、決策等功能。

馬爾（David Marr）《視覺》一書的問世，標誌著計算機視覺成為了一門獨立學科。計算機視覺40多年的發展中，儘管人們提出了大量的理論和方法，但總體上說，計算機視覺經歷了三個主要歷程：馬爾計算視覺、多視幾何與分層三維重建和基於學習的視覺。

目前，在計算機上調「深度網絡」來提高物體識別的精度似乎就等於從事「視覺研究」。馬爾的計算視覺分為三個層次：計算理論、表達和算法以及算法實現。由於馬爾認為算法實現並不影響算法的功能和效果，所以馬爾計算視覺理論主要討論「計算理論」和「表達與算法」二部分內容。

馬爾認為，大腦的神經計算和計算機的數值計算沒有本質區別，所以馬爾沒有對「算法實現」進行任何探討。從現在神經科學的進展看，「神經計算」與數值計算在有些情況下會產生本質區別，如目前興起的神經形態計算，但總體上說，「數值計算」可以「模擬神經計算」。至少從現在看，「算法的不同實現途徑」，並不影響馬爾計算視覺理論的本質屬性。

20世紀90年代初，計算機視覺從「蕭條」走向「繁榮」，主要得益於以下二方面的因素：一方面，瞄準的應用領域從精度和魯棒性要求太高的「工業應用」轉到要求不太高，特別是僅僅需要「視覺效果」的應用領域，如遠程視頻會議、考古、虛擬現實、視頻監控等;另一方面，人們發現，多視幾何理論下的分層三維重建能有效提高三維重建的魯棒性和精度。

多視幾何的代表性人物首數法國INRIA的O.Faugeras，美國 GE研究院的R.Hartely和英國牛津大學的A.Zisserman。2000年Hartely和Zisserman合著的書對這方面的內容給出了比較系統的總結。大數據需要全自動重建，而全自動重建需要反覆優化，而反覆優化需要花費大量計算資源。舉一個簡單例子，假如要三維重建北京中關村地區，為了保證重建的完整性，需要獲取大量的地面和無人機圖像。假如獲取了1萬幅地面高解析度圖像（4000×3000）、5千幅高解析度無人機圖像（8000×7000），三維重建要匹配這些圖像，從中選取合適的圖像集，然後對相機位置信息進行標定並重建出場景的三維結構，如此大的數據量，人工干預是不可能的，所以整個三維重建流程必須全自動進行。

基於學習的視覺，則是指以機器學習為主要技術手段的計算機視覺研究。基於學習的視覺研究，文獻中大體上分為二個階段：21世紀初的以流形學習為代表的子空間法和目前以深度學習為代表的視覺方法。

近年來，巨量數據的不斷湧現與計算能力的快速提升，給以非結構化視覺數據為研究對象的計算機視覺帶來了巨大的發展機遇與挑戰性難題，計算機視覺也因此成為學術界和工業界公認的前瞻性研究領域，部分研究成果已實際應用，催生出人臉識別、智能視頻監控等多個極具顯示度的商業化應用。

語音識別被應用於工業、通信、醫療等行業

語音識別是讓機器識別和理解說話人語音信號內容的新興學科，目的是將語音信號轉變為文本字符或者命令的智能技術，利用計算機理解講話人的語義內容，使其聽懂人類的語音，從而判斷說話人的意圖，是一種非常自然和有效的人機交流方式。

語音識別的研究工作可以追溯到20世紀50年代。在1952年，AT&T貝爾研究所研究成功了世界上第一個語音識別系統Audry 系統，可以識別10個英文數字發音。這個系統識別的是一個人說出的孤立數字，並且很大程度上依賴於每個數字中的元音的共振峰的測量。

計算機的應用推動了語音識別技術的發展，使用了電子計算機進行語音識別，提出了一系列語音識別技術的新理論——動態規劃線性預測分析技術，較好地解決了語音信號產生的模型問題。在20世紀70年代，語音識別研究取得了重大的具有里程碑意義的成果，伴隨著自然語言理解的研究以及微電子技術的發展，語音識別領域取得了突破性進展。這一時期的語音識別方法基本上是採用傳統的模式識別策略。

後來，語音識別研究進一步走向深入。這一時期所取得的重大進展有：隱馬爾科夫模型（HMM）技術的成熟和不斷完善，並最終成為語音識別的主流方法；以知識為基礎的語音識別的研究日益受到重視。在進行連續語音識別的時候，除了識別聲學信息外，更多地利用各種語言知識，諸如構詞、句法、語義、對話背景等方面的知識來幫助進一步對語音識別和理解。同時在語音識別研究領域，還產生了基於統計機率的語言模型；人工神經網絡在語音識別中的應用研究興起。ANN具有較好的區分複雜分類邊界的能力，顯然它十分有助於模式識別。在這些研究中，大部分採用基於反向傳播算法（BP算法）的多層感知網絡。

語音識別技術逐漸走向實用化，在建立模型、提取和優化特徵參數方面取得了突破性的進展，使系統具有更好的自適應性。許多已開發國家和著名公司都投入大量資金用以開發和研究實用化的語音識別產品，從而許多具有代表性的產品問世。比如IBM公司研發的漢語ViaVoice系統，以及Dragon公司研發的DragonDictate系統，都具有說話人自適應能力，能在用戶使用過程中不斷提高識別率。

21世紀之後，深度學習技術極大地促進了語音識別技術的進步，使其識別精度大大提高，應用得到廣泛發展。2009年，Hinton將深度神經網絡（DNN）應用於語音的聲學建模，在TIMIT上獲得了當時最好的結果。2011年底，微軟研究院的俞棟、鄧力又把DNN技術應用在了大詞彙量連續語音識別任務上，大大降低了語音識別錯誤率。從此語音識別進入DNN-HMM時代。DNN帶來的好處是不再需要對語音數據分布進行假設，將相鄰的語音幀拼接又包含了語音的時序結構信息，使得對於狀態的分類機率有了明顯提升。同時DNN還具有強大環境學習能力，可以提升對噪聲和口音的魯棒性。

目前，語音識別技術已逐漸被應用於工業、通信、商務、家電、醫療、汽車電子以及家庭服務等各個領域。例如，現今流行的手機語音助手，就是將語音識別技術應用到智慧型手機中，能夠實現人與手機的智能對話，其中包括美國蘋果公司的Siri語音助手、智能360語音助手、百度語音助手等。

機器人與有機生命越來越接近

機器人廣義上包括一切模擬人類行為或思想以及模擬其他生物的機械（如機器狗、機器貓等）。目前，智能機器人已成為世界各國的研究熱點之一，成為衡量一國工業化水平的重要標誌。

機器人技術最早應用於工業領域，但隨著機器人技術的發展和各行業需求的提升，在計算機技術、網絡技術、MEMS技術等新技術發展的推動下，近年來，機器人技術正從傳統的工業製造領域向醫療服務、教育娛樂、勘探勘測、生物工程、救災救援等領域迅速擴展，適應不同領域需求的機器人系統被深入研究和開發。過去幾十年，機器人技術的研究與應用，大大推動了人類的工業化和現代化進程，並逐步形成了機器人的產業鏈，使機器人的應用範圍也日趨廣泛。

在機器人嶄露頭角於工業生產的同時，機器人技術研究不斷深入。1961年，美國麻省理工學院Lincoln實驗室把一個配有接觸傳感器的遙控操縱器的從動部分與一台計算機聯結在一起，這樣形成的機器人可以憑觸覺決定物體的狀態。隨後，用電視攝像頭作為輸入的計算機圖像處理、物體辨識的研究工作也陸續取得成果。1968年，美國斯坦福人工智慧實驗室的J.McCarthy等人研究了新穎的課題——研製帶有手、眼、耳的計算機系統。於是，智能機器人的研究形象逐漸豐滿起來。

20世紀70年代以來，機器人產業蓬勃興起，機器人技術發展為專門的學科。工業機器人首先在汽車製造業的流水線生產中開始大規模應用，隨後，諸如日本、德國、美國這樣的製造業已開發國家開始在其他工業生產中也大量採用機器人作業。

後來，機器人朝著越來越智能化的方向發展，這種機器人帶有多種傳感器，能夠將多種傳感器得到的信息進行融合，能夠有效地適應變化的環境，具有很強的自適應能力、學習能力和自治功能。

智能機器人的發展主要經歷了三個階段，分別是可編程試教、再現型機器人，有感知能力和自適應能力的機器人，智能機器人。其中所涉及到的關鍵技術有多傳感器信息融合、導航與定位、路徑規劃、機器人視覺智能控制和人機接口技術等。

進入21世紀，隨著勞動力成本的不斷提高、技術的不斷進步，各國陸續進行製造業的轉型與升級，出現了機器人替代人的熱潮。同時，人工智慧發展日新月異，服務機器人也開始走進普通家庭的生活。

世界上許多機器人科技公司都在大力發展機器人技術，機器人的特質與有機生命越來越接近。最近，波士頓動力公司在機器人領域的成就已經成為人們的焦點，其產品機器狗Spot和雙足人形機器人Atlas都讓人大為驚嘆。Spot的功能十分先進，可以前往你告訴它要去的目的地，避開障礙，並在極端情況下保持平衡。Spot還可以背負多達四個硬體模塊，為公司提供其他多款機器人完成特定工作所需的任何技能；Atlas已經掌握了倒立、360度翻轉、旋轉等多項技能，繼表演跑酷、後空翻等絕技之後，Atlas又掌握了一項新技能——體操，再次讓人們大開眼界。

（本報記者楊舒採訪整理）