「入行」20年手握12項專利,這位澄海80後語音識別玩出新高度

天下潮商 發佈 2020-01-02T11:04:18+00:00

中科院語音識別專家,九四智能首席科學家,阿凡題、京師訊飛、博暉創新等企業首席科學家,方亞投資集團顧問,北京語言大學語言智能研究院和北京林業大學人工智慧研究所的客座教授,自動化學報深度學習專刊負責人,海淀高層次人才發展促進會特邀專家,北京潮創會常務理事。

  柯登峰,澄海人,1980年出生。中科院語音識別專家,九四智能首席科學家,阿凡題、京師訊飛、博暉創新等企業首席科學家,方亞投資集團顧問,北京語言大學語言智能研究院和北京林業大學人工智慧研究所的客座教授,自動化學報深度學習專刊負責人,海淀高層次人才發展促進會特邀專家,北京潮創會常務理事。


  近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。近年來,語音識別技術更是進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域,尤其是移動終端上的應用非常火熱,語音對話機器人、語音助手、互動工具等層出不窮。語音識別技術讓原本科幻電影般的人機對話成為現實,世界亦呈現日新月異的變化。

  中科院語音識別專家、九四智能首席科學家柯登峰,從2001年開始進入語音識別領域,正好陪伴語音識別行業走過飛速發展的近二十年,並成為這一領域的拔尖人才,目前他手握12項國家專利,成為該領域的見證者和深耕者。

  聲紋識別撐起安全「保護傘」

  有時候,未來在你面前打開一扇門,而你要做的就是相信直覺並邁進去走下去。對於柯登峰來說,就是如此。1999年他告別讀了六年的澄海中學,來到中山大學讀本科。僅為計算機系的大一新生,柯登峰就通過了一個頗有難度的全國高級程式設計師認證(即現在的系統分析師考試),於是機緣巧合被學校老師拉著加入和水晶球一起給廣東省公安廳做的聲紋識別項目。

  據柯登峰介紹,當時做的聲紋識別項目是通過錄入犯罪嫌疑人或罪犯的聲紋,對其實現監控記錄的這麼一種系統。他們從2001年提出構思,2003年就完成系統,並且憑此在2005年獲得廣東省優秀科技獎。2001年,就成為柯登峰邁入語音識別行業的「元年」。

  2005年至2006年,他給解放軍總參謀部做緬甸語語音識別系統。當時國內外局勢不穩,國內對網絡監控非常嚴格。緬甸語作為小語種,相關人才很少,全國高校來說,北京只有兩所學校有緬甸語培訓,而且還是每四年招生一次,只招30人。這麼少人監控那麼多內容,難度可想而知。所以緬甸語語音識別方案,以機器代替人工,監控網絡電話,起到非常重要和積極的作用。

  這兩個項目均為社會安定撐起科技的「保護傘」,雖然柯登峰不無惋惜地說,後來想推薦把聲紋做進身份證,可惜沒有成功,但是沉甸甸的社會責任感,再加品嘗到勝利果實的甜蜜,讓他更堅定自己的方向,他繼續研究各種各樣的相關技術,逐漸向語音識別領域深耕。

  語音識別引領未來智能生活

  2009年,國內語音識別行業迎來發展的節點,深度學習成為語音識別開始大力創新的契機。深度學習的概念源於人工神經網絡的研究。它模仿人腦的機制來解釋數據,例如圖像,聲音和文本。「深度學習技術從2009年開始,國內外基本同步,技術上大家從同一起跑線開始,都是從無到有走出來的路。國內爆發出很多不錯的原創性思路。特別最近幾年,大家都覺得這是人工智慧,特別火爆。」柯登峰說。

  人工智慧火了,而搭載人工智慧語音識別的產品,也被科技巨頭們視為是開啟智能家居風口的鑰匙。亞馬遜、微軟、谷歌、蘋果、百度、暴風、小米等等國內外巨頭都開始推出搭載智能語音識別產品,搶占智能家居入口。

  看似遙不可及的語音識別技術正一步步通過產業化走進我們的生活。10年里,柯登峰的成績亦斐然,比NUS所做系統識別率高15%的新加坡政府馬來語音識別系統、國家民族漢考辦使用的漢語自動識別系統和作文自動評分系統、全國音樂基礎考試自動評分系統、江蘇省中考英語口語自動評分系統……他與團隊建立的語音識別系統無處不在,其技術使用人群已超過一億人次。柯登峰認為語音識別行業擁有廣闊的前景。

  2017年,他和團隊提出的DGC型的對抗生成網絡,獲得IEEE的最佳論文獎。他們設計的對抗生成網絡,輸入的是帶噪錄音,讓生成器生成純凈語音,從而解決的噪聲環境下識別率不好的問題。最近,他們還提出一種梯度反向學習技術,在語音識別時,網絡能分辨不同的聲母韻母,擠掉個人口音特徵、性別特徵、年齡特徵等,這在以前是不可能的。

  阿凡題等企業首席科學家、自動化學報深度學習專刊負責人、國際潮籍博士聯合會北京區執行委員會、海淀高層次人才發展促進會特邀專家、方亞投資集團顧問……加載在柯登峰身上這些榮譽的背後是無數的實驗,是漫漫科研道路上的穩紮穩打、上下求索。

  傳道授業探索無限可能性

  柯登峰所在的中科院自動化研究擁有全國最優秀的語音識別團隊。早在2005年,他剛到北京中科院讀博士時,他們的團隊就獲得全國863語音識別比賽第一名。此後一直走在語音識別領域的前端。2008年,又獲全球哼唱檢索比賽第一名。在老師的帶領下進入語音識別行業的柯登峰始終十分看重團隊。他認為,對於學生來說最重要的是找到一個好的行業和好的平台,要有好的團隊和導師帶領,不然自己隨意摸索要出成果特別慢,一個人是無法完成那麼多東西。

  除了自己的團隊,柯登峰同時也是北京語言大學語言智能研究院和北京林業大學人工智慧研究所的客座教授,致力於為語音識別這個迅速發展的行業培養更多優秀的人才。

  教學中,他非常注重因材施教,他對學生要求很嚴,甚至苛刻。別人一門程式語言要學一個學期,他只給學生一個星期學習。但上他的課又很自由,可以隨時上台觀摩或發表觀點。他想要培養的是具有強大學習能力、分析能力和解決問題能力的人才隊伍。當對抗生成技術出來時,他引導學生去想是否可以把帶噪語音生成為純凈語音,最後學生劉斌的論文獲得IEEE最佳學生論文獎。

  柯登峰眼中的科學,廣闊、豐富、無限,決不囿於一方實驗室,更不困於術業專攻。「語音識別是文科、理科、工科三大學科的綜合,又是一個交叉領域,要求編程好、需要學習信號處理、機率學、語音學、心理和聲學感知相關知識,要求你學習能力好並且有興趣,才能從三大學科抽出有用的東西。」 他鼓勵分享,如果看到好的最新技術,都會第一時間發到群里給大家看,「幾十人每個人貢獻出一個知識點,把大家都說懂了,相當於每人每天能學到別人用幾十天的時間才能學到的東西。」

  很多人都知道「一個人可以走得很快,一群人可以走得更遠」這個道理,而在柯登峰的「麾下」,一群人不僅可以走得很遠,也可以走得很快。

  心聲

  靈感的開啟不是專門去想怎麼開,而是分析別人的方法,妙處在哪裡,有沒有更好的改進空間,在這個過程中自然而然誕生出來的,有時候是大家七嘴八舌討論出來的。

  很多時候,你不需要什麼都懂,也不可能什麼都懂,吾生也有涯,而知也無涯,以有限的生命去學習無窮的知識,必定會精神疲憊而一無所得。一定要現學現用才有價值,也才有意思。

  做每件事情之前,要先看看別人都做了哪些,是怎麼做,把別人分析透了,復現最好的算法,然後才談改進。

  採訪手記:

  願意投入時間的人

  隱馬爾可夫模型、聲道歸一化、共振峰……採訪中談起語音識別,柯登峰滔滔不絕,專業名詞艱澀難懂,不過,我卻記住了他在說起教學時的一句話:「我們第一步要選人,需要選擇對這個領域方向有感覺並且願意投入時間的人。」我想,這是他們選人的首要標準,同樣的,他自己也首先是這樣的人。這句話的重點在「願意投入時間」、「對這個領域方向有感覺」,這是科研人員的優秀品質,很多人只看到柯登峰的順理成章、機緣巧合,卻忽略了他「願意投入時間」而鑄就的過硬能力以及其中的堅定信念。

  2016年,有人提出「技術商人」這一新穎概念。這是科研和產業高度結合的結果。它要求科研人員引領選擇,具有堅實的基礎知識和解決問題的能力,還需要不會枯竭的想像力,不會泯滅的好奇心和不會冷卻的熱情。「對這個領域方向有感覺」,才有想像力、好奇心以及作選擇時的直覺;「願意投入時間」,才有堅實的基礎知識、解決問題的能力和不會冷卻的熱情,這不正好是柯登峰那句話的註解嗎?

  來源:汕頭日報

關鍵字: