DeepMind哈佛驚人發現!大腦中竟存在分布強化學習,靠多巴胺驅動

新智元 發佈 2020-01-16T18:36:11+00:00

近日,DeepMind與哈佛大學新研究證明了大腦中存在「分布強化學習」,而大腦中的強化學習是通過「快樂之源」多巴胺驅動。

【新智元導讀】人類的大腦,或許AI比我們懂。近日,DeepMind與哈佛大學新研究證明了大腦中存在「分布強化學習」,而大腦中的強化學習是通過「快樂之源」多巴胺驅動。和AI系統類似,大腦不是以「平均值」的方式預期未來可能的回報,而是以「機率分布」的方式來預期。「福利:今晚19:00,騰訊微信人工智慧高級研究員錢橋手把手教你「推薦系統與數據思維」,戳右邊連結上 新智元We站公開課 了解更多!」

學生時代,想必你肯定聽過巴甫洛夫和狗的故事:

每次給狗餵食之前,都先搖動一個鈴鐺。久而久之,狗學會了把鈴鐺當做進食的前奏。後來,只要鈴鐺一響,狗就會開始流口水,不管接下來有沒有食物。這表明它們已經學會了「預測獎勵」。

在最初的實驗中,巴甫洛夫通過測量它們產生的唾液量來估計它們的期望。但最近幾十年來,科學家們開始破譯大腦學習這些預測的方式
同時,計算機科學家開發了在AI系統中進行強化學習的算法。這些算法使AI系統無需外部指導即可學習複雜的策略,學習過程由獎勵預測機制指導。

DeepMind的一項新研究表明,對於破譯大腦的內部運作方式,或許AI才是我們的老師。

在這項剛剛被發表在Nature的研究中,DeepMind與哈佛大學的研究人員受最近關於分布強化學習的AI研究啟發,提出了一種基於多巴胺的強化學習的方法

他們認為:和AI系統類似,大腦不是以「平均值」的方式預期未來可能的回報,而是以「機率分布」的方式來預期,從而證明大腦中存在「分布強化學習」。

大腦進行強化學習,類似於頂級AI算法

「大腦中的多巴胺是一種代表驚訝(surprise)的信號。」論文一作Will Dabney說: 「當情況好於預期時,就會釋放出更多的多巴胺。」

一起認為,這些多巴胺神經元反應都相同。但是研究人員發現,各個多巴胺神經元似乎有所不同:每個神經元「快樂」或「悲傷」的程度是不一樣的。

更像是合唱團,它們唱著不同的音符,相互協調,」Dabney說。

這一發現從一種稱為分布強化學習的過程中獲得了靈感。沒錯,就是AI用來掌握圍棋和星際爭霸2等遊戲的技術之一

最簡單的說,強化學習是一種獎勵,它可以強化讓它有所得的行為。這需要了解當前的行動如何導致未來的回報。例如,一條狗可能會學習命令「 坐」,因為當它這樣做時會得到獎勵。

以前,AI和神經科學中的強化學習模型都專注於學習以預測「平均」的未來回報。「但這並不能反映現實情況,」Dabney說。

他還舉了個例子:「例如,當有人玩彩票時,他們期望贏或輸,但是他們並不會期望中間結果。」

當未來不確定時,可能的結果可以用機率分布來表示:有的是正的,有的是負的。使用分布強化學習算法的AI能夠預測可能的獎勵的全部範圍。

為了測試大腦的多巴胺獎勵途徑是否也通過分布起作用,該團隊記錄了小鼠中單個多巴胺神經元的反應。他們訓練小鼠完成一項任務,並給予它們大小不同且不可預測的獎勵。

研究人員發現,不同的多巴胺細胞確實表現出不同程度的驚訝。也就是說,AI算法讓我們知道了應該在神經反應中尋找什麼。

接下來,新智元為大家剖析這項研究的來龍去脈。

時間差學習算法:完善強化學習預測鏈

強化學習是將神經科學和AI相聯繫的最古老,最有力的想法之一。早在1980年代後期,計算機科學研究人員試圖開發一種算法,該算法僅使用「獎懲」作為信號,學習如何獨自執行複雜的行為。

這種獎勵機制的預測與人類自身的一些行為很類似,比如,學生努力學習來應對考試,其獎勵回報是考試成績可能會更高。總體而言,預測當前行為的未來回報,是這種算法的核心機制。

解決獎勵預測問題的一個重要突破是時間差學習(TD)算法,該算法不會去計算未來的總回報,而只是嘗試在下一個時刻預測即時獎勵。

當下一刻出現新信息時,將新的預測與預期的進行比較。如果二者不同,則計算出回報的差異,並使用此「即時差異」將舊預測調整為新預測,使期望預測與現實相匹配,整個預測鏈逐漸變得更加準確。

大約在同一時期,上世紀80年代末到90年代初,神經科學家也在努力了解多巴胺神經元的行為。這些神經元的放電與獎勵機制有關,但其反應也取決於感覺輸入,並且會隨著經驗而改變。

逐漸地,一些研究人員開始將神經科學和AI的最新發現聯繫起來。研究人員發現,某些多巴胺神經元的反應代表了獎勵預測的錯誤:也就是說,當動物獲得的獎勵比預期的多或少時,多巴胺神經元就會放電。

這些研究人員據此推測,人的大腦也在使用TD學習算法:計算獎勵預測誤差,通過多巴胺信號向大腦廣播。從那時起,多巴胺的獎勵預測誤差理論已在數千個實驗中得到測試和驗證,並且已成為神經科學中最成功的定量理論之一。

破解「快樂之源」多巴胺的分布密碼

由於分布式TD算法在人工神經網絡中是如此強大,因此自然而然地出現了一個問題:大腦中是否也使用了分布式TD算法?

DeepMind與哈佛大學的實驗室合作,分析了小鼠的多巴胺細胞的記錄。記錄是在小鼠執行完好學習的任務後得到的,在這些任務中它們收到了無法預測的獎勵(圖4)。評估了多巴胺神經元的活性是否與標準TD或分布TD一致。

第一個問題是,是否可以在神經數據中發現這種獎勵預測。

過去,我們已經知道多巴胺細胞會改變其放電速率指示預測錯誤,也就是說,當收到的獎勵與預測獎勵完全相同時,預測誤差應該為零,因此放電速率沒有變化。對於每個多巴胺細胞,我們確定了這個不會改變放電速率的臨界獎勵。我們稱之為「反轉點」。

接下來的問題是,不同多巴胺細胞的「反轉點」獎勵是否不同。下圖表明,一些細胞預測出了非常大的獎勵,還有的細胞預測很少,其差異程度明顯超出了隨機差異。

圖1:在此任務中,給小鼠喝水的獎勵是隨機確定的,數量是可變的

獎勵預測中的這些差異是由正向或負向獎勵預測錯誤的選擇性放大引起的。通過測量不同多巴胺細胞表現出「積極」和「消極」預測的擴大程度的差異,在不同細胞之間發現了明顯的差異性,這種差異已經超出了噪聲的範圍。

圖 2:多巴胺細胞編碼學習的獎勵分布。可以根據放電率對獎勵分布進行解碼。灰色陰影區域是任務中獎勵的真實分配。每個淺藍色軌跡顯示解碼程序的示例。暗藍色是平均運行時間。

最後一個問題是,是否可以從多巴胺細胞的放電速率中解碼獎勵分布。如上圖所示,我們發現確實有可能僅使用多巴胺細胞的放電速率來重建獎勵分布(藍色),該分布與實際獎勵分布(灰色區域)非常接近。

結論:分布式強化學習是一條通向更先進AI的光明大道

這項研究證明,大腦中確實存在與AI模型中類似的分布式強化學習機制,這對人工智慧和神經科學都有意義。

首先,它驗證了分布強化學習是一條通向更先進AI能力的光明大道。

「如果大腦正在使用它,這應該是一個好主意,」DeepMind神經科學研究主任、該論文的主要作者之一Matthew Botvinick說:「它告訴我們,這是一種可以在現實世界中擴展的計算技術,它將很好的適應其他計算過程。」

其次,這一發現為神經科學提出了新問題,為理解心理層面的健康和動機提供了新見解。

例如,有「悲傷」和「快樂」的多巴胺神經元意味著什麼?如果大腦有選擇地只聽其中一個或另一個,它會導致化學失衡和誘發抑鬱嗎?

從根本上說,通過進一步解碼大腦的過程,研究結果還揭示了創造人類智力的因素。Botvinick說:「它為我們提供了關於日常生活中大腦活動的新視角。」

最後,研究人員希望這些問題的提出和解答,能推動神經科學領域的技術進步,並將其成果反哺AI研究,實現良性循環。

參考連結:

https://www.newscientist.com/article/2230327-deepmind-found-an-ai-learning-technique-also-works-in-human-brains/

https://www.vox.com/future-perfect/2020/1/15/21067228/ai-brain-protein-folding-google-deepmind

https://www.technologyreview.com/s/615054/deepmind-ai-reiforcement-learning-reveals-dopamine-neurons-in-brain/

關鍵字: