From:Berkeley 編譯:T.R

在環境中保持穩定是所有生物共同的基本訴求，我們會不斷努力追求確定性的環境和未來，並在與環境交互的過程中展現出一系列複雜的行為與能力。來自伯克利的研究人員就在這種機制的啟發下提出了一種新型的無監督強化學習方法SMiRL，為主體的智能學習過程提供了新的視角。

幾乎所有的生物都在環境中找到了自己的一片庇護所，以便在這複雜多變的世界中保持相對可控的生存條件。例如人類的進化歷程就是一個保護自己不受意外侵襲的發展史，我們聯合起來建造城市和大規模的住房、完善的水電煤氣、建造了冬暖夏涼的舒適居住空間，避免了祖先曾經經歷過的風吹雨打和風餐露宿。所有的生物發現並維持這種平衡，保持對現實的控制力需要發展出多樣性的適應能力和複雜的技能。這種對於環境適應的自主學習也啟發了研究人員，在充滿混沌和熵增的環境中保持秩序是不是可以促使智能體自動習得有效的技能呢？

在沒有外界監督的情況下，智能體如何才能在環境中學會複雜的行為和技能呢？學者們針對這一人工智慧的核心問題提出了一系列可能的解決方案，其中大部分集中於尋求新穎的行為方向。在類似電子遊戲一類的虛擬世界中，尋求新方法的內在動機的確可以得到很多有趣並且有用的行為，然而這樣的環境去在根本上缺乏與真實世界的可比性。

真實世界中，自然環境和其他主體的相互作用提供了豐富的新途徑，同時也帶來了瞬息萬變的挑戰：智能體需要不斷的發現和學會新的行為維持秩序的微妙平衡，例如保護自己、居所，避免捕食者和天敵等等。下面的例子中我們可以看到智能體在隨機天氣環境中學會了構建庇護所，大幅度減小了天氣帶來的可觀測影響。

在前面的觀察下，研究人員將內在穩態視為強化學習的目標函數，以便最小化環境中的變化，提出了一種新的強化學習方法SMiRL(reinforcement learning based on surprise minimization)。

在熵增和動力學環境中充斥著不希望發生的意外，最小化這些意料之外的情況將使得智能自然而然地去尋求可以維持穩態的平衡。

上圖顯示了SMiRL的基本循環過程。當主體觀察到環境的狀態s時，它會基於其置信函數rt ←pθ t−1(s).計算新狀態的機率。這一置信模型描述了主體最為熟悉的狀態，而這一狀態與其經歷過的狀態分布相關，經歷更熟悉的狀態將帶來更高的建立函數。在主體經歷新狀態後，它將更新置信函數pθ t−1(s)。隨後行為策略π(a|s,θt)的目標將是選擇能使主體繼續進入最熟悉狀態的行為。

最關鍵的是，主體能意識到它的置信函數會在未來發生改變，這意味著它擁有兩種最大化獎勵的機制：一種是採取最為熟悉的行為（可以稱為循規蹈矩的穩定），另一種是採取可以改變其置信模型的行為，使得未來的行為更為熟悉（可以視為跳出舒適區的創新）。正是後一種機制導致了更為複雜的行為產生。下圖顯示了訓練俄羅斯方塊遊戲的可視化策略，左圖的右半部分顯示了置信pθ t(s)的變化情況.主體傾向於將塊置於底部，這鼓勵了主體傾向於清除方塊，避免了不斷的堆高。

應急行為Emergent behavior

SMiRL主體在多個不同環境中都描述了應急行為將產生有意義的結果。在俄羅斯方塊中，主體學會了消除一行行磚塊並正確地進行遊戲；在《毀滅戰士》視覺遊戲（VizDoom）中學會了如何躲避敵人發出的火圈。這些環境中隨機和混沌事件都迫使SMiRL主體採取協調的行為來避免像方塊堆滿的空間或者火球爆炸這樣不可預測的結果。

保衛戰線的戰士

雙足機器人

下圖顯示了在Cliff環境中主體學會了如何通過在邊緣穩定支撐身體，大幅減小從懸崖摔下機率。在Treadmill環境中SMiRL學會了更為複雜的運動行為，例如向前跳來增加待在跑步機上的時間。

內在動機的比較

內在動機假設行為是受與任務無關的內在獎勵信號驅動的。下圖研究人員繪製了俄羅斯方塊、毀滅戰士和人型機器人仿真中與環境相關的獎勵函數。為了與更為標準的內在動機方法比較SMiRL，研究人員還測評了ICM方法和RND方法。同時在環境中構建了一個直接優化任務獎勵的主體oracle。可以看到，在俄羅斯方塊中2000次疊代SMiRL就能達到較為完美的狀態。ICM則為了尋求最大的變化創建了更多方塊而不是清除它們。在VizDoom中，SMiRL通過對抗學會了躲避火球。

SMiRL在Cliff和Treadmil環境中也有相同的表現，ICM的新穎搜索使得它的行為不正常，造成了主體從懸崖摔下或者從跑步機滾下，與倖存的行為相反，它最大化了摔下的變化量。

SMiRL + Curiosity

雖然表面上SMiRL最小化不確定性，而Curiosity則最大化變化，它們是彼此矛盾的。ICM方法著眼於學習狀態轉移模型來最大化變化，而SMiRL則專注於學習狀態分布來最小化變化。但實際上我們可以在實踐中結合這兩種方式達到更好的結果。

觀點與啟發

這一研究的關鍵在於主體會抵抗環境中的熵增，它需要學會有用的行動來平衡這一狀態，逐漸學會越來越複雜的行為。與簡單的內因驅動不同，SMiRL為非監督強化學習方法提供了可能的發展方向，在行為與對手、熵源和環境中其他突發因素緊密相關時，主體會盡力避免環境中出現突發事件或其他導致熵增的事件。

ref：

https://bair.berkeley.edu/blog/2019/12/18/smirl

author：https://people.eecs.berkeley.edu/~gberseth/

doom：https://baijiahao.baidu.com/s?id=1609585166308558051

關於我門

▼

將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構，旗下涵蓋

將門創新服務、將門技術社群以及將門創投基金。將門成立於2015年底，創始團隊由微軟創投在中國的創始團隊原班人馬構建而成，曾為微軟優選和深度孵化了126家創新的技術型創業公司。

將門創新服務

專注於使創新的技術落地於真正的應用場景，激活和實現全新的商業價值，服務於行業領先企業和技術創新型創業公司。

將門技術社群

專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容，使創新成為持續的核心競爭力。

專注於投資通過技術創新激活商業場景，實現商業價值的初創企業，關注技術領域包括

機器智能、物聯網、自然人機互動、企業計算。

在近四年的時間裡，將門創投基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十家具有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投後服務，

歡迎發送或者推薦項目給我「門」: bp@thejiangmen.com

伯克利提出強化學習新方法，最小化不確定性啟發無監督學習新範式