強化學習常用算法+實際應用,必須get這些核心要點

thu數據派 發佈 2020-01-17T07:53:42+00:00

強化學習是現代人工智慧領域中最熱門的研究主題之一,其普及度還在不斷增長。戳右邊連結上新智元小程序 了解更多!

來源:新智元

本文約1700字,建議閱讀5分鐘

本文為你介紹強化學習最常用的算法。
[ 導讀 ]強化學習(RL)是現代人工智慧領域中最熱門的研究主題之一,其普及度還在不斷增長。本文介紹了開始學習RL需要了解的核心要素。戳右邊連結上 新智元小程序 了解更多!

強化學習是現代人工智慧領域中最熱門的研究主題之一,其普及度還在不斷增長。

強化學習是什麼?和其他機器學習技術有何區別?

強化學習是一種機器學習技術,它使代理能夠使用自身行為和經驗的反饋通過反覆試驗在交互式環境中學習。

儘管監督學習和強化學習都使用輸入和輸出之間的映射,但監督學習提供給智能體的反饋是執行任務的正確動作集,而強化學習則將獎懲作為正面和負面行為的信號。

無監督學習在目標方面有所不同。無監督學習的目標是發現數據點之間的相似點和差異,而在強化學習的情況下,目標是找到合適的行為模型,以最大化智能體的總累積獎勵。

下圖說明了通用強化學習模型的動作獎勵反饋迴路。

如何制定基本的強化學習問題?

一些描述強化學習問題基本要素的關鍵術語是:

  • 環境-智能體在其中運行的物理狀態
  • 狀態-智能體的當前狀況
  • 獎勵-來自環境的反饋
  • 策略-映射智能體狀態到動作的方法
  • 值-智能體在特定狀態下採取的行動將獲得的未來獎勵

強化學習問題可以通過遊戲來最好地解釋。讓我們以吃豆人遊戲為例,智能體(PacMan)的目標是在網格中吃掉食物,同時避開途中出現的鬼魂。

在這種情況下,網格世界是智能體所作用的交互式環境。智能體成功遲到豆豆會得到獎勵,如果智能體被幽靈殺死(輸掉了遊戲)則會被懲罰。

狀態值得是智能體在網格世界中的位置,總累積獎勵是贏得比賽。

為了建立最優政策,智能體面臨探索新狀態的困境,同時又要使其整體收益最大化,這稱為「探索與開發」的權衡。

為了平衡兩者,最佳的整體策略可能涉及短期犧牲。因此,智能體應該收集足夠的信息,以便將來做出最佳的總體決策。

馬爾可夫決策過程(MDP)是描述強化學習環境的數學框架,幾乎所有強化學習問題都可以使用MDP來表述。

一個MDP由一組有限的環境狀態S,在每種狀態下的一組可能的動作A,一個實值獎勵函數R和一個過渡模型P(s』,s | a)組成。

但是,現實環境更可能缺少任何有關環境動力學的先驗知識。在這種情況下,無模型強化學習方法非常有用。

Q學習是一種常用的無模型方法,可用於構建自己玩的PacMan智能體。它圍繞更新Q值的概念展開,Q值表示在狀態s中執行動作a的值。以下值更新規則是Q學習算法的核心。

什麼是最常用的強化學習算法?

Q學習和SARSA(狀態-行動-獎勵-狀態-行動)是兩種常用的無模型強化學習算法。它們的勘探策略不同,而利用策略卻相似。

Q-學習是強化學習的一種方法。Q-學習就是要記錄下學習過的政策,因而告訴智能體什麼情況下採取什麼行動會有最大的獎勵值。Q-學習不需要對環境進行建模,即使是對帶有隨機因素的轉移函數或者獎勵函數也不需要進行特別的改動就可以進行。

對於任何有限的馬可夫決策過程(FMDP),Q-學習可以找到一個可以最大化所有步驟的獎勵期望的策略,在給定一個部分隨機的策略和無限的探索時間,Q-學習可以給出一個最佳的動作選擇策略。「Q」這個字母在強化學習中表示一個動作的品質(quality)。

而SARSA是一種策略上方法,在其中根據其當前操作a得出的值來學習值。這兩種方法易於實現,但缺乏通用性,因為它們無法估計未知狀態的值,這可以通過更高級的算法來克服,例如使用神經網絡來估計Q值的Deep Q-Networks(DQNs)。但是DQN只能處理離散的低維操作空間。

深度確定性策略梯度(DDPG)是一種無模型,脫離策略,actor-critic的算法,它通過在高維連續操作空間中學習策略來解決此問題。下圖是actor-critic體系結構的表示。

強化學習的實際應用是什麼?

由於強化學習需要大量數據,因此它最適用於容易獲得模擬數據的領域,例如遊戲性,機器人技術。

強化學習被廣泛用於構建用於玩計算機遊戲的AI。AlphaGo Zero是第一個在古代中國的圍棋遊戲中擊敗世界冠軍的電腦程式。其他包括ATARI遊戲,西洋雙陸棋等。在機器人技術和工業自動化中,強化學習用於使機器人自己創建有效的自適應控制系統,該系統從自身的經驗和行為中學習。DeepMind在「通過異步策略更新進行機器人操縱的深度強化學習」方面的工作就是一個很好的例子。

強化學習的其他應用包括抽象文本摘要引擎,可以從用戶交互中學習並隨時間改進的對話智能體(文本,語音),學習醫療保健中的最佳治療策略以及用於在線股票交易的基於強化學習的智能體。

編輯:於騰凱

—完—

關注清華-青島數據科學研究院官方微信公眾平台「 THU數據派 」及姊妹號「 數據派THU 」獲取更多講座福利及優質內容。

關鍵字: