上一代的分布式強化學習代理(例如 IMPALA)利用專門用于數值計算的加速器,充分利用了(無)監督學習多年來受益的速度和效率。RL代理的體系結構通常分為參與者和學習者。參與者通常在CPU上運行,并且在環境中采取的步驟與對模型進行推斷之間進行迭代,以預測下一個動作。通常,參與者會更新推理模型的參數,并且在收集到足夠數量的觀察結果之后,會將觀察結果和動作的軌跡發送給學習者,從而對學習者進行優化。在這種架構中,學習者使用來自數百臺機器上的分布式推理的輸入在GPU上訓練模型。
較早的RL代理IMPALA的示例體系結構。通常使用效率低下的CPU對參與者進行推斷。更新的模型參數經常從學習者發送到參與者,從而增加了帶寬需求。
RL代理(例如IMPALA)的體系結構具有許多缺點:
SEED RL體系結構旨在解決這些缺點。通過這種方法,學習者可以在專用硬件(GPU或TPU)上集中進行神經網絡推理,從而通過確保模型參數和狀態保持局部狀態來加快推理速度并避免數據傳輸瓶頸。在每個環境步驟將觀察結果發送給學習者的同時,由于基于gRPC的非常高效的網絡庫,延遲保持在較低水平具有異步流式RPC的框架。這使得在一臺機器上每秒最多可以實現一百萬個查詢。學習者可以擴展到數千個核心(例如,在Cloud TPU上最多2048個),參與者的數量也可以擴展到數千臺機器,以充分利用學習者,從而可以以每秒數百萬幀的速度進行訓練。SEED RL基于TensorFlow 2 API,在我們的實驗中,是通過TPU加速的。
SEED RL體系結構概述。與IMPALA體系結構相反,參與者僅在環境中執行操作。學習者在加速器上使用來自多個參與者的成批數據來集中執行推理。為了使該體系結構成功,將兩種最先進的算法集成到SEED RL中。第一個是V-trace,這是一種基于策略梯度的方法,最早是在IMPALA中引入的。通常,基于策略梯度的方法可預測可從中采樣操作的操作分布。但是,由于參與者和學習者在SEED RL中異步執行,因此參與者的策略略微落后于學習者的策略,即,他們變得脫離政策。通常基于策略梯度的方法是基于策略的,這意味著他們對參與者和學習者具有相同的政策,并且在非政策環境中會遇到趨同性和數字問題。V-trace是一種非策略方法,因此在異步SEED RL體系結構中效果很好。
第二種算法是R2D2,這是一種Q學習方法,它使用遞歸分布式重放基于該動作的預測未來值來選擇該動作。這種方法允許Q學習算法大規模運行,同時仍然允許使用循環神經網絡,該網絡可以根據情節中所有過去幀的信息來預測未來值。
SEED RL在常用的Arcade學習環境,DeepMind Lab環境以及最近發布的Google Research Football環境中進行了基準測試。
每秒幀數,比較IMPALA和DeepMind Lab上SEED RL的各種配置。SEED RL使用4,160個CPU,每秒可達到240萬幀。假設速度相同,IMPALA將需要14,000個CPU。
在DeepMind Lab上,我們使用64個Cloud TPU內核實現了每秒240萬幀的數據傳輸速度,與以前的最新分布式代理IMPALA相比,提高了80倍。這樣可以顯著提高掛鐘時間和計算效率。對于相同的速度,IMPALA需要的CPU是SEED RL的3-4倍。
使用IMPALA和SEED RL 在DeepMind Lab游戲“ explore_goal_locations_small” 上隨時間推移的劇集回報(即獎勵總和)。使用SEED RL,可以大大減少培訓時間。
通過針對現代加速器進行了優化的架構,自然可以增加模型大小,以提高數據效率。我們表明,通過增加模型的大小和輸入分辨率,我們可以解決以前未解決的Google Research Football任務“困難”。
Google Research Football“艱苦”任務中不同架構的得分。我們表明,通過使用輸入分辨率和更大的模型,可以提高得分,并且通過更多的訓練,模型可以大大勝過內置的AI。本文提供了更多詳細信息,包括我們在Arcade學習環境中的結果。我們相信SEED RL及其提出的結果表明,在利用加速器方面,強化學習再次趕上了其他深度學習領域。
東西(公眾號:zhidxcom)編 | 韋世瑋
智東西3月24日消息,美國當地時間3月23日,谷歌開源了一個名為SEED RL的強化學習(RL)框架,能夠將人工智能(AI)模型訓練擴展到數千臺機器,有助于在一臺機器上以每秒數百萬幀的速度進行訓練,并將訓練成本降低多達80%。
這一強化學習框架的開源,也將為那些AI創企和小型AI實驗室創造一個低成本、公平的競爭環境。
據了解,該研究論文已于2019年10月15日提交在預印本平臺arXiv,并在今年2月11日進行了最新修訂,名為《SEED RL:具有加速的集中推理功能的可擴展且高效的Deep-RL(SEED RL: Scalable and Efficient Deep-RL with Accelerated Central Inference)》。
論文鏈接:https://arxiv.org/abs/1910.06591
實際上,就現階段而言,在云端訓練復雜的機器學習模型十分昂貴。
據研究報告數據,華盛頓大學(University of Washington)的Grover專為生成和檢測假新聞而設計,該模型在兩周的在訓練中共花費了2.5萬美元;OpenAI訓練其GPT-2語言模型,每小時需花費256美元;谷歌訓練其BERT雙向轉換器模型,預估也花費了6912美元。
而這些模型前期的訓練成本,對一些大型AI實驗室或科技巨頭來說也許不足為提,但對于許多的AI創企和小型AI實驗室而言,卻帶來了壓力。
基于谷歌的TensorFlow 2.0框架,SEED RL的特點是能通過集中模型推理,來利用圖形卡和TPU(張量處理單元)。
為了避免數據傳輸瓶頸,SEED RL還使用學習器組件來集中執行AI推理,而該組件也使用來自分布式推理的輸入來訓練模型。
此外,目標模型的變量和狀態信息將保持在本地,并將每個環境步驟的觀察結果發送給學習器組件。同時,由于該模型使用了基于開放源代碼通用RPC框架的網絡庫,因此它的延遲也將保持在最低水平。
SEED RL的學習器組件能夠擴展到成千上萬個核心,例如在Cloud TPU上最多可擴展到2048個,而參與者的數量可擴展多達數千臺機器。
同時,一種名為V-trace的算法可從中采樣動作的分布,而另一種名為R2D2的算法則根據該動作的預測未來值來選擇動作。
為了評估SEED RL,谷歌研究團隊在常用的Arcade學習環境、幾種DeepMind實驗室環境和谷歌足球環境中,對SEED RL進行了基準測試。
研究人員表示,他們利用SEED RL成功地解決了谷歌足球任務,并使用64個云TPU核實現了每秒240萬幀的幀數,比以前最新的分布式代理提高了80倍。
“這大大縮短了掛鐘時間,實現了顯著的加速效果。同時,由于加速器的每次操作成本比CPU低幾個數量級,因此模型實驗的成本也實現了大幅降低。”在研究人員看來,SEED RL和提交的測試結果表明,在利用加速器方面,強化學習再次超越了深度學習的其他領域。
文章來源:VentureBeat
感謝閱讀。點擊關注上船,帶你浪在科技前沿~
東西(公眾號:zhidxcom)編 | 韋世瑋
智東西3月24日消息,美國當地時間3月23日,谷歌開源了一個名為SEED RL的強化學習(RL)框架,能夠將人工智能(AI)模型訓練擴展到數千臺機器,有助于在一臺機器上以每秒數百萬幀的速度進行訓練,并將訓練成本降低多達80%。
這一強化學習框架的開源,也將為那些AI創企和小型AI實驗室創造一個低成本、公平的競爭環境。
據了解,該研究論文已于2019年10月15日提交在預印本平臺arXiv,并在今年2月11日進行了最新修訂,名為《SEED RL:具有加速的集中推理功能的可擴展且高效的Deep-RL(SEED RL: Scalable and Efficient Deep-RL with Accelerated Central Inference)》。
論文鏈接:https://arxiv.org/abs/1910.06591
實際上,就現階段而言,在云端訓練復雜的機器學習模型十分昂貴。
據研究報告數據,華盛頓大學(University of Washington)的Grover專為生成和檢測假新聞而設計,該模型在兩周的在訓練中共花費了2.5萬美元;OpenAI訓練其GPT-2語言模型,每小時需花費256美元;谷歌訓練其BERT雙向轉換器模型,預估也花費了6912美元。
而這些模型前期的訓練成本,對一些大型AI實驗室或科技巨頭來說也許不足為提,但對于許多的AI創企和小型AI實驗室而言,卻帶來了壓力。
基于谷歌的TensorFlow 2.0框架,SEED RL的特點是能通過集中模型推理,來利用圖形卡和TPU(張量處理單元)。
為了避免數據傳輸瓶頸,SEED RL還使用學習器組件來集中執行AI推理,而該組件也使用來自分布式推理的輸入來訓練模型。
此外,目標模型的變量和狀態信息將保持在本地,并將每個環境步驟的觀察結果發送給學習器組件。同時,由于該模型使用了基于開放源代碼通用RPC框架的網絡庫,因此它的延遲也將保持在最低水平。
SEED RL的學習器組件能夠擴展到成千上萬個核心,例如在Cloud TPU上最多可擴展到2048個,而參與者的數量可擴展多達數千臺機器。
同時,一種名為V-trace的算法可從中采樣動作的分布,而另一種名為R2D2的算法則根據該動作的預測未來值來選擇動作。
為了評估SEED RL,谷歌研究團隊在常用的Arcade學習環境、幾種DeepMind實驗室環境和谷歌足球環境中,對SEED RL進行了基準測試。
研究人員表示,他們利用SEED RL成功地解決了谷歌足球任務,并使用64個云TPU核實現了每秒240萬幀的幀數,比以前最新的分布式代理提高了80倍。
“這大大縮短了掛鐘時間,實現了顯著的加速效果。同時,由于加速器的每次操作成本比CPU低幾個數量級,因此模型實驗的成本也實現了大幅降低。”在研究人員看來,SEED RL和提交的測試結果表明,在利用加速器方面,強化學習再次超越了深度學習的其他領域。
文章來源:VentureBeat
感謝閱讀。點擊關注上船,帶你浪在科技前沿~