《强化学习周刊》第58期:RFQI、DRL-DBSCAN广义强化学习
No.58
智源社區
強化學習組
強
化
學
?習
研究
觀點
資源
活動
周刊訂閱
告訴大家一個好消息,《強化學習周刊》已經開啟“訂閱功能”,以后我們會向您自動推送最新版的《強化學習周刊》。訂閱方法:
方式1:掃描下面二維碼,進入《強化學習周刊》主頁,選擇“關注TA”。
方式2:點擊本文下方的“閱讀原文”,進入《強化學習周刊》Hub社區版,根據內附的詳細訂閱步驟,完成訂閱。
關于周刊
強化學習作為人工智能領域研究熱點之一,其研究進展與成果也引發了眾多關注。為幫助研究與工程人員了解該領域的相關進展和資訊,智源社區結合領域內容,撰寫為第58期《強化學習周刊》。本期周刊整理了強化學習領域相關的最新論文推薦、研究綜述及新書籍以饗諸位。
周刊采用社區協作的模式產生,歡迎感興趣的朋友們參與我們的工作,一起來推動強化學習社群的分享、學習和交流活動??梢話呙栉哪┑亩S碼加入強化學習社區群。
本期貢獻者:李明、劉青、小胖
論文推薦
強化學習近年來取得了令人矚目的成就,其應用于各個領域的研究也取得較大的進步,比如批量強化學習應用于推薦系統、數字孿生驅動的深度強化學習 、基于深度強化學習的機器人領域應用相關的理論及其最新應用等。
標題:Distributionally Robust Model-Based Offline Reinforcement Learning with Near-Optimal Sample Complexity(卡內基梅隆大學:Yuejie Chi | 具有樣本復雜度接近最優的基于分布式魯棒模型的離線強化學習)了解詳情
簡介:本文關注離線強化學習 (RL) 中模型魯棒性和樣本效率的核心問題,其旨在學習在不主動探索的情況下從歷史數據中執行決策。通過考慮離線 RL 的分布式魯棒公式,重點關注具有由 Kullback-Leibler 散度指定的不確定性集的表格非平穩有限范圍魯棒馬爾可夫決策過程。為應對樣本稀缺,提出基于模型的算法將分布魯棒的值迭代與面對不確定性的悲觀原則相結合,通過精心設計的數據驅動的懲罰項來懲罰魯棒的值估計。在不需要完全覆蓋狀態-動作空間的情況下測量分布變化的歷史數據集的溫和和量身定制的假設下,建立了所提出算法的有限樣本復雜度,并表明它幾乎是不可改進的將信息論下界匹配到水平長度的多項式因子。這提供了首個可證明接近最優的魯棒離線 RL 算法,該算法在模型不確定性和部分覆蓋下進行學習。
論文鏈接:https://arxiv.org/pdf/2208.05767.pdf
標題:Multi-Task Fusion via Reinforcement Learning for Long-Term User Satisfaction in Recommender Systems(騰訊:Yiyan Qi | 推薦系統中基于強化學習的長期用戶滿意度多任務融合)了解詳情
簡介:推薦系統 (RS) 是一個重要的在線應用程序,每天影響著數十億用戶。主流的 RS 排名框架由兩部分組成:預測各種用戶反饋的多任務學習模型(MTL),即點擊、喜歡、分享,以及結合多任務的多任務融合模型(MTF)。為了優化長期的用戶滿意度,而不是貪婪地獲得即時獎勵,在推薦會話中將 MTF 任務制定為馬爾可夫決策過程 (MDP),并提出了基于批量強化學習 (RL) 的多任務融合框架 (BatchRL-MTF),包括批量 RL 框架和在線探索。前者利用 Batch RL 從固定批次數據離線學習最優推薦策略以獲得長期用戶滿意度,而后者在線探索潛在的高價值動作以突破局部最優困境。在十億樣本級別的真實世界數據集上進行了廣泛的實驗,以展示該模型的有效性。并提出了保守的離線策略估計器(Conservative-OPEstimator)來離線測試模型。最后在真實的推薦環境中進行在線實驗作為少數成功應用于 MTF 任務的 Batch RL 研究之一,該模型也已部署在大型工業短視頻平臺上,為數億用戶提供服務。
論文鏈接:https://arxiv.org/pdf/2208.04560v2.pdf
標題:Deep Reinforcement Learning for Orchestrating Cost-Aware Reconfigurations of vRANs(University of Oulu :Fahri Wisnu Murti | 基于編排VRAN成本感知重構的深度強化學習)了解詳情
簡介:虛擬化無線電接入網絡 (vRAN) 是完全可配置的,并且可以在提供前所未有的網絡管理靈活性的商品平臺上以低成本實施。本文提出了新穎的基于深度強化學習 (RL) 的框架,其聯合重構基站 (BS) 的功能拆分、虛擬化中央單元 (vCU) 和分布式單元 (vDU) 的資源和位置,以及每個 BS 數據流的路由。該解決方案框架是使用無模型多智能體 RL 開發,其中每個智能體控制每個 BS 的配置。然而,由于 BS 的聯合配置決策,每個智能體都具有多維離散動作空間。為克服維度災難,在每個智能體上應用了帶有動作分支的 Dueling 雙 Q 網絡。此外,代理學習其最佳策略以選擇獨立重新配置 BS 的操作。使用符合 O-RAN 的模型執行模擬。研究結果表明,該框架成功地學習了最優策略,可通過轉移學習輕松地應用于不同的vRAN系統,并顯著節省了基準測試的成本。
論文鏈接:https://arxiv.org/pdf/2208.05282.pdf
標題:Fairness Based Energy-Efficient 3D Path Planning of a Portable Access Point: A Deep Reinforcement Learning Approach(The American College of Greece:Nithin Babu | 基于公平的便攜式接入點節能3D路徑規劃:一種深度強化學習方法)了解詳情
簡介:本文優化了基于無人機 (UAV) 的便攜式接入點 (PAP) 的 3D 軌跡,該接入點為一組地面節點 (GN) 提供無線服務。根據 Peukert 效應,考慮了無人機電池的實用非線性電池放電。提出公平能源效率(FEE)??紤]到解決方案空間的復雜性,并使用雙延遲深度確定性策略梯度 (TD3) 演員-評論家深度強化學習 (DRL) 框架來學習最大化系統 FEE 的策略。通過執行兩種類型的 RL 訓練來展示該方法的有效性:第一種(離線)方法在整個訓練階段保持 GN 的位置相同;第二種方法通過在每次訓練后改變 GN 的位置,將學習到的策略推廣到任何 GN 排列。數值評估表明,忽略 Peukert 效應會高估 PAP 的飛行時間,可以通過優化選擇 PAP 的飛行速度來解決。此外,注意到郊區、城市和密集城市環境的 FEE 比基線情景分別提高了 88.31%、272.34% 和 318.13%。
論文鏈接:https://arxiv.org/pdf/2208.05265.pdf
標題:Robust Reinforcement Learning using Offline Data(德克薩斯A&M大學(TAMU): Kishan Panaganti | 基于離線數據的魯棒強化學習)了解詳情
簡介:魯棒強化學習(RL)的目標是學習對模型參數的不確定性具有魯棒性的策略。由于模擬器建模誤差、真實系統動態隨時間的變化以及對抗性干擾,參數不確定性通常出現在許多真實RL應用中。魯棒RL通常表示為最大-最小問題,其目標是學習針對不確定性集中最差可能模型的最大值策略。本文提出了魯棒擬合Q迭代(RFQI)的魯棒RL算法,該算法僅使用離線數據集來學習最優魯棒策略。由于魯棒Bellman算子中存在的所有模型的最小化,因此具有離線數據的魯棒RL比其非魯棒對手具有更大的挑戰性。這給離線數據收集、模型優化和無偏估計帶來了挑戰。為此,其提出了一種系統的方法來克服這些挑戰,從而產生了RFQI算法。研究證明了RFQI在標準假設下學習一個接近最優的魯棒策略,并在標準基準問題上證明了其優越的性能。
論文鏈接:https://arxiv.org/pdf/2208.05129.pdf
標題:Automating DBSCAN via Deep Reinforcement Learning(伊利諾伊大學芝加哥分校: Yingtong Dou | 通過深度強化學習實現DBSCAN自動化)了解詳情
簡介:DBSCAN因其簡單實用而被廣泛應用于許多科學和工程領域。然而,由于其高靈敏度參數,聚類結果的準確性在很大程度上取決于實踐經驗。本文首先提出了新穎的深度強化學習引導的自動 DBSCAN 參數搜索框架,即 DRL-DBSCAN。該框架通過將聚類環境感知為馬爾可夫決策過程來模擬調整參數搜索方向的過程,其目的是在沒有人工幫助的情況下找到最佳的聚類參數。DRL-DBSCAN 使用弱監督獎勵訓練策略網絡通過與集群交互來學習不同特征分布的最優聚類參數搜索策略。此外,還提出了由數據規模驅動的遞歸搜索機制,以有效且可控地處理大參數空間?;谔岢龅乃姆N工作模式,對五個人工和真實世界的數據集進行了廣泛的實驗。離線和在線任務的結果表明,DRL-DBSCAN不僅能持續將DBSCAN的聚類準確率分別提高26%和25%,而且可以穩定地找到優勢參數,計算效率高。
論文鏈接:https://arxiv.org/pdf/2208.04537.pdf
標題:Generalized Reinforcement Learning: Experience Particles, Action Operator, Reinforcement Field, Memory Association, and Decision Concepts(德克薩斯大學阿靈頓分校:Po-Hsiang Chiu | 廣義強化學習:經驗粒子、動作算子、強化場、記憶關聯和決策概念)了解詳情
簡介:學習涉及時變和演化系統動力學的控制策略通常對主流強化學習算法構成巨大挑戰。在大多數標準方法中,動作通常被假定為一組剛性、固定的選擇,以預定義的方式順序應用于狀態空間。標準動作表示和動作誘導的狀態轉換機制固有地限制了強化學習在復雜的現實應用中的應用,這主要是因為產生的大狀態空間很難處理,并且缺乏將學習策略推廣到狀態空間未知部分的能力。本文提出了貝葉斯風格的廣義強化學習框架,首先建立參數化動作模型的概念,以更好地處理不確定性和流體動作行為,然后引入強化場的概念,作為物理啟發的構造,通過學習代理的工作記憶中保持的“極化經驗粒子”建立。在強化領域的基礎上,本文進一步推廣策略學習過程,通過將過去記憶視為具有隱式圖結構來納入高層決策概念,其中過去記憶實例(或粒子)與定義的決策之間的相似性相互關聯,從而,“聯想記憶”原理可用于增強學習代理的世界模型。
論文鏈接:https://arxiv.org/pdf/2208.04822.pdf
標題:Versatile Control of Fluid-Directed Solid Objects Using Multi-Task Reinforcement Learning(南開大學: Bo Ren|使用多任務強化學習多功能控制流體定向固體對象)了解詳情
簡介:本文提出了基于學習的控制器,用于具有耦合流體和固體對象的高維動態系統。此類系統的動態行為可能因不同的模擬器和受用戶不斷變化的要求而變化的控制任務而異。此控制器具有高度通用性,無需重新訓練即可適應不斷變化的動態行為和多項任務,這是通過結合兩種訓練策略來實現的。本文使用元強化學習來通知控制器模擬參數的變化。并進一步設計了新穎的任務表示,它允許控制器通過經驗回放來適應不斷變化的任務。本文強調了此控制器在一系列動態豐富的任務中的魯棒性和通用性,包括從水池中舀出實心球,使用流體噴口的空中球雜技,以及零射擊轉移到看不見的模擬器和本構模型。在所有實驗場景中,該控制器始終優于普通的多任務強化學習基線。
論文鏈接:https://dl.acm.org/doi/pdf/10.1145/3554731
標題:Digital twin-driven deep reinforcement learning for adaptive task allocation in robotic construction(韓國中央大學: Dongmin Lee|數字孿生驅動深度強化學習在機器人工程中的自適應任務分配)了解詳情
簡介:最近,深度強化學習 (DRL) 方法已顯示出解決自適應任務分配的潛力。然而,DRL 是否可以解決動態機器人構建環境中的自適應任務分配問題仍然沒有答案。本文開發并測試了數字孿生驅動的 DRL 學習方法,以探索 DRL 在機器人施工環境中自適應任務分配的潛力。通過數字孿生合成感官數據,并用于模擬 DRL 智能體可以交互的各種動態機器人建筑工地條件。因此,智能體可以學習提高項目績效的自適應任務分配策略。實驗結果表明,與基于規則的命令式模型相比,DRL 模型的任務分配方法在三個動態測試環境中將構建時間減少了 36%。該方法有望成為動態機器人構建環境中自適應任務分配的有效工具。并可以幫助建筑機器人應對不確定性,并通過有效地優先分配任務來最終提高建筑項目的績效。
論文鏈接:https://www.sciencedirect.com/science/article/pii/S1474034622001689#!
標題:Reinforcement learning-based optimal operation of ash deposit removal system to improve recycling efficiency of biomass for CO2 reduction(韓國工業技術研究院: Jonghun Lim|基于強化學習的除灰系統優化運行提高生物質循環利用效率以減少二氧化碳排放)了解詳情
簡介:二氧化碳回收的生物質燃燒會產生大量灰燼沉積物,從而降低整體工藝效率?;厥斟仩t一般采用除灰系統(ADRS),但ADRS運行效率低,生物質的回收效率降低,導致二氧化碳排放量增加。本文提出了基于強化學習優化的 ADRS 操作,以提高生物質對二氧化碳的回收效率。1)收集實時過程運行數據(即煙氣、水和蒸汽的溫度),并開發了計算流體動力學模型來預測過熱器段的煙氣溫度。2) 使用收集到的數據計算傳熱率的降低,以定義獎勵更新矩陣。3)基于定義的獎勵更新矩陣開發了一種改進的Q-learning算法,并使用該算法推導出Q矩陣,預測在給定狀態(即每個吹灰位置)執行給定動作(即吹灰)的預期動態回報(即清除灰沉積物的優先級)的函數。4) 使用得到的 Q 矩陣,得出了最優的操作順序。
論文鏈接:https://www.sciencedirect.com/science/article/pii/S0959652622031845
標題:Offline Reinforcement Learning with Representations for Actions(中國科學院自動化研究所: Xingzhou Lou|具有行動表示的離線強化學習)了解詳情
簡介:普遍應用的離線強化學習(RL)方法將策略限制在離線數據集支持的區域內,以避免分布偏移問題。其忽略了數據集分布之外的潛在高獎勵行為。為此,本文提出了從離線數據集推廣到分布外(OOD)動作。其設計了新穎的動作嵌入模型來幫助推斷動作的效果。結果表明,此價值函數在動作空間上達到了更好的泛化,并進一步緩解了高估 OOD 動作引起的分布偏移。本文對價值函數在動作空間上的泛化能力的改進給出了信息論的解釋。在 D4RL 上的實驗表明,與以前的離線 RL 方法相比,該模型提高了性能,尤其是當離線數據集的體驗良好時。并進一步的研究并驗證了價值函數對 OOD 動作的泛化得到了改進,這增強了本文提出的動作嵌入模型的有效性。
論文鏈接:https://www.sciencedirect.com/science/article/pii/S0020025522009033#!
標題:Opportunistic maintenance scheduling with deep reinforcement learning(英飛凌: Alexander Valet|具有深度強化學習的機會性維護調度)了解詳情
簡介:先進制造工藝的高度復雜性以及制造設備的高投資成本使得維護調度的集成成為一項具有挑戰性但同樣至關重要的任務。通過考慮維護措施的機會成本,機會性維護調度具有提高運營績效的潛力。同時,強化學習(RL)已被證明能夠處理復雜的調度任務。因此,應用RL建立一個集成的維護調度模型,以在單個決策支持系統中考慮訂單調度和維護調度。通過使用離散事件仿真模擬了半導體前端晶圓制造的真實用例。在模擬場景中,集成調度和維護調度的性能受適用于機會維護和強化學習的復雜新穎啟發式算法的調節。結果表明,RL 策略能夠通過包含內部和外部機會主義機會來學習有競爭力的聯合調度策略。
論文鏈接:https://www.sciencedirect.com/science/article/pii/S0278612522001285
標題:GPDS: A multi-agent deep reinforcement learning game for anti-jamming secure computing in MEC network(中南大學: Miaojiang Chen|GPDS:用于 MEC 網絡中抗干擾安全計算的多智能體深度強化學習游戲)了解詳情
簡介:移動邊緣計算(MEC)網絡的開放性使其容易受到惡意干擾器的干擾攻擊,從而危及移動用戶的通信質量。本文考慮了基于時變信道的新型防御策略,并將惡意干擾對抗過程描述為多用戶智能博弈模型。由于干擾模型和干擾策略未知,提出了深度強化學習多用戶隨機博弈與后決策狀態(命名為GPDS)來智能抵抗智能攻擊者。移動用戶需要從阻塞信道的狀態中獲取通信質量、頻譜可用性和干擾策略。最優決策策略的獎勵定義為最大通道吞吐量的期望值,通過納什均衡得到潛在的最優通道選擇策略。GPDS訓練后,移動用戶可以學習多步訓練后的最優頻道切換策略。實驗結果表明,與 SOTA 算法相比,GPDS 具有更好的抗干擾性能。通過納什均衡得到潛在的最優渠道選擇策略。GPDS訓練后,移動用戶可以學習多步訓練后的最優頻道切換策略。
論文鏈接:https://www.sciencedirect.com/science/article/pii/S0957417422015044#
標題:Q-learning-based model predictive variable impedance control for physical human-robot collaboration(提契諾大學: Loris Roveda|用于物理人機協作的基于 Q 學習的模型預測可變阻抗控制)了解詳情
簡介:在許多情況下越來越需要物理人機協作。其能夠識別人類的意圖,并保證沿預期運動方向的安全和自適應行為。為此,本文提出了基于 Q-Learning 的模型預測可變阻抗控制 (Q-LMPVIC) 來協助操作員完成物理人機協作 (pHRC) 任務。笛卡爾阻抗控制回路旨在實現解耦的順應機器人動力學。阻抗控制參數(即,設定點和阻尼參數)然后在線優化,以最大限度地提高 pHRC 的性能。為此,本文設計了一組神經網絡來學習人機交互動力學的建模,同時捕捉相關的不確定性。然后,模型預測控制器 (MPC) 使用派生的建模,并通過 Lyapunov 約束增強穩定性保證。MPC 是通過使用 Q-Learning 方法來解決的,該方法在其在線實現中使用 actor-critic 算法來近似精確的解決方案。事實上,Q-learning 方法提供了一個準確且高效的解決方案(在計算時間和資源方面)。
論文鏈接:https://www.sciencedirect.com/science/article/pii/S0004370222001114
標題:Lifelong reinforcement learning with temporal logic formulas and reward machines(中山大學: Xuejing Zheng|使用時序邏輯公式和獎勵機器進行終身強化學習)了解詳情
簡介:使用高級思想或知識不斷學習新任務是人類的一項關鍵能力。本文提出了使用順序線性時間邏輯公式和獎勵機(LSRM) 的終身強化學習,這使智能體能夠利用先前學習的知識來加速邏輯指定任務的學習。為了更靈活地規范任務,首先引入順序線性時序邏輯(SLTL),它是對現有線性時序邏輯(LTL)形式語言的補充。再應用獎勵機器(RMs) 為使用高級事件編碼的任務利用結構獎勵功能,并提出 RMs 的自動擴展和對任務的有效知識轉移,以實現持續的終身學習。實驗結果表明,LSRM 通過利用 SLTL 的任務分解和終身學習過程中 RM 上的知識轉移,優于從頭開始學習目標任務的方法。
論文鏈接:https://www.sciencedirect.com/science/article/pii/S0950705122008358
標題:Graph and Dynamics Interpretation in Robotic Reinforcement Learning Task(杭州電子科技大學: Zonggui Yao|機器人強化學習任務中的圖形和動力學解釋)了解詳情
簡介:機器人控制任務通常通過強化學習方法以循環試驗和學習的方式解決。典型問題之一是通過機器人不同部位的力傳遞,機器人動力學量的計算容易被忽略。為此,本文建議使用力傳遞圖來解釋機器人運動遵循的力傳遞機制,并用二次模型估計機器人運動的動力學量。故本文提出了基于模型的機器人控制強化學習框架,其中動態模型包括兩個組件,即圖卷積網絡(GCN)和兩層感知(TLP)網絡。GCN 用作力傳遞圖的參數估計器和結構特征提取器。TLP 網絡近似于應該能夠估計機器人運動的動力學量的二次模型。并將所提出的框架命名為強化學習方法中動態估計的GCN(簡稱GDRL)。該方法解釋了通過機器人肢體傳遞機器人力的內在機制,因此該模型具有高度的可解釋性。
論文鏈接:https://www.sciencedirect.com/science/article/pii/S0020025522009276
如果你正在從事或關注 強化學習研究、實現與應用,歡迎加入“智源社區-強化學習-交流群”。在這里,你可以:
學習前沿知識、求解疑難困惑
分享經驗心得、展示風貌才華
參與專屬活動、結識研究伙伴
掃描下方二維碼,加入強化學習興趣群。
總結
以上是生活随笔為你收集整理的《强化学习周刊》第58期:RFQI、DRL-DBSCAN广义强化学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: S32V234 Camera 信号波形状
- 下一篇: 非常可爱的紫色动态星空月亮网站404页面