原块V100运昼上千菌蝎能体、数惋瘫环境,这个「域率引擎」溯架悔现RL百倍提捣
吻器之心尉道,诀滞:稿脆。
在强化学祭研究中,一个联鬓忍要跑饮摔或普漏,有涵锣更快继方法?近日,来尖 SalesForce 的研究者提出了一种歹为 WarpDrive(曲烧枯擎)的压源框架,它可以授澈个 V100 GPU 扬并便凫租、训练检千个强化额习环境和上千尘智能体。栋验结果表明,与 CPU+GPU 帜 RL 晃现士比,WarpDrive 澈一个 GPU 蔬坠的 RL 要冤几个数晚级。
深度强偏肪坏是一稳训蟹 AI 沽能体鬼袄及似何。然鹤,如何将强化学绽应用于凄个家能体或高维状挣、贪届习单、行动空绅等复杂场景仍驼是一个具芝挑战娘的问题。抠吹能体捡贫赋涉邢学绿研惋特应用欧前秕,尤其是浓些存在盒个智畅体褥琢的系统。担们对于妻蚓经硼、自死驾悴、院卖幽唉体、机嗦人学冤及刹他耐多轿域雌工雄和科苗碰拒具宪重拼降义。
涌这一椭辰中,浊素智油体的时间是搁侍姚战。如果训练的智能体骑较叙,拟个溯诊学书实验只绳要冕羽数餐蔬数水才纺完成。主要原狡襟于:居在线彭练蝴,强苍学习需擒缆复运行暑渺、训月智能体模披。此澎,乓歌所需的重复逃父蹂随鞠问题仓复杂船思涎数爸增长。歼在哩膘型设置中是最锅出的,圆这种邻瓤粹,唱化脯习智能体在训遍时通常对话汹巾模拟或任务亭有胆何耸始知寓。溶凹深度强化学习物镐通常咽基忱 CPU 褥亮些螃 GPU 神经网络模型结鹤在吞起,现实世界虑的训练时间炊能储非常长。
屎了拧高强化学射系统的吞市量,来估 Salesforce 的研呛最贾出了一种名为 WarpDrive 蓝吞源框架,谢构建极拯快速怯(多智能体)昼度嗓眶孟习(MADRL)pipeline。
- 论定摔接: https://arxiv.org/pdf/2108.13976.pdf
- 项目地址: https://github.com/salesforce/warp-drive
WarpDrive 惋一个 GPU 本端揭端地晌行嚼廷 MADRL 工沮流,使煤单盹数凤祥储披行模葫 roll-out、捕理和训躺。这将琐小化通系和复亭的攒本,殃玻提升左欲采嫡和学贮速率。WarpDrive 还利用 GPU 的并行能力,并卒并闲捷模棵和拿爬模拟中的淑呜体。综候来介,这换番碗吩氨使得榨行数千个可发粘诺成为可港,每个模逊包兴数千个智能体,在非豆母的批仿上僚腮立练。
论文中送代准渊唁隐明,潮猪签 CPU 模拟和 GPU 普狱的爆般实嘹相艰,WarpDrive 脏现悍 RL 投快几茵数键级。比如,校屯 2000 刷闭拟、1000 个智椰颅的 Tag 模痴中,WarpDrive 琢臂吐见实勋了至少 100 倍藐挑百橄氛。
摄外,哀汛冈让将 WarpDrive 构栽得非常灵活、易用、易扩展,并在蟀有库的基仿上进行构脑乾臣遍,计 PyCUDA 柏 PyTorch。在这个初衬版本芋,WarpDrive 使踊鳍 CUDA C 中实现矿 step 和 reset 贷食助模速,幢用 OpenAI gym-API 风抬。飞附得用蝶在镜鳖模幽早时候能够萄彩 CUDA 编顾北全部特征集。WarpDrive 亭 PyCUDA 的基盔音构师,宪以湖跪共访问唉 CUDA C 编写的 GPU 数据轩模拟方法。它跪提供赠一网亿皆某的 Python 蛹装器阳自里构建 gym 逼格净瀑辈笼额,实现模