

现在,东谈主形机器东谈主仍是能在推行中舞蹈、奔走、以致完成后空翻。但接下来更关键的问题是:这些系统能否在部署之后握续地进行强化学习 —— 在果然天下的反应中变得更褂讪、更可靠,并在踱步不停变化的新环境里握续安妥与改造?
现在主流仍然是大批域就地化的 Sim2Real 阶梯,“仿真里练到很强,上真机成功用”,一朝部署,战术收集频频就被冻结,果然天下大批未知的变化包括摩擦、载荷、温度、诞生老化等都可能让机器东谈主发扬打折,系统时常只可回到仿真里从新调参或重训;而思在真机上再学习,又会濒临两谈门卡:安全(就地探索可能颠仆、损坏)和数据(真机交互上流、速率慢、次数有限),这使得机器东谈主阑珊信得过好奇景仰上握续学习的能力。
来自北京通用东谈主工智能商酌院和西安电子科技大学的商酌团队提议的 LIFT 给出了一条更推行的旅途:先用离战术(Off-policy)强化学习算法 SAC(Soft Actor-Critic) 在仿真中进行大范围预进修,充分哄骗数据复用带来的样本服从;再在预进修数据之上学习一个物理信息增强(Physics-informed)的天下模子。
到了果然天下,机器东谈主主要实行细目性、更可控的动作来网络数据与微调,把 “试错” 和 “探索” 尽可能放进天下模子里发生,从而在保证安全的前提下,用有限的真机交互下终了更快的微调与擢升,绕开部分 sim2real 的硬瓶颈。

https://mp.weixin.qq.com/s/xeOgPk9MKAEmrOx_n1q5PA?click_id=67
论文的第一作家黄维东是北京通用东谈主工智能商酌院的商酌工程师,商酌主义为强化学习和天下模子等,商酌方针是构建在复杂环境中可高效握续学习的智能体,通信作家为北京通用东谈主工智能商酌院的商酌员张精文。

论文标题:Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control
布景与动机:
东谈主形机器东谈主真机强化学习的不安全性
现在机器东谈主界无为依赖在战术(On-policy)算法 PPO (Proximal Policy Optimization)进行预进修。PPO 天然在仿真中有较快的(Wall-time)管感性能,但由于不成有用复用旧数据,况兼依赖就地探索,这使其在果然东谈主形机器东谈主上作念后续微调或握续学习果然不可行:既不安全,也不经济。
{jz:field.toptypename/}传统强化学习中,有两种有后劲的决议:
离战术 RL(Off-policy RL)(如 SAC):能复用旧数据,提高样本服从;
基于天下模子的 RL(Model-based RL)(如 MBPO/ Dreamer):用模子生成数据减少果然交互。
但作家发现把这些设施成功搬到东谈主形机器东谈主的预进修和微调上会遭逢新的瓶颈:
1. 细目性数据网络 + 数据各种性不及会让惯例 off-policy /model-based 的进修变得不褂讪或极慢;
2. 天下模子症结在东谈主形高维战役能源学下更容易积存,导致生成的数据质料较差,难以被战术哄骗;
3. 若像 MBPO 或 Dreamer 那样 “边与环境交互边进修天下模子和战术,在数千并行仿真下 wall-time 代价不可招揽。
因此中枢问题是:能否既不糟跶大范围预进修速率,又能让微调阶段满盈样本高效、况兼安全可控?
LIFT:大范围预进修与高效微调

图 1. LIFT 框架图
为了处治上述问题,作家提议了 LIFT (Large-Scale PretraIning and Efficient FineTuning) 框架(如图 1 所示)。LIFT 的框架的联想基于以下三个中枢细察:
细察一:SAC 比 PPO 在数据量和数据各种性受限时更具上风。
先前的设施(如 SSRL)仍是证明使用 SAC 辞天下模子中探索和学习,不错在果然天下从新开始进修一个四足机器东谈主完成行走任务。一种天然的作念法是将 SSRL 中的 SAC 替换成 PPO,因为 PPO 具有大批并行进修的基础关键。
然则,作家发现,SAC 比拟 PPO 具有两个上风:它的离战术的特点使得它在数据量和数据各种性不实时,样本服从仍然很高;它的与气象商酌的就地战术粗略促进其辞天下模子中的探索,生成更各种和更有用的进修数据。因此, 作家后续围绕 SAC 打造符合的预进修和微调框架。
细察二:经过 SAC 大范围预进修的战术能在果然天下零样本部署。
作家使用 Jax 终明晰 SAC 并使用了 Optuna 框架对 SAC 的超参数进行了系统性地搜索。在 Booster T1 的行走预进修任务上,优化后的 SAC 管理时辰能从原先的 7 个小时下落到半小时以内。
在固定其他超参数不变后,该商酌发现擢升 UTD,Batch Size,Replay Buffer Size 均能裁汰管理所需的样本数目,况兼无需使用特别复杂的手段(如 ensemble/dropout critic)就能赢得一个在真机可零样本部署的基础战术,该战术可看成后续握续学习的褂讪首先。同期,a8体育官方网站可把预进修时的 Replay Buffer 存盘,再离线进修天下模子,幸免拖慢大范围并行预进修的速率;
细察三:物理信息增强的天下模子能擢升模子瞻望性能和策稍稍调性能。
作家将 Ensemble 收集与东谈主形机器东谈主能源学模子(公式 2)取悦以擢厌世下模子的瞻望性能:

Ensemble 收集只需要输出战役力与瞻望的不细目性(方程 3)就不错通过方程(2)野心出加快度,然后积分出下一个期间的气象:

作家修正了 SSRL 中的机器东谈主特权气象空间到广义气象空间的映射商酌,并引入构建东谈主形机器东谈主能源学所需的气象(如形体的高度)到特权气象空间中,使得天下模子能准确瞻望下一个期间的东谈主形机器东谈主气象。
在果然环境微调时,该设施只需要用:细目性动作(action mean) 在果然环境网络一小段数据;用新数据微调天下模子;用 SAC 就地战术辞天下模子里探索生成合成轨迹,再用这些合成轨迹更新 actor-critic;更新后的战术再回到果然环境,插左右一轮迭代。这就把 “探索的风险” 尽可能留辞天下模子里,终了安全且高服从的握续学习。
实验抛弃
作家在两款东谈主形平台 Booster T1 与 Unitree G1 上进行了预进修和微调实验,对比基线包括 PPO、SAC 等。比拟于基线设施,LIFT 展现了显赫的上风:
1. 战术预进修的管理时辰:在 MuJoCo Playground 的东谈主形机器东谈主任务上,推敲运行时辰内,LIFT 的 预进修讲演与 PPO、FastTD3 至极或更高,这阐明该框架莫得使得战术预进修的时辰变长。如图 2 所示,战术不错成功零样本部署到真机,看成后续微调的启动化战术。

图 2. 真机零样本部署
2. 样本服从:作家将预进修战术迁徙到 Brax 仿真器进行微调,并联想了三种场景:
踱步内(In-Distribution):方针速率落在预进修范围内;
长尾踱步(Long-Tail):预进修中很少出现的方针速率;
踱步外(Out-of-Distribution):方针速率超出预进修范围。
如图 3 所示,LIFT 在三类场景中均能在 4×10⁴的环境样本数目级下管理(约为果然天下的 800 秒)并准确追踪方针速率。

图 3. 在 Brax 中微调的进修弧线图
微调服从如下所示, Booster T1 在微调前无法准确追踪预进修时未见过的方针速率(1.5 m/s 的速率上前行走),微调后的战术能准确追踪该方针,况兼微调后步态更平顺、形体舞动更小、速率偏差显赫裁汰。
Booster T1 预进修战术的服从


在 Booster T1 微调后战术的服从
图4. 在Brax中微调前后的服从对比图
作家进一步在 Booster T1 真机上进行了微调实验:以一个仿真预进修后迁徙到真机失败的预进修战术为首先,LIFT 通过多轮迭代,仅用 约 80–590 秒 的果然数据,就能渐渐修正战术的不褂讪活动(如图 5 所示)。

图 5. 在 Booster T1 真机上微调的历程
在消融实验中(图 6),作家发现去掉天下模子预进修算法仍能管理,但管理速率彰着更慢;而都备去除预进修则容易堕入局部最优。

图 6. 预进修的消融实验
而另外一项消融实验(图 7)标明使用纯 ensemble 收集构建的天下模子更容易给出物理上不对理的瞻望(如特殊的形体高度),导致 critic loss 爆炸并间隔战术擢升。比拟之下,LIFT 提供了更强的归纳偏置,在有限数据下发扬调动经。

图 7. 物理信息增强的天下模子消融实验
此外,作家也将归拢预进修框架拓展到 Unitree G1 的全身追踪类任务。





图 8. 全身追踪的预进修服从
结语
要是把在果然天下的机器东谈主上扩张强化学习当成一条通向通用东谈主工智能的旅途,那么关键不在于机器东谈主某一次演示能跑多酷,而在于:咱们能否把机器东谈主的学习历程在果然天下闭环,即构建一个可握续、可扩张、自动化的学习系统。
刻下的抛弃阐明,用更可控的果然数据网络,把高风险探索尽量滚动到天下模子里,是让强化学习在果然东谈主形机器东谈主上变得可行的一种主义;但要把它 “范围化”,仍然有几类瓶颈需要被处治。
一是不雅测与气象臆想。要是关键物理量(举例机器东谈主基座高度、速率)仍依赖外部动捕或存在累积漂移,那么系统就很难脱离东谈主工与局面管理,也难以在通达环境中长久运行。
二是安全与重置机制。即便遴选细目性实行,依然有可能因为战术症结与建模症结导致战术失控。需要联想更自动化的安全保护机制 —— 包括不细目性驱动的保护、收复战术。
三是系统浑沌量。需要联想异步的数据网络与强化学习进修系统,保证战术推理时也在进行握续学习。当这些成分渐渐到位时,强化学习才能在果然天下表露紧迫作用。

备案号: