基于行为的多差速机器人强化学习任务监管器设计

来源：中英文核心期刊咨询网所属分类：理工论文浏览：次时间：

　　针对多差速机器人系统提出了一种基于试错学习的多智能体强化学习任务监管器(MARLMS)。此方法解决了基于行为的多智能体系统总是依赖人的智能设计切换规则以决策行为优先级的问题。首先，在零空间行为控制(NSBC)框架下引入了差速模型代替质点模型，首次推导了具有非完整约束的零空间行为控制范式，从而提升了系统对最小极值状态的鲁棒性。然后，首次将行为优先级切换问题建模为协作式马尔可夫博弈问题，学习了一个最优的联合策略以动态且智能地决策行为优先级，不仅避免了人工设计切换规则，而且降低了在线计算和存储负担。仿真结果显示，所提出多智能体强化学习任务监管器具有优越的行为优先级切换性能。在AgileX Limo系列多差速机器人系统上的成功应用，验证了该任务监管器的实用性。

　　关键词：差速机器人;行为控制;强化学习;任务监管器;智能决策

　　论文《基于行为的多差速机器人强化学习任务监管器设计》发表在《机器人》，版权归《机器人》所有。本文来自网络平台，仅供参考。

　　引言

　　多差速机器人系统通过协同能够完成个体无法独立执行的任务，因此已广泛应用于物流、交通和巡检等场景。随着工作环境的动态化和任务需求的高性能化，任务目标变得更为复杂，且多差速机器人系统不得不同时完成多个相互冲突的任务，包括局部任务和全局任务。局部任务是指个体独立完成的任务，而全局任务是指群体协同完成的任务。这种多任务冲突问题是多智能体领域的热点问题之一。

　　行为控制方法是Brooks首次提出的，通过建模和融合多个行为来解决多任务冲突问题。相关研究总结了几类典型的行为选择机制，包括分层、加权、模糊和零空间等。分层行为控制方法采用竞争式架构，完整执行最高层次行为，但任务执行效率低;加权和模糊行为控制方法采用协作式架构，充分利用系统冗余度执行各种行为，但每个行为都未得到完整执行。结合竞争式与协作式架构的优点，Antonelli等提出了一种新颖的基于零空间的行为控制(NSBC)框架，不仅能完整执行最高优先级的行为，而且可以通过零空间执行部分低优先级行为。为了完成零空间的投影，NSBC基于任务监管器(mission supervisor)分配行为的优先级。然而，行为优先级最初是人工提前设定的且固定不变，因而该方法执行任务时的动态性能不佳。

　　为克服固定行为优先级的缺陷，学者们相继提出了有限状态自动机任务监管器(FSAMS)、模糊任务监管器(FMS)和模型预测控制任务监管器(MPCMS)。FSAMS将每个行为优先级隐含在一个有限状态机的状态中，通过人工设计数值化的状态转移条件，以状态转移的方式切换行为优先级，但数值条件依赖人工设计且缺乏理论依据。FMS使用模糊逻辑表代替数值逻辑规则，大幅度降低了人工设计规则的难度，但需要人工设计模糊集合和模糊规则等。MPCMS将行为优先级切换问题建模为一个最优模式切换问题，通过实时求解最优行为优先级来避免人工设计切换规则，但在线的计算量和存储负担非常大，且实时性不佳。

　　相关研究将行为优先级切换问题建模为一个序贯决策问题，提出了一种新颖的强化学习任务监管器(RLMS)。RLMS学习一个最优的行为优先级策略，不仅避免了人工设计规则，而且降低了硬件负担。然而，RLMS通常无法在多差速机器人系统中取得理想的任务性能，具体原因如下：1)RLMS使用质点模型建模智能体的运动学，但差速机器人系统受到非完整约束的限制，其运动学不满足质点模型。若使用质点模型表征差速机器人系统，则参考指令难以跟踪，且多差速机器人系统易陷入极值状态。2)RLMS只在单个学习者的环境下可保证收敛，扩展至多差速机器人系统中时，存在学习环境非平稳问题，从而强化学习算法将失去收敛保证。3)RLMS只能实施局部行为，无法发挥多差速机器人系统的群体智能，因而降低了任务执行能力。

　　针对上述问题，本文提出了一种新颖的多智能体强化学习任务监管器(MARLMS)，解决了多差速机器人系统的行为优先级决策问题。具体而言，MARLMS设计的难点在于如何构建多差速机器人行为控制方法与多智能体强化学习算法之间的“桥梁”。此外，MARLMS的行为集合将包含局部行为和全局行为，且必须克服学习环境的非平稳问题，达到群体效益最大化而非个体效益最大化。由于NSBC框架在任务层通常是集中式的，因此本文考虑将多差速机器人的行为优先级切换问题建模为协作式马尔可夫博弈问题，联合差速机器人的状态和行为，以最大化团队奖励为目标，学习一个最优的联合行为优先级策略。一方面，MARLMS减少了对人工设计行为优先级切换规则的依赖，且降低了硬件平台实时计算和存储行为优先级的负担;另一方面，MARLMS弥补了RLMS不能实施全局行为的致命缺陷，且解决了多差速机器人学习环境的非平稳问题，从而极大地提升了RLMS的可扩展性。

　　1 建模与问题描述

　　1.1 多差速机器人系统运动学模型

　　在由(N(N>2))个差速机器人组成的多差速机器人系统中，每个差速机器人均具有2个辅助轮和2个驱动轮。第(i)个差速机器人的线速度(v_{i} in mathbb{R})和角速度(omega_{i} in mathbb{R})分别可表示为：

　　[v_{i}=left(v_{L, i}+v_{R, i} ight) / 2]

　　[omega_{i}=left(v_{L, i}-v_{R, i} ight) / L_{i}]

　　其中，(v_{L, i} in mathbb{R})和(v_{R, i} in mathbb{R})分别是左右驱动轮的速度，(L_{i} in mathbb{R})是左右驱动轮间的距离，(mathbb{R})为实数集合。

　　定义第(i)个差速机器人的位置和偏航角分别为(p_{i}=[x_{i}, y_{i}] in mathbb{R}^{2})和( heta_{i} in mathbb{R})，则第(i)个差速机器人的运动学方程可以建模为：

　　[dot{X}_{i}=left[egin{array}{c}dot{p}_{i} \ dot{ heta}_{i}end{array} ight]=left[egin{array}{c}v_{i} cos heta_{i} \ v_{i} sin heta_{i} \ omega_{i}end{array} ight]=left[egin{array}{cc}cos heta_{i} & 0 \ sin heta_{i} & 0 \ 0 & 1end{array} ight] V_{i}=Theta_{i} V_{i}]

　　其中，(X_{i}=[p_{i}, heta_{i}]^{T} in mathbb{R}^{3})和(V_{i}=[v_{i}, omega_{i}]^{T} in mathbb{R}^{2})分别是第(i)个差速机器人的广义位置和速度，(Theta_{i} in mathbb{R}^{3×2})是非完整约束矩阵。

　　假设1：多差速机器人系统工作在一个静态的场景中，其中所有障碍物都是静态且固定的。

　　1.2 任务目标

　　多差速机器人系统的运动学方程如上述公式所示，其任务目标是学习一个联合的行为优先级策略，以在满足假设1的工作环境中动态且智能地决策它们的行为优先级，从而使得多差速机器人系统在避开障碍物的同时形成或重构队形。

　　2 具有非完整约束的NSBC范式设计

　　2.1 基本行为设计

　　假设每个差速机器人均有(M)个基本行为，其中第(i)个差速机器人的第(j)个基本行为可采用一个任务变量(sigma_{i, j} in mathbb{R}^{m_{j}})((m_{j} ≤3)，(j=1, cdots, M))来表示：

　　[sigma_{i, j}=g_{i, j}left(X_{i} ight)]

　　其中，(g_{i, j}(cdot): mathbb{R}^{3} o mathbb{R}^{m_{j}})为任务函数。

　　然后，任务变量(sigma_{i, j})的微分形式推导为：

　　[dot{sigma}_{i, j}=frac{partial g_{i, j}left(X_{i} ight)}{partial X_{i}} dot{X}_{i}=J_{i, j} dot{X}_{i}=J_{i, j} Theta_{i} V_{i}]

　　其中，(J_{i, j} in mathbb{R}^{m_{j}×3})表示任务的雅可比矩阵。

　　最后，基于闭环逆运动学方法，第(i)个差速机器人的第(j)个基本行为的参考速度指令推导为：

　　[V_{i, j}=Theta_{i, j}^{ddagger} J_{i, j}^{dagger}left(dot{sigma}_{d, i, j}+Lambda_{i, j} ilde{sigma}_{i, j} ight)]

　　其中，(Theta_{i, j}^{ddagger}=Theta_{i, j}^{T}(Theta_{i, j} Theta_{i, j}^{T})^{-1} in mathbb{R}^{2×3})表示(Theta_{i, j})的左伪逆矩阵，(J_{i, j}^{+}=J_{i, j}^{T}(J_{i, j} J_{i, j}^{T})^{-1} in mathbb{R}^{3×m_{j}})表示(J_{i, j})的右伪逆矩阵，(sigma_{d, i, j} in mathbb{R}^{m_{j}})是期望的任务函数，(dot{sigma}_{d, i, j} in mathbb{R}^{m_{j}})是(sigma_{d, i, j})的微分形式，(Lambda_{i, j} in mathbb{R}^{m_{j}×m_{j}})是任务的增益矩阵，( ilde{sigma}_{i, j}=sigma_{d, i, j}-sigma_{i, j} in mathbb{R}^{m_{j}})是任务的误差。

　　在不失一般性的前提下，编队保持、重构和避障行为设计如下：

　　- **编队保持行为(FM)**：是一个全局行为，旨在驱使多差速机器人系统形成一个期望的队形，相应的任务函数、期望任务和任务雅可比矩阵可分别表示为：

　　[sigma_{FM, i}=left[left(p_{i}-p_{c}-p_{i}^{c} ight)^{T} heta_{i} ight]^{T} in mathbb{R}^{3}]

　　[sigma_{FM, d, i}=left[left(p_{c, d}-p_{c} ight)^{T} heta_{d} ight]^{T} in mathbb{R}^{3}]

　　[J_{FM, i}=left[egin{array}{cc}frac{N-1}{N} I_{2} & 0_{2×1} \ 0_{1×2} & 1end{array} ight] in mathbb{R}^{3×3}]

　　其中，(p_{c}=sum_{i=1}^{N} p_{i} in mathbb{R}^{2})是编队质心的位置，(p_{i}^{c} in mathbb{R}^{2})是编队质心与第(i)个差速机器人的相对位置，(p_{c, d} in mathbb{R}^{2})是编队质心的期望位置，( heta_{d}=arctan left|p_{c, d}-p_{c} ight| in mathbb{R})是编队的期望方向，(I)表示单位矩阵，(0)表示零矩阵。

　　- **编队重构行为(FR)**：类似于编队保持行为，亦是全局行为，旨在驱使多差速机器人系统重构一个期望的队形，相应的任务函数、期望任务和任务雅可比矩阵分别表示为：

　　[sigma_{FR, i}=left[left(p_{i}-p_{c}-Gamma_{FR, i} p_{i}^{c} ight)^{T} heta_{i} ight]^{T} in mathbb{R}^{3}]

　　[sigma_{FR, d, i}=left[left(p_{c, d}-p_{c} ight)^{T} heta_{d} ight]^{T} in mathbb{R}^{3}]

　　[J_{FR, i}=left[egin{array}{cc}frac{N-1}{N} I_{2} & 0_{2×1} \ 0_{1×2} & 1end{array} ight] in mathbb{R}^{3×3}]

　　其中，(Gamma_{FR, i} in mathbb{R}^{2×2})是第(i)个差速机器人的编队重构矩阵。

　　- **避障行为(OA)**：避障行为是一个局部行为，旨在驱使多差速机器人系统避开路径附近的障碍物，相应的任务函数、期望任务和任务雅可比矩阵分别表示为：

　　[sigma_{OA, i}=left[min left{d_{i}^{o} ight} heta_{i} ight]^{T} in mathbb{R}^{2}]

　　[sigma_{OA, d, i}=left[egin{array}{ll}d_{OA} & heta_{OA, i}end{array} ight]^{T} in mathbb{R}^{2}]

　　[J_{OA, i}=left[egin{array}{ll}Gamma_{OA, i}^{T} & 0 \ 0_{1×2} & 1end{array} ight] in mathbb{R}^{2×3}]

　　其中，(min left{d_{i}^{o} ight} in mathbb{R})是第(i)个差速机器人与障碍物的最小距离，(d_{OA} in mathbb{R})是避障的安全距离，( heta_{OA, i}=arctan left|p_{i, min }^{o} ight| pm frac{pi}{2} in mathbb{R})是避障的期望方向，“+”和“-”分别表示障碍物在第(i)个差速机器人的左侧和右侧，(Gamma_{OA, i}=frac{p_{i, min }^{o}}{min left{d_{i}^{o} ight}} in mathbb{R}^{1×2})，(p_{i, min }^{o} in mathbb{R}^{2})是第(i)个差速机器人与障碍物之间最小距离对应的位置向量差。

　　2.2 复合行为设计

　　复合行为是多个基本行为按照一定行为优先级顺序零空间投影的组合。定义(hat{j} in N_{M})表示行为优先级顺序，(N_{M}={1, cdots, M})。定义一个与时间相关的行为优先级顺序函数(h_{i}(hat{j}, t): N_{M} imes[0, infty] o N_{M})。此外，基本行为满足行为分层规则如下：

　　1. 一个具有(h_{i}(hat{j}_{alpha}, t))行为优先级的基本行为不能干扰一个具有(h_{i}(hat{j}_{eta}, t))行为优先级的基本行为，如果(h_{i}(hat{j}_{alpha}, t) ≥h_{i}(hat{j}_{eta}, t))，对于(forall hat{j}_{alpha}, hat{j}_{eta} in N_{M})，(hat{j}_{alpha} ≠hat{j}_{eta});

　　2. 系统速度到任务速度的映射关系可由任务雅可比矩阵(J_{h_{i}(j, t)} in mathbb{R}^{m_{j}×n})表示;

　　3. 具有最低行为优先级的基本行为维度(m_{M})可能大于(m_{total }-sum_{j=1}^{M-1} m_{j})，因此期望维度(m_{total })大于所有基本行为的总维度;

　　4. (h_{i}(hat{j}, t))的数值由任务监管器根据任务需求和传感器信息进行决策与分配。

　　在每个采样周期，一旦基本行为的行为优先级确定和分配完成，复合行为的参考速度指令可通过一个递归方案计算：

　　[V_{r, i}=Theta_{i}^{ddagger}left(X_{i, 1}+sum_{j=2}^{M} overline{J}_{i, 1, j-1} X_{i, j} ight)]

　　[overline{J}_{i, 1, j-1}=I_{3}-J_{i, 1, j}^{dagger} J_{i, 1, j}]

　　[J_{i, 1, j}=left[J_{i, 1}^{T}, J_{i, 2}^{T}, cdots, J_{i, j}^{T} ight]^{T}]

　　其中，下标(hat{j})是行为优先级顺序，(overline{J}_{i, 1, j-1} in mathbb{R}^{3×3})是增广雅可比矩阵的零空间投影算子，(J_{i, 1, j} in mathbb{R}(sum_{l=1}^{k} m_{l}) ×3)表示增广雅可比矩阵。

　　经典NSBC方法使用质点模型，形如(dot{X}_{i}=V_{i})，其中(X_{i}=[p_{x, i}, p_{y, i}, heta_{i}]^{T} in mathbb{R}^{3})表示广义位置，(V_{i}=[v_{x, i}, v_{y, i}, dot{ heta}_{i}]^{T} in mathbb{R}^{3})表示广义速度，且它们的维度是相同的。基于质点模型，经典NSBC方法的基本行为和复合行为分别计算如下：

　　[V_{i, j}=J_{i, j}^{dagger}left(dot{sigma}_{d, i, j}+Lambda_{i, j} ilde{sigma}_{i, j} ight)]

　　[V_{t, i}=X_{i, 1}+sum_{j=2}^{M} overline{J}_{i, 1, j-1} X_{i, j}]

　　其中，上述两式均不包含非完整约束矩阵，因此经典NSBC方法的基本行为和复合行为指令均不满足非完整约束，且不符合多差速机器人的运动学方程。为此，本文首次将欠驱动模型引入NSBC框架中，代替质点模型以改进任务设计，并推导了具有非完整约束的NSBC范式，其中基本行为和复合行为的参考速度指令分别如相关公式所示。由于所提出的非完整约束的NSBC框架考虑了非完整约束矩阵，因此基本行为和复合行为的参考指令均满足非完整约束，且符合多差速机器人的运动学方程。首次体现在改进了NSBC的任务设计范式，从而使得基本行为和复合行为指令均满足非完整约束，且适用于多差速机器人。

　　3 多智能体强化学习任务监管器设计

　　由于NSBC方法通常在任务层是集中式的，因此可将行为优先级切换问题建模为一个协作式的马尔可夫博弈问题，其中所有差速机器人共享一个团队奖励。MARLMS是基于宽松Q学习(Lenient DQN)算法进行设计的，其整体框图包含联合策略学习、行为控制器、仿真环境、多差速机器人系统等模块，伪代码明确了训练流程，其中(lambda)表示先前学习Q值的个数。

　　定义联合状态集合和联合行为集合分别为(S={s_{t}})和(B={b_{t}})，其中(s_{t}=[overline{X}_{t}^{T}, overline{P}_{t}^{T}, G_{t}] in mathbb{R}^{4N+1})，(overline{X}_{t}=[overline{X}_{1}^{T}, overline{X}_{2}^{T}, cdots, overline{X}_{N}^{T}]^{T} in mathbb{R}^{3N})表示多差速机器人系统的联合广义位置，(overline{P}_{t}=[ar{P}_{1}, ar{P}_{2}, cdots, ar{P}_{N}]^{T} in mathbb{R}^{N})表示联合行为优先级标识，(ar{P}_{i} in mathbb{R})表示第(i)个差速机器人的行为优先级标识，每一个行为优先级标识对应一个行为优先级的顺序，(G_{t} in mathbb{R})表示编队标识，(G_{t}=0)表示当前多差速机器人系统未形成编队，(G_{t}=1)表示当前多差速机器人系统正在重构队形，(G_{t}=2)表示当前多差速机器人系统正在形成编队，(G_{t})的数值可根据多差速机器人系统与质心的相对位置判断，(b_{t}=[V_{r, 1}^{T}, V_{r, 2}^{T}, cdots, V_{r, N}^{T}] in mathbb{R}^{2N})。然后，MARLMS的奖励函数设计如下：

　　[r_{t}=r_{1}+r_{2}]

　　[r_{1}=egin{cases} -10, & G_{t}=0, min left{d_{i}^{o} ight} leq d_{OA}, exists i=1, cdots, N \ 0, & G_{t}=0, min left{d_{i}^{o} ight}>d_{OA}, forall i=1, cdots, N \ -10, & G_{t}=1, min left{d_{i}^{o} ight} leq d_{OA}, exists i=1, cdots, N \ +5, & G_{t}=1, min left{d_{i}^{o} ight}>d_{OA}, forall i=1, cdots, N \ -10, & G_{t}=2, min left{d_{i}^{o} ight} leq d_{OA}, exists i=1, cdots, N \ +10, & G_{t}=2, min left{d_{i}^{o} ight}>d_{OA}, forall i=1, cdots, N end{cases}]

　　[r_{2}= egin{cases}0, & overline{P}_{t+1}=overline{P}_{t} \ -3, & overline{P}_{t+1} eq overline{P}_{t}end{cases}]

　　其中，奖励函数(r_{t})由(r_{1})和(r_{2})两部分组成，(r_{1})的设计是以实现任务为目标，(r_{2})的设计是为了减少行为优先级切换次数。具体而言，由于任务目标包含形成期望的编队和避开路径上的障碍物，因此(r_{1})的设计与是否形成期望的队形、是否避开障碍物和是否形成临时的重构队形相关。因为智能体的安全性在任务执行过程中是最重要的，所以只要有智能体违反安全约束，无论它们是否形成编队，团队就会得到一个-10的奖励。-10的奖励旨在驱使多差速机器人优先选择避障。当多差速机器人未违反安全约束时，奖励应该聚焦于驱使多差速机器人形成编队：若多差速机器人形成了期望的队形，那么团队将接收到+10的奖励;若多差速机器人形成了临时的重构队形，那么团队将接收到+5的奖励;否则，团队将接收零奖励。+10的奖励旨在鼓励多差速机器人形成期望队形以实现任务目标，而+5的奖励旨在鼓励多差速机器人在无法同时形成期望队形和避开障碍物的情况下，探索形成其他可能的队形以完成避障。(r_{2})的设计比较简单，其旨在减少行为优先级切换次数，若当前行为优先级与先前采样的一致，那么团队将收到-3的奖励;否则，团队将接收零奖励。

　　多差速机器人系统与环境在(t)时间步交互，它们观测到联合状态(s_{t})，基于一个(ar{T}(phi(s_{t})))贪婪策略选取联合行为(b_{t})，接收一个团队奖励(r_{t})，且转移至下一个联合状态(s_{t+1})。(ar{T}(phi(s_{t})))贪婪策略是指多差速机器人系统以一个(ar{T}^{zeta}(phi(s_{t})))的概率选取一个随机的联合行为(b_{t})，并以一个(1-ar{T}^{zeta}(phi(s_{t})))的概率选取Q值最大的联合行为(b_{t}=arg max _{b} Q_{t-1}^{B}(s_{t}, b))，(zeta)是一个指数。然后，该经历会存储到经验池(D)中，并使用一个宽松值(L(s_{t}, b_{t}) in mathbb{R})标记如下：

　　[mathcal{L}left(s_{t}, b_{t} ight)=1-e^{-kappa_{mathcal{L}} T_{t}left(phileft(s_{t} ight), b_{t} ight)}]

　　[T_{t+1}left(phileft(s_{t} ight), b_{t} ight)=gamma_{mathcal{L}} T_{t}left(phileft(s_{t} ight), b_{t} ight)]

　　[gamma_{mathcal{L}}=e^{ ho_{gamma} d_{gamma}}]

　　其中，(kappa_{L})是宽松值的适度因子，(T_{t}(phi(s_{t}), b_{t}))是衰减温度，(phi(cdot))是哈希自动编码函数，(gamma_{L})是折扣系数，( ho_{gamma})是温度指数，(d_{gamma})是衰减率。

　　由于Q值的估计过高会破坏正确的学习，因此引入Dueling网络结构和平均Q值思想提升Q值的估计精度和学习的稳定性，根据宽松值(L_{t})计算Q值：

　　[Qleft(s_{t}, b_{t} ight)= egin{cases}Qleft(s_{t}, b_{t} ight)+alpha_{t} delta_{t}, & delta_{t}>0 或 vartheta>mathcal{L}_{t} \ Qleft(s_{t}, b_{t} ight), & delta_{t} leq 0 且 vartheta leq mathcal{L}_{t}end{cases}]

　　其中，(alpha_{t} in(0,1))是学习率，(vartheta sim U(0,1))表示一个随机变量，(delta_{t}=y_{s_{t}, b_{t}}-Q_{t-1}^{B}(s_{t}, b_{t}))是时序差分误差，(y_{s_{t}, b_{t}}=E_{D}[r+gamma max _{b_{t+1}} Q_{t-1}^{B}(s_{t+1}, b_{t+1}) | s_{t}, b_{t}])。

　　MARLMS的离线训练会在所有回合结束后停止。最后，所学习的联合策略指导多差速机器人系统在实际场景中选择最优的联合行为优先级。在每个采样周期，当联合行为优先级确定后，多差速机器人系统的参考速度指令可根据相关公式计算。

　　在NSBC框架中，FSAMS、MPCMS和RLMS是主流的任务监管器。FSAMS将复合行为隐藏于有限状态机的状态中，通过设计状态转移规则实现行为优先级切换，其易于实施，但依赖人类智能。MPCMS将行为优先级的切换问题描述为模式切换最优控制问题，且通过混合整数优化控制算法求解该问题，其降低了对人类智能的依赖，但对高性能硬件计算平台依赖强。相关研究提出的RLMS将行为优先级切换问题建模为马尔可夫决策过程，降低了对人类智能和计算平台的依赖，但是最大化了个体性能，且无法实施局部行为，具有很强的局限性。本文在RLMS的基础上，首次将优先级切换问题建模为马尔可夫博弈问题，不仅能学习最优的联合行为优先级策略，而且能最大化团队性能，克服了RLMS无法实施全局行为的致命缺陷。首次体现在行为优先级切换问题的建模上，以及联合策略学习的思想，从而最大化团体性能而非个体性能，且允许实施全局行为，达到群体协作。

　　4 数值仿真

　　4.1 仿真配置

　　本节设置了一个数值仿真案例，其中控制对象为3个多差速机器人系统，其运动学方程如相关公式所示，控制目标为3个机器人以编队的形式移动至目标位置同时避开路径上的障碍物。所有差速机器人均假设具有探测工作环境的能力。为了验证所提出方法的有效性和优越性，进行了3组对比仿真测试，包括MARLMS学习前后对比、所提出具有非完整约束的NSBC与经典NSBC方法对比，以及MARLMS与现有主流任务监管器的对比分析。MARLMS的网络结构内嵌了Dueling网络结构，即Q值网络分解为一个状态值函数网络和一个行为优势网络，以提升Q值的估计精度。

　　4.2 具有非完整约束的NSBC方法与经典NSBC方法对比

　　本节对比了所提出的具有非完整约束的NSBC方法与经典NSBC方法的仿真结果。由于经典NSBC方法以质点模型建模智能体的运动学，因此忽略了位置和方向间的耦合，智能体可以在不改变角度的情况下到达任意位置。将经典NSBC方法直接应用于多差速机器人系统时，智能体容易陷入最小极值状态。仿真结果显示了当障碍物处于智能体的正前方时，经典NSBC方法不会改变智能体的方向，从而导致智能体进入最小极值状态且无法摆脱，进而造成任务目标的失败。所提出的具有非完整约束的NSBC方法采用差速模型建模智能体的运动学，该模型考虑了智能体位置和方向间的耦合，能远比质点模型更为精确地描述多差速机器人系统。仿真结果显示了当智能体遭遇障碍物时，本文提出的具有非完整约束的NSBC方法会给出改变智能体方向的参考指令，从而从最小极值状态中快速离开，进而完成预定的任务目标。该仿真对比证明了本文方法比经典NSBC方法更适用于多差速机器人系统，且对最小极值状态的鲁棒性更强。

　　4.3 本文MARLMS与现有主流任务监管器对比

　　本节对比了本文MARLMS与现有主流任务监管器的仿真结果，包括FSAMS、MPCMS和RLMS。对于FSAMS，第(i)个差速机器人的切换规则设计如下：如果满足(d_{OA}

　　仿真对比结果表明，MPCMS的平均迭代时间远高于其他任务监管器，因为其在每个采样周期内均需要在线求解最优行为优先级。FSAMS只使用多差速机器人系统的当前状态信息且在状态转移阈值附近存在开关效应，导致多差速机器人系统的轨迹存在抖振且行为优先级存在不理想的切换，有时会违反安全约束。相较于FSAMS，MARLMS学习一个联合的行为优先级策略，在任务执行过程中能智能且动态地切换行为优先级，因而轨迹是光滑的，且行为优先级切换结果是理想的。MPCMS和MARLMS均实现了预定的任务目标，且二者的行为优先级切换性能十分接近，根本原因是它们均使用了多差速机器人系统的未来状态。RLMS只适用于单智能体系统，虽然能够避开路径附近的障碍物，但是无法形成编队和实现任务目标。

　　性能指标统计显示，相较于FSAMS，MARLMS的平均行为优先级切换次数和平均安全约束违反次数更少，即行为优先级切换的性能更佳。相较于MPCMS，MARLMS的平均在线迭代时间更短，即实时性更佳。相较于RLMS，MARLMS成功完成了任务目标，而RLMS失败了，因此MARLMS的群体性能更佳。该仿真对比结果证明了本文MARLMS的优越性，其不仅避免了人工设计优先级切换规则，而且大幅度降低了在线计算量和保证了实时性。

　　MARLMS的运行时间可分为离线训练阶段和在线执行阶段。在离线训练阶段，MARLMS需要完成100000回合的训练，使用core-i7的惠普笔记本电脑，一回合的训练用时大约在1s左右，总训练时长大约在27h左右。离线训练阶段可以使用高性能电脑或云端计算来加快训练速度，也可以使用并行计算框架协同计算来减少每台电脑的训练总回合数。在线执行阶段，MARLMS只需要调用离线学习到的策略完成行为优先级切换，每次采用的平均迭代时间为0.55ms，足够保证行为优先级决策的实时性。实验结果表明了多差速机器人未遭遇决策时延的问题，从而验证了MARLMS的实时性能够满足需求。

　　4.4 未知障碍物场景的仿真测试

　　因为未知障碍物在强化学习的离线训练阶段是无法获取的，所以任务性能完全依赖于行为优先级策略的泛化性。针对未知障碍物的案例，需要在MARLMS的状态集合中补充第(i)个差速机器人与障碍物的最小距离，即避障行为中的(min left{d_{i}^{o} ight})。由于原状态集合只包含多差速机器人和编队的状态，因此对环境的表征并不充分，而扩充状态集合并未改变算法的整体框架，且若使用视觉或者图像等更高维度信息作为状态集合的元素，那么在实际多差速机器人应用时其任务性能会更佳。

　　在该案例中，部分障碍物设置为未知障碍物，因此在离线训练时，它们对于多差速机器人是未知的。仿真结果显示，即使部分障碍物对于离线训练阶段是未知的，只要环境状态表征得足够充分，那么所学习的策略也能够凭借算法的泛化性保证多差速机器人完成预定的任务目标。

　　4.5 离线训练和在线执行环境不一致的仿真测试

　　在离线训练和在线执行环境不一致时的仿真测试中，离线训练环境使用先前的仿真配置，而在线执行环境不包含部分障碍物，且增加了2个新的障碍物。MARLMS先在离线环境中学习至收敛，再将学习的策略应用于在线执行环境，仿真结果验证了多差速机器人系统仍能避开障碍物且实现任务目标。因为避开路径附近的障碍物是通过OA行为实现的，所以无论离线训练和在线执行环境是否一致，多差速机器人系统在遭遇障碍物时都会执行OA行为以避开障碍物。然而，行为优先级存在不理想的切换，由于离线环境和在线执行环境是不一致的，因此MARLMS的联合行为优先级策略对于在线执行环境不是最优的，所以必然会存在不合理的行为优先级切换。为此，需要MARLMS在在线任务环境中利用所得到的经历进行学习，从而获取在线环境下的最优策略。

　　4.6 5个差速机器人系统案例的仿真测试

　　5个差速机器人系统的编队质心期望轨迹、编队相对位置和编队重构矩阵均有明确设定。MARLMS完成离线训练后的仿真结果显示，5个差速机器人系统可以通过执行FM、FR和OA行为，形成期望队形且避开路径附近的障碍物，均不会违反安全约束，在任务过程中始终与障碍物保持安全距离，行为优先级切换是理想的，不存在不合理的行为优先级切换。上述仿真结果验证了所提出的MARLMS具有一定的可扩展性。此外，MARLMS可以通过云平台或并行训练加快学习。由于状态空间和行为空间随智能体数量呈指数增长，因此MARLMS不适用于大规模系统。

　　5 实验验证

　　5.1 实验配置

　　实验配置中，每个AgileX Limo机器人均设置为差速模式。在任务执行过程中，多AgileX Limo机器人系统使用激光雷达探测障碍物。中央计算机分别使用WiFi和动作捕捉相机通过运行一个Python编码的MARLMS程序来获取传感器信息和AgileX Limo机器人位置信息。然后，中央计算机基于接收到的传感器和位置信息计算多AgileX Limo机器人系统的联合行为优先级。之后，中央计算机将位置信息和联合行为优先级发送给每个AgileX Limo机器人。根据接收到的位置信息和联合行为优先级，每个AgileX Limo机器人使用工控机(NVIDIA Jetson Nano)计算参考速度命令。最后，多AgileX Limo机器人系统执行参考速度命令，且中央计算机接收新的传感器和位置信息。整个过程一直持续至多AgileX Limo机器人系统移动到预定的目标位置。

　　在整个实验环节中，MARLMS需要先在离线环境中训练，直至网络收敛且学习到一个联合行为优先级策略。在训练完成后，再将MARLMS导入实际的多差速机器人中，以在线指导智能体智能地切换行为优先级。

　　5.2 实验结果

　　本文MARLMS在多AgileX Limo机器人系统上的实验验证结果显示，多AgileX Limo机器人系统在起始阶段未形成编队，因此FM行为是最高优先级，旨在驱使系统形成期望的队形;在执行任务32s时，已经形成了期望的队形，且以编队形式向预定的目标位置移动;当遭遇障碍物群时，重构了新的队形，以协同的方式避开路径上的障碍物;当遭遇单个障碍物时，1号AgileX Limo机器人会切换OA行为作为最高优先级以避障，而其他AgileX Limo机器人会维持编队。

　　FSAMS和MPCMS的实验结果显示，FSAMS的行为优先级切换最为频繁，导致多差速机器人在队形切换时轨迹不光滑，以及在避障时违反安全规则。MPCMS的实时性最差，导致多差速机器人无法在90s的任务时间内移动至目标位置。相较于FSAMS和MPCMS，本文MARLMS兼顾了行为优先级的切换性能和算法的实时性。实验结果验证了本文MARLMS的有效性、优越性和实用性。

　　离线训练的结果图是轨迹完美跟踪时的理想结果图，而实际AgileX Limo机器人系统的结果图由于地面摩擦力和系统内部扰动的存在，跟踪性能不可能是完美的，但行为优先级切换性能是一致的，因此MARLMS的最优行为优先级策略是有效的。

　　6 结论

　　针对基于行为的多差速机器人系统提出了一个新颖的MARLMS，通过学习一个联合的行为优先级策略，在任务执行过程中智能且动态地决策行为优先级。通过引入差速模型代替质点模型，提升了NSBC方法对于最小极值状态的鲁棒性，且更适用于多差速机器人系统。通过学习一个最优的联合行为优先级策略，不仅打破了单机器人系统只能进行独立学习的限制，允许更多学习者加入并通过合作完成全局行为，而且降低了人工设计行为优先级切换规则的负担和对高性能硬件平台在线计算和存储能力的依赖。

　　未来的工作是将NSBC方法的任务层改进为分布式，且在拓扑结构限制下学习一组分布式的最优行为优先级策略，弱化NSBC方法的集中式，且提升可扩展性。本文沿用经典NSBC法的框架，因此MARLMS的任务层采用集中模式、控制层采用分散模式，存在隐含集中模式的致命缺陷，极大地限制了方法的可扩展性。为了解决可扩展问题，分布式系统是最为常用的手段之一。然而，行为控制系统的分布式化，不是简单地使用分布式多智能体强化学习算法就可以解决的，因为其在任务层和控制层均是分布式的。分布式行为控制框架设计的难点包括协作式任务的分布式化、分布式行为优先级策略学习的强化学习问题建模、拓扑结构的切换问题和奖励函数的设计问题等。分布式任务监管器的设计问题存在诸多难点，这是未来的重点研究内容。

　　参考文献

　　[1] HU J Q, ZHANG Y M, RAKHEJA S. Adaptive trajectory tracking for car-like vehicles with input constraints[J]. IEEE Transactions on Industrial Electronics, 2022, 69(3): 2801-2810.

　　[2] QIN B, YAN H C, ZHANG H, et al. Enhanced reduced-order extended state observer for motion control of differential driven mobile robot[J]. IEEE Transactions on Cybernetics, 2023, 53(2): 1299-1310.

　　[3] YU X, SU R. Decentralized circular formation control of nonholonomic mobile robots under a directed sensor graph[J]. IEEE Transactions on Automatic Control, 2023, 68(6): 3656-3663.

　　[4] 王伟嘉, 郑雅婷, 林国政, 等. 集群机器人研究综述[J]. 机器人, 2020, 42(2): 232-256.

　　[5] GARATTONI L, BIRATTARI M. Autonomous task sequencing in a robot swarm[J]. Science Robotics, 2018, 3(20). DOI: 10.1126/scirobotics.aat0430.

　　[6] 李勇, 李坤成, 孙柏青, 等. 智能体Petri网融合的多机器人-多任务协调框架[J]. 自动化学报, 2021, 47(8): 2029-2049.

　　[7] MUSIĆ S, HIRCHE S. Control sharing in human-robot team interaction[J]. Annual Reviews in Control, 2017, 44: 342-354.

　　[8] XU L, XU Q M, CHEN C L, et al. Efficient task-network scheduling with task conflict metric in time-sensitive networking[J]. IEEE Transactions on Industrial Informatics, 2024, 20(2): 1528-1538.

　　[9] 王峰, 张衡, 韩孟臣, 等. 基于协同进化的混合变量多目标粒子群优化算法求解无人机协同多任务分配问题[J]. 计算机学报, 2021, 44(10): 1967-1983.

　　[10] BROOKS R A. New approaches to robotics[J]. Science, 1991, 253(5025): 1227-1232.

　　[11] 王义萍, 陈庆伟, 胡维礼. 机器人行为选择机制综述[J]. 机器人, 2009, 31(5): 472-480.

　　[12] 居鹤华, 崔平远, 刘红云. 基于自主行为智能体的月球车运动规划与控制[J]. 自动化学报, 2006, 32(5): 704-712.

　　[13] REZAEE H, ABDOLLAHI F. A decentralized cooperative control scheme with obstacle avoidance for a team of mobile robots[J]. IEEE Transactions on Industrial Electronics, 2014, 61(1): 347-354.

　　[14] MAC T T, COPOT C, DE KEYSER R, et al. MIMO fuzzy control for autonomous mobile robot[J]. Journal of Automation and Control Engineering, 2016, 4(1): 65-70.

　　[15] ANTONELLI G, CHIAVERINI S. Kinematic control of platoons of autonomous vehicles[J]. IEEE Transactions on Robotics, 2006, 22(6): 1285-1292.

　　[16] MUSCIO G, PIERRI F, TRUJILLO M A, et al. Coordinated control of aerial robotic manipulators: Theory and experiments[J]. IEEE Transactions on Control Systems Technology, 2018, 26(4): 1406-1413.

　　[17] HUANG J, ZHOU N, CAO M. Adaptive fuzzy behavioral control of second-order autonomous agents with prioritized missions: Theory and experiments[J]. IEEE Transactions on Industrial Electronics, 2019, 66(12): 9612-9622.

　　[18] WANG W J, LI C J, GUO Y N. Relative position coordinated control for spacecraft formation flying with obstacle/collision avoidance[J]. Nonlinear Dynamics, 2021, 104: 1329-1342.

　　[19] ZHOU N, CHENG X D, SUN Z Q, et al. Fixed-time cooperative behavioral control for networked autonomous agents with second-order nonlinear dynamics[J]. IEEE Transactions on Cybernetics, 2022, 52(9): 9504-9518.

　　[20] YAO P, WEI Y X, ZHAO Z Y. Null-space-based modulated reference trajectory generator for multi-robots formation in obstacle environment[J]. ISA Transactions, 2022, 123: 168-178.

　　[21] ZHENG C B, PANG Z H, WANG J X, et al. Null-space-based time-varying formation control of uncertain nonlinear second-order multi-agent systems with collision avoidance[J]. IEEE Transactions on Industrial Electronics, 2023, 70(10): 10476-10485.

　　[22] MARINO A, CACCAVALE F, PARKER L E, et al. Fuzzy behavioral control for multi-robot border patrol[C]//17th Mediterranean Conference on Control and Automation. Piscataway, USA: IEEE, 2009: 246-251.

　　[23] CHEN Y T, ZHANG Z Y, HUANG J. Dynamic task priority planning for null-space behavioral control of multi-agent systems[J]. IEEE Access, 2020, 8: 149643-149651.

　　[24] WANG W, GUO J Y, TIAN G Q, et al. Event-triggered intervention framework for UAV-UGV coordination systems[J]. Machines, 2021, 9(12). DOI: 10.3390/machines9120371.

　　[25] ZHANG Z Y, MO Z B, CHEN Y T, et al. Reinforcement learning behavioral control for nonlinear autonomous system[J]. IEEE/CAA Journal of Automatica Sinica, 2022, 9(9): 1561-1573.

　　[26] HUANG J, MO Z B, ZHANG Z Y, et al. Behavioral control task supervisor with memory based on reinforcement learning for human-multi-robot coordination systems[J]. Frontiers of Information Technology & Electronic Engineering, 2022, 23: 1174-1188.

　　[27] VAN DANG C, AHN H, KIM J W, et al. Collision-free navigation in human-following task using a cognitive robotic system on differential drive vehicles[J]. IEEE Transactions on Cognitive and Developmental Systems, 2023, 15(1): 78-87.

　　[28] CHEN Y, LI Z J, KONG H Y, et al. Model predictive tracking control of nonholonomic mobile robots with coupled input constraints and unknown dynamics[J]. IEEE Transactions on Industrial Informatics, 2019, 15(6): 3196-3205.

　　[29] WEI E M, LUKE S. Lenient learning in independent-learner stochastic cooperative games[J]. The Journal of Machine Learning Research, 2016, 17(1): 2914-2955.

转载请注明来自：http://www.lunwencheng.com/lunwen/lig/22696.html

上一篇：光稳定剂在微塑料紫外老化过程中的释放及潜在风险

下一篇：改性聚脲涂料的制备及其在发泡聚丙烯中的应用

常见问题

基于行为的多差速机器人强化学习任务监管器设计

常见问题

出书与专利

EI和SCOPUS

sci和ssci

国外出书

各行业核心期刊快速入口