进化操作行为学习模型及在移动机器人避障上的应用

时间:2022-03-03 10:21:46 党史学习 浏览次数:

摘 要:针对移动机器人避障上存在的自适应能力较差的问题,结合遗传算法(GA)的进化思想,以自适应启发评价(AHC)学习和操作条件反射(OC)理论为基础,提出了一种基于进化操作行为学习模型(EOBLM)的移动机器人学习避障行为的方法。该方法是一种改进的AHC学习模式,评价单元采用多层前向神经网络来实现,利用TD算法和梯度下降法进行权值更新,这一阶段学习用来生成取向性信息,作为内在动机决定进化的方向;动作选择单元主要用来优化操作行为以实现状态到动作的最佳映射。优化过程分两个阶段来完成,第一阶段通过操作条件反射学习算法得到的信息熵作为个体适应度,执行GA学习算法搜索最优个体;第二阶段由OC学习算法选择最优个体内的最优操作行为,并得到新的信息熵值。通过移动机器人避障仿真实验,结果表明所设计的EOBLM能使机器人通过不断与外界未知环境进行交互主动学会避障的能力,与传统的AHC方法相比其自学习自适应的能力得到加强。

关键词:移动机器人;自适应启发评价;操作条件反射;遗传算法;避障

中图分类号: TP242

文献标志码:A

0 引言

移动机器人研究的最终目标是机器人能够在未知环境导航中通过不断增加经验改善行为而具备高度自治的能力。常用的移动机器人避障方法主要有人工势场法、环境地图法、神经网络法和模糊逻辑算法[1-4]。但由于已有算法不同程度地存在一定局限性,诸如搜索空间大、算法复杂、效率不高等,尤其对于未知环境,不少算法的复杂度会大大增加,甚至无法求解。而机器学习的方法为复杂环境的知识获取提供了有效的解决途径[5-7]

与已有的监督学习和无监督学习方法不同的是,增强学习可以利用与环境的交互而获得的评价性反馈信号来实现系统优化的性能,是一种试错学习的方式。Sutton等[8]在Barto等的研究基础上提出了自适应启发评价(Adaptive Heuristic Critic, AHC)方法。AHC学习系统通常由自适应评价单元(Adaptive Critic Element, ACE)和动作选择单元(Adaptive Selection Element,ASE)组成。此后,一些学者对AHC学习算法作了进一步的研究,扩大了AHC的应用领域[9-13]。但是,因为传统的AHC方法没有生物学上的约束,只是为解决不同的问题而设计的,还不完全像动物学习。Touretzky等[14]指出用增强学习方法训练的移动机器人还不完全与动物的先进性、功能性和适应性相像。而仿生学习作为一种可以不需要环境模型,无导师的在线学习方法,对实现机器人自学习、自适应能力具有重要的研究价值。Gutnisky等[15]受神经生理学、心理学和动物行为学启发设计了一种学习避障的行为选择模型,为研究新的仿生学习方法提供了一种思路。本文正是在传统AHC方法基础上,引入神经心理学上操作条件反射理论和生物学上进化机制作为约束,建立一种仿生学习方法,使机器人像人或动物一样具有自主学习复杂环境的能力。

Touretzky等[14]提出的操作条件反射(Operant Conditioning, OC)被认为是生物系统最基本的学习形式,增强学习的思想也来源于此。其核心内容为:某一操作行为一旦受到其结果的强化,则该行为发生的概率就会增加。操作条件反射这一概念的特点在于,它强调行为结果对行为的影响。自20世纪90年代中期开始, 美国卡内基梅隆大学(CMU)机器人学研究所主要研究关于Skinner OC的计算理论和计算模型, 期望这种模型能复制动物学习操作或控制的实验;然后在机器人上实现这种模型, 使其成为可训练的机械[16]。1997年,美国波士顿大学Neurobotics实验室的Gaudiano等[17]针对一个实际的轮式机器人Khepera的导航问题,建立了一个Pavlov理论与Skinner理论相结合的神经计算模型,Khepera不需要任何先验知识和教师信号,即可在巡航过程中学习规避障碍。2005年,日本早稻田大学机械工程系机器人研究小组Itoh等[18]为人性化机器人(Humanoid Robot)设计了一种基于OC操作条件反射的新行为模型,发展了Hull行为理论来作为Sinner操作条件反射理论的数学模型,并使WE4RII能在其预先制定的行为列表范围内,自主地选择合适特定情景的行为模式。但是, 这些计算理论和计算模型没有给出具体的数学计算模型, 不具备泛化能力, 应用受到了限制。

以概率自动机为平台,蔡建羡等[19]用其来模拟操作条件反射机制,设计了相应的仿生系统,给出了具体的数学计算模型,并成功实现了两轮机器人的平衡控制;

同时蔡建羡等还把OC与GA相结合,提出了一种操作条件反射模型,并对其进行了初步的研究,用于解决两轮机器人自平衡问题。

但在解决避障问题上引入生物学上的GA和OC,还未见到相关的研究,本文以此为基础,在AHC学习框架下,引入了遗传算法的进化思想,提出了一种进化操作学习模型来模拟生物OC学习机制,使机器人像动物一样具有高度的自学习自适应能力。评价单元(ACE)采用多层前向神经网络来实现,用TD(λ)算法和梯度下降法进行权值更新,提高了神经网络的学习速率。

动作选择单元(ASE)由遗传算法优化的操作行为规则集合构成,分为两个学习阶段来完成:第一阶段通过操作条件反射学习算法得到的信息熵作为个体适应度,执行GA搜索最优个体,从而通过进化得到最优的操作行为集合;第二阶段由OC学习算法选择最优个体内的最优操作行为,并得到新的信息熵值,指导最优个体的生成。最后将本文方法应用于移动机器人学习避障行为中,使机器人在无教师信号指导的情况下,通过不断与环境交互来学习行为能力,从而实现在未知障碍物环境中进行无碰自由巡航,习得避障的能力。

1 进化操作行为学习模型结构设计

进化操作学习模型是基于操作条件反射的思想建立的,它是一种仿生的学习模式。本文构建的进化操作学习模型的结构如图1所示。评价单元(ACE)采用多层前向神经网络来实现,利用TD(λ)算法和梯度下降法进行权值更新,其作用是根据外部的原始强化信号rt及当前的状态信号st来对候选的动作进行评价,其输出为V(st),从而构成内部的二次强化信号t,在执行某一选择动作时,系统转移到新状态,ACE单元的输出可用来评价策略的优劣。动作选择单元(ASE)主要用来生成输出动作,通过执行动作使环境状态发生改变,并同时获得来自于环境的外部强化信号rt。ASE分为两个学习阶段来完成:第一阶段通过OC学习算法得到的信息熵作为个体适应度,执行GA搜索最优个体;第二阶段由OC学习算法选择最优个体内的最优操作行为,并得到新的信息熵值。

进化操作学习模型主要有三个学习任务,具体实现过程如下:

第一个学习任务:基于GA学习最优的个体,即最优的操作行为集合。GA用来优化操作行为集合,即在给定的规则前提条件下,通过进化来得到与前提部分最匹配的结论部分。种群中的每个个体表示一个操作行为集合,在这个学习过程中,个体是通过进化学习得来的,这样可节省确定操作行为集合的实验时间,减小人为的干预,使其主动获取,大大增强了系统的自适应和自组织能力。在GA中,种群中的每个个体对操作行为集合进行编码。每个个体都有相应的信息熵值,采用信息熵值作为个体的适应度对个体进行评价,种群中具有最小信息熵值的个体作为最优操作行为集合,以作为下一步选择最优行为的动作集合。

第二个学习任务:基于OC学习最优行为,即状态到动作的最佳映射。在OC中,从上一步学习得到的最优操作行为集合中,通过随机概率学习获得最优的行为,作为系统的控制信号输出。每一个操作行为都有一个概率值与它对应,表示其被选择的几率,由取向性信息对概率值进行更新,操作行为集合中概率值最大的行为其被选择的次数越多,即认为是当前状态下最优的操作行为。

第三个学习任务:基于前馈神经网络生成取向性信息,即决定生物进化的方向。当执行最优操作行为后,系统转移到新状态,并由环境输出原始强化信号值,通过TD(λ)和梯度下降法对前馈神经网络权值进行更新。前向神经网络输出行为动作评价值,来评价该操作行为的优劣,从而构成内部二次强化信号,由状态取向函数获得取向性信息,以作为OC学习中概率值更新的依据,决定进化的方向。

从上述实验结果可以看出,本文所设计的进化操作学习的方法可以较好地实现机器人避碰实验。在与环境不断交互过程中通过经验的不断积累,ACE单元对行为动作结果进行评价,作用于ASE动作单元使其动作选择得到更新学习。ASE包括GA学习和OC学习两个阶段,GA学习阶段获得最优操作行为集合,OC学习阶段习得最优操作行为。结果显示,本文所提出的进化操作学习是一个动态的学习过程,机器人通过不断与环境交互激发子种群从而得到优化的操作行为集合和最优的操作行为,并以进化到的最优操作行为作为避碰行为的控制器,从而完成无障碍巡航的任务。与传统的AHC学习相比,具有高度的自主学习性和自适应性,鲁棒性也较强。

4 结语

本文结合GA的进化思想,模拟操作条件反射学习机制,以自适应启发评价(AHC)学习为框架,设计了一种进化的操作学习模型,并将其应用于移动机器人学习避障行为。与传统的强化学习方法相比,该方法有效地提高了ACE单元的学习速率;同时ASE单元通过自主学习行为动作,无需教师信号或专家知识,具有高度的自主性和自适应能力。使用进化的操作学习方法使机器人学习避碰行为,学习得到的最优操作行为作为机器人避碰行为的控制器,仿真结果表明该方法能够有效地实现无碰巡航,提高了机器人反映的灵活性和对环境的适应性。下一步将重点研究本文方法的可扩展性,使其能够应用于实际复杂的两轮机器人系统,使其在实现运动平衡的同时又能够具有实时避障能力。

参考文献:

[1]王志文, 郭戈.移动机器人导航技术现状与展望[J].机器人, 2003, 25(5): 470-474.

[2]FLOREANO D, MONDADA F. Evolutionary neurocontroller for autonomous mobile robots [J]. Neural Networks, 1998, 11(7/8): 1461-1478.

[3]YEN J, PFLUGER N. A fuzzy logic based extension to Payton and Rosenblatt’s command fusion method for mobile robot navigation [J]. IEEE Transactions on Systems, Man and Cybernetics, 1995, 25(6): 971-978.

[4]KERMICHE S, SAIDI M L, ABBASSI H A. Gradient descent adjusting TakagiSugeno controller for a navigation of robot manipulator [J]. Journal of Engineering and Applied Science, 2006, 1(1): 24-29.

[5]JOO ER M, CHANG D. Obstacle avoidance of a mobile robot using hybrid learning approach [J]. IEEE Transactions on Industrial Electronics, 2005, 52(3): 898-905.

[6]JOO ER M, ZHOU Y. Automatic generation of fuzzy inference systems via unsupervised learning [J]. Neural Networks, 2008,21(10): 1556-1566.

[7]BOUBERTAKH H, TADJINE M, GLORENNEC PY. A new mobile robot navigation method using fuzzy logic and a modified Qlearning algorithm [J]. Journal of Intelligent & Fuzzy Systems, 2010, 21(1/2): 113-119.

[8]SUTTON R S, BARTO A G. Reinforcement learning [M]. London: MIT Press, 1998: 1-12.

[9]SU S F, Hsieh S H. Embedding fuzzy mechanisms and knowledge in boxtype reinforcement learning controllers [J]. IEEE Transactions on Systems, Man and Cybernetics: Part B, 2002,32(5):645-653.

[10]ZEYBEK Z. Role of adaptive heuristic criticism in cascade temperature control of an industrial tubular furnace [J]. Applied Thermal Engineering, 2006, 26(2/3): 152-160.

[11]MUCIENTES M, ALCALAFDEZ J, ALCALA R, et al. A case study for learning behaviors in mobile robotics by evolutionary fuzzy system [J]. Expert Systems with Application, 2010, 37(2): 1471-1493.

[12]DESOUKY S F, SCHWARTZ H M. Selflearning fuzzy logic controllers for pursuitevasion differential games [J]. Robotics and Autonomous Systems, 2011, 59(1): 22-33.

[13]KNUDSON M, TUMER K. Adaptive navigation for autonomous robots [J]. Robotics and Autonomous Systems, 2011, 59(6):410-420.

[14]TOURETZKY D S, SAKSIDA L M. Operant conditioning in Skinnerbots [J]. Adaptive Behavior, 1997, 5(3/4): 219-247.

[15]GUTNISKY D A, ZANUTTO B S. Learning obstacle avoidance with an operant behavior model [J]. Artificial Life, 2004, 10(1):65-81.

【重复14[16]TOURETZKY D S, SAKSIDA L M. Operant conditioning in Skinnerbots [J]. Adaptive Behavior, 1997, 5(3/4): 219-247.

[16]SAKSIDA L M, RAYMOND S M, TOURETZKY D S. Shaping robot behavior using principles from instrumental conditioning [J]. Robotics and Autonomous Systems, 1998, 22(3/4): 231-249.

[17]GAUDIANO P, CHANG C. Adaptive obstacle avoidance with a neural network for operant conditioning: Experiments with real robots [C]// CIRA 97: Proceedings of 1997 IEEE International Symposium on Computational Intelligence in Robotics and Automation. Piscataway: IEEE, 1997:13-18.

[18]ITOH K, MIWA H, MATSUMOTO M, et al. Behavior model of humanoid robots based on operant conditioning [C]// Proceedings of the 5th IEEERAS International Conference on Humanoid Robots. Piscataway: IEEE, 2005: 220-225.

[19]蔡建羡, 阮晓钢.OCPA仿生自主学习系统及在机器人姿态平衡控制上的应用[J].模式识别与人工智能, 2011, 24(1):138-146.

[20]段勇,崔宝侠,徐心如.进化强化学习及其在机器人路径跟踪中的应用[J].控制与决策,2009,24(4):532-536.

推荐访问:机器人 进化 模型 操作 学习