面向人机合作协同的机器人运动技能获取和执行研究

项目来源

国家自然科学基金(NSFC)

项目主持人

傅剑

项目受资助机构

武汉理工大学

项目编号

61773299

立项年度

2017

立项时间

未公开

研究期限

未知 / 未知

项目级别

国家级

受资助金额

63.00万元

学科

信息科学-自动化-自动化检测技术与装置

学科代码

F-F03-F0306

基金类别

面上项目

关键词

示范学习 ; 人机协作 ; 强化学习 ; 轨迹规划 ; 运动技能获取 ; motor skill acquisition ; human-robot collaboration ; trajectory planning ; Learning from demonstration ; reinforcement learning

参与者

向馗；庞牧野；罗璠；陈向成；魏达；曹策；刘冰；杜宇澄

参与机构

武汉理工大学；武汉大学；安徽大学

项目标书摘要：源于巨大的市场需求和前景，人机协作近年来成为机器人领域的前沿和热点。机器人如何学习到人类完成任务的个人偏好并自主适应，是当前亟待解决的问题，也是本项目研究的主要内容。本项目创造性地从机器人运动技能获取和执行视角出发开展研究。.1设计关节/操作空间上冗余的并发行为基元投射人机协作数据，实现在对偶空间上数据面向任务类别的分类聚集和分布，构建融合意图识别、个人偏好学习和适应的一体模型。2基于强化学习框架，结合表征学习的特征抽取、协作者反馈的引导学习来实现行为基元面向指标集的自主、快速适应和优化。3研究设计融合语义信息的操作算子对行为基元进行时空维度的复合，探究结合行为—运动模板库和长短期记忆网络对人体序列运动进行分割和识别，进而实现结合指标集的离散符号序列与连续运动规划的互相转化。.本研究将会揭示人体协作运动技能获得和提高的潜在模式和规律，为人机合作协同的研究提供新的研究方法和思路。

Application Abstract: Due to the huge market demand and charming prospect,the human-robot collaboration has become the cutting edge and hot spot in the field of robotics in recent years.It is an urgent problem for collaborative robot to learn and adapt to people’s preference about the task,which is addressed in this proposal.The principle investigator(PI)adopt a novel perspective,robot’s motor skill acquisition and execution,to conduct the research in this proposal...1)PI will design concurrent behavior primitives with redundancy in the joint and operation space,by which the collaborative data is projected onto the kernel of the behavior primitives.So the data(weight coefficient)in the dual space cluster with respect to the different task and cover a relative domain.In this way,an integrated interaction model for people’s intention identification,preference learning and adaption is constructed...2)Autonomous adaption and optimization of behavior primitive to meet the target is realized via feature extraction by representation learning and reward shaping by people’s feedback in the framework of reinforcement learning...3)Composition of the behavior primitives within the respective spatial and temporal dimensions is studied by introducing the operators with semantic information.Also,segmentation and identification of people’s sequence motions by behavior-motor library and LSTM are investigated.Moreover,interconnection between discrete symbol sequence with indicators and continuous motion planning is realized based on the previous achievement...In this study,we will reveal the potential patterns and rules of the acquisition and improvement of human collaborative motor skills,and provide new research methods and ideas for the research of human-robot collaboration.

项目受资助省

湖北省

项目结题报告(全文)

源于巨大的市场需求和前景，人机协作近年来成为机器人领域的前沿和热点。机器人如何学习到人类个体完成任务的个人偏好并自主适应，是亟待解决的问题也是本项目研究的主要内容。本项目创造性地从机器人运动技能获取和执行视角出发开展研究。具体而言:1)针对如何基于示范任务学习让机器人自主获得完成新任务能力的问题，我们提出双空间交替学习的思路和途径。它将当前机器人运动技能获取的 LfDRL 三阶段统一考虑，提出iLWR-PI2-AL算法实现了策略表达、模仿学习、策略提升的滚动优化。2)针对如何构建将时空耦合信息转化为可调制的运动模型并满足预设的条件约束的运动基元。同时在人机交互和协作中，以适配人类的行为意图变化而做出在线自适应调整的问题，我们提出面向多任务人机交互的MTiProMP模型，并结合解构和迭代策略实现了面向行为意图的多任务人机自适应交互、切换和协同。3)在面向不同任务运动技能的获取中，如何能能自主地掌握到完成任务的该技巧非常关键，它体现为各关节之间面向特定任务的隐含模式。我们提出双环结构启发式搜索的强化学习框架和 PI2-CMA-KCCA 算法用来加速面向新任务的运动技能获取。发现和预测关节间运动基元间和运动基元线内相关模式，实现了行为基元高效策略搜索。传统机器人操作和规划研究都是面对具体问题分别采用不同的模型和假设(彼此异构),这与人体本身基于同构模式来实现不同的运动技能有很大的不同。结合神经系统学、运动学和认识学的研究成果，本研究提出一种通过赋予机器人协作运动技能来实现人机合作协同的新思路和途径。通过构建协作行为基元，并结合模仿学习和强化学习实现运动技能传递(策略表达、模仿学习和策略提升)和人机交互协同(时间索引协作框架、状态索引协作框架),在机器人运动技能获取研究上做出有益的探索。该研究一定程度上揭示了人体协作运动技能获得和提高的潜在模式和规律，为人机合作协同的研究提供了新的方法和思路。

排序方式：时间相关性
显示方式：列表摘要

1.基于时间/状态索引协作基元的人机协作和避障研究

关键词：
人机协作;概率运动基元;融合动态协作;在线避障算法;改进的RRT*

王超奇
指导老师：武汉理工大学傅剑
0年
学位论文

随着工业4.0和制造2025的持续深化,协作机器人脱颖而出。从工业制造到家庭,机器人的应用广泛,工作环境逐渐从结构化环境演化为非结构化环境,机器人不再是完全替代人而是赋予人的角色,与人协作完成复杂的任务。实际过程中,人机协作面对不同的环境、不同任务以及不同的协作者,而且若在人机协作的场景中加入障碍物,这也对协作机器人来说是一个巨大的挑战。面向人机协作和避障这一共性问题,针对时间敏感的人机协作任务,开展基于时间索引高斯过程的双空间协作概率运动基元研究,规避了复杂的逆运动学求解。针对状态敏感的人机协作任务,开展基于状态索引的非线性动态系统的融合动态协作系统的协作基元研究,增加了协作的鲁棒性,并将上述两种协作框架分别结合避障算法以实现人机协作中的避障。本文具体研究如下:（1）人机协作中深度学习检测空间障碍物的研究。根据目前前沿的深度学习算法,YOLOv3算法具备实时性和识别速度快的性能,利用实验室现有的小觅双目深度摄像头,搭建好实验平台,拍摄好照片利用YOLOv3算法识别出实验给定的障碍物,接着根据深度图可得到空间坐标,进而可得到空间障碍物的尺寸信息。（2）时间/状态索引协作基元研究。开展双空间并行概率运动基元框架研究,该框架构建人机协作在关节和笛卡尔两个空间运动基元的概率模型,从示范任务中学习人与机器人在双空间中交互动作的非线性相关性,接着使用人体动作为条件并根据人与机器人在双空间中的相关关系来推断机器人的协作运动,适用于时间敏感的人机协作任务。针对状态敏感的协作任务,基于SEDS模型总结出基于状态索引的融合动态系统,并融合两个SEDS动力学系统,通过GMR预测同步协调人和机器人的运动,通过点对点的多步估计收敛到目标终点,且能够对环境的变化做出快速反应。（3）人机协作中避障路径规划研究。总结出两种避障方法来与两种协作系统模型进行结合,皆能很好的完成避障。其一是改进的RRT*作为双空间协作概率运动框架的避障方法,由于双空间协作框架已经预测出轨迹,因此这是属于有轨迹导向的路径点选择,接着在RRT*引力函数中加入人工势场法的引力分量,使其到达目标的速度加快。其二是在融合动态协作系统中加入在线避障算法,在保证很好的与提出的人机协作框架进行协调的前提下,根据障碍物的大小、位置以及形状等信息建立一个动态系统调制矩阵,对利用动态系统描述的机器人轨迹进行实时的调制,可以保证机器人在不确定的环境下安全到达目标位置。（4）人机协作和避障仿真结果验证研究。本文采用两个XSENS传感器穿戴在协作者的手臂上采集人体上肢动作,UR5协作机器人采集机器人动作,最后使用ROS读取两者的数据。接着采用MATLAB进行人机协作框架数据的处理与训练,以及协作智能体的意图识别以及机器人的动作预测。最后使用MATLAB和机器人工具箱进行实验的仿真验证,通过实验结果证明融合动态协作系统以及避障算法是有效的。

...

2.基于引导策略搜索方法的数据高效机器人学习研究

关键词：
数据高效;引导策略搜索;行为策略切换;策略提取;变分贝叶斯高斯混合模型

杜瑾瑜
指导老师：武汉理工大学傅剑
0年
学位论文

机器人是一个国家科技实力和高端制造能力的象征。机器人在工业制造领域已经取得了极大的成功,正逐步走向日常的生活场景。面对非结构化的日常生活中的工作场景,强化学习结合深度学习的机器人学习被视为实现机器人快速自主技能学习最有前景的技术之一。但是强化学习和深度学习都面临着数据低效的问题,即需要大量训练样本,这在机器人的应用场景中是难以被满足的。本文以强化学习和深度学习相结合的镜像下降引导策略搜索方法（MDGPS）为基础,从行为策略、示教轨迹策略提取、变分贝叶斯高斯混合模型动力学先验等方面进行数据高效机器人学习的探索研究。本文主要工作如下:（1）基于MDGPS方法探索了通过特征提取示教轨迹获得先验进而加速学习的问题,提出使用贝叶斯定理从示教轨中提取时变线性高斯策略的方法。对比分析了没有示教轨迹、仅提供示教轨迹和示教轨迹结合从示教轨迹中提取的时变线性策略三种方法,实验验证所提出的方法能够让MDGPS方法通过几次迭代便能够学习到最优的局部策略和全局策略,提高了数据高效性。（2）基于MDGPS方法探索了行为策略选择问题,提出了off/on-policy行为策略切换的技巧。根据代价下降率进行行为策略的切换,通过此技巧既保证了探索的充分性,也保证了算法最终的策略收敛效果和鲁棒性。（3）基于MDGPS方法探索了基于数据拟合动力学模型的问题,提出了使用变分贝叶斯高斯混合模型替代普通的高斯混合模型的方法。变分贝叶斯高斯混合模型避免了模型聚类中心个数的选择困难问题,能够提供更加准确的近似全局模型。以此为先验,提供更加准确的时变线性动力学模型,从而加速算法收敛,提高数据的高效性。（4）基于Coppelia Sim的一、二连杆摆,对比分析了有模型LQR与无模型PI~2、MDGPS与PIGPS在数据高效性上的表现,验证了所提出的off/on-policy行为策略切换的技巧。基于Box2D的Point Mass,验证了所提出的基于示教轨迹的策略提取方法和变分贝叶斯高斯混合模型方法。基于Mu Jo Co平台的Peg-In-Hole,在更加复杂对象下验证了所提出的基于示教轨迹的策略提取方法的表现。实验结果表明,本文所提出的基于示教轨迹的策略提取方法、off/on-policy行为策略切换技巧和变分贝叶斯高斯混合模型可行、有效,提高了基于引导策略搜索方法的数据效率。

...

3.融合行为意图和语义意图的多任务人机协作

关键词：
多任务人机协作;行为/语义意图识别;混合运动基元;双空间交替估计

滕翔
指导老师：武汉理工大学琚兆杰
0年
学位论文

随着社会的发展,机器人的应用需求进一步提高,机器人更多地向协作化方向发展。当机器人需要停止一项任务去执行另一项任务时,需要花费较多成本。同时,为应对不同的任务需求,机器人末端执行器的动作也是不同的。如何使机器人在非结构化场景中高效率地工作是机器人产业的一大热点需求。本文以多任务人机协作为背景,将机器人与人的意图相结合。使机器人在根据人手行为意图直接从一项任务切换到另一项任务的同时,还可以根据人手的语义意图执行相应的末端动作。本文主要工作如下:首先,分析了ProMP和iProMP的缺陷。针对这些缺陷,提出了MTProMP和mtiProMP两种混合的概率运动模型。这些改进的模型混合了多个运动基元,可以更加有效地学习到示范任务的特征。其次,任务过程中提出基于EM算法的双空间交替估计方法,在优化局部独立运动基元的同时,优化全局的权重信息,保证了轨迹的精度和平滑。并从理论上验证了该方法的可行性。然后,基于GeoConGAN框架实现了对人手的行为意图识别和语义意图识别。并将这两种意图融合到多任务协作中,使机器人和人在协作过程中,不仅能根据人手行为意图的变化切换任务轨迹,还可以根据人手语义意图的变化执行不同的末端操作。最后,在Sawyer机械臂上通过轨迹规划实验验证了模型的可靠性,并将基于行为意图的任务切换实验和基于语义意图的猜拳识别实验结合,使机器人在整个猜拳游戏中,可以实时根据行为意图切换任务轨迹,根据语义意图做出对应的猜拳手势。实验结果验证了该方案的可行性。

...

4.集成多模态感知和意图识别的多任务自适应人机协作

关键词：
人机交互;意图识别;模仿学习;隐马尔可夫模型;自适应机制;多模态感知

李聪
指导老师：武汉理工大学傅剑
0年
学位论文

人机交互是一个广泛的研究领域,具有很高的经济影响。机器人已经开始从实验室和制造环境进入更复杂的人类生活。这对人与机器人之间的交互提出了新的要求。本文以人机交互为背景,基于模仿学习、意图识别策略及任务切换等展开了研究。本文主要工作如下:（1）基于动力学系统的模仿学习研究。人机交互中的模仿学习方法主要有动态运动基元和概率运动基元。以上两种模型是典型的基于时间索引的模型。时间依赖性使得这些模型对空间和时间扰动都非常敏感。动态运动基元模型还有另外一个不足,它只能对单个演示进行建模,对于多组示范轨迹就不适用。本文引入了基于状态索引的动力学系统（Dynamical System,DS）模型,该模型能很好克服前面两种模型的缺陷。文中动力学系统是基于高斯混合模型得到的,通过SEDS算法可以得到非线性动力学系统的参数,并且这个非线性动力学系统在目标点处是全局渐进稳定的。最后,文中机器人所有需要完成的任务都是基于DS编码的。（2）基于视觉与隐马尔可夫模型的意图识别策略研究以及视觉/力多通道融合策略研究。本文利用隐马尔科夫模型对人类用户的手部动作序列进行建模,从而识别人类意图。视觉方面,利用实验室的Kinect V1深度摄像头,在ROS平台下运行openni＿tracker功能包跟踪人类手部并获得手的三维空间位置。接着本文提出了人手动作序列识别算法。该算法使用了角度编码方法对手空间位置进行编码,通过Baum-Welch算法从序列化数据中学习隐马尔科夫模型参数。当人做出手部动作时,利用前向后向算法可以计算出在各个模型下该观测出现的概率。此外,文中还引入了阈值模型,通过它可以区分未定义动作和已定义动作。另外DS模型对环境变化的鲁棒性允许当目标位置发生改变时,机器人能够立即适应新目标的位置。本文通过将惯性传感器绑定在手上可以得到新的目标（手掌心）位置。若人做出已定义动作后手部发生了移动,那么机器人会到达这个新的目标位置。最后,为了能灵活地根据实时场景选择合适的交互方式,文中提出了一种简洁有效的视觉/力多通道融合方法,该方法可以将多种交互方式结合起来。（3）基于运动的意图识别策略的研究。人类用户给Sawyer机器人施加力使机器人产生运动,通过识别力产生的真实速度,机器人能够识别人类用户的意图,完成任务的自适应切换。即给定机器人的当前位置和当前速度,它们可以评估任意任务和当前速度之间的相似性度量。本文采用了一组参数化的动力学系统,每个动力学系统编码一个任务。通过将这些动力学系统线性组合,可以允许编码任务之间的平滑和自适应切换。为了符合人类的意图,本文引入了一种自适应机制,该机制使生成的运动（期望的速度）适应人类用户的意图（真实的速度）,从而切换到最相似的任务。（4）人机交互和任务切换的实验验证。本文模拟人与机器人的日常交互,首先设计了抬手与挥手动作,通过实验验证了基于视觉与隐马尔可夫模型的意图识别策略的有效性。然后通过人类用户施加力作用在Sawyer机器人上完成了多任务之间平滑且自适应的切换,验证了基于运动的意图识别策略的有效性与任务间切换的可能性。最后,集成多模态感知的人机交互实验验证了所提视觉/力多通道融合策略的可行性。

...

排序方式：时间相关性
显示方式：列表摘要