(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210465064.3
(22)申请日 2022.04.25
(71)申请人 浙江工业大 学
地址 310014 浙江省杭州市拱 墅区潮王路
18号
(72)发明人 张文安 姜国栋 付明磊 刘锦元
刘安东 杨旭升 史秀纺 仇翔
滕游 周叶剑 吴麒 胡佛
(74)专利代理 机构 杭州天正专利事务所有限公
司 33201
专利代理师 楼明阳
(51)Int.Cl.
B25J 9/16(2006.01)
B25J 9/22(2006.01)
(54)发明名称
一种基于元动作分层泛化的机械臂模仿学
习方法
(57)摘要
一种基于元动作分层泛化的机械臂模仿学
习方法, 包括: 获取专家示教数据集, 表示为φ
(s,a), 其中s表示机械臂各个关节的状态数据,
包括空间位姿、 力矩、 方向角, a表示当前状态 映
射的机械臂动作; 采用聚类的方式将专家示教数
据集进行分解, 得到分解后的元动作集合; 求出
各个元动作占示教动作整体的权重{π1,
π2,…, πk}, 其中权重系数πk与元动作一一对
应; 根据各个元动作的权重系数, 按不同比重进
行泛化, 生成泛化动作; 从泛化后的元动作τ
(A1, A2,…, Ak)中随机挑 选子动作进行组合, 得到
泛化示教ψ, 其中子动作的次序按照专家示教进
行排列, 形成与原专家示教相同的目标动作; 将
泛化示教ψ输入卷积神经网络进行监督学习得
到目标动作的执行策略。 本发明提高了训练效率
和元动作的准确性。
权利要求书3页 说明书7页 附图1页
CN 114683287 A
2022.07.01
CN 114683287 A
1.一种基于元动作分层泛化的机 械臂模仿学习方法, 包括如下步骤:
步骤S1: 获取专家示教数据集, 表示为φ(s,a), 其中s表示机械臂各个关节的状态数
据, 包括空间位姿、 力矩、 方向角, a表示当前状态映射的机 械臂动作;
步骤S2: 采用聚类的方式将专家示教数据集进行分解, 得到分解后的元动作集合表示
为 τ(A1, A2,…, Ak), 其中A1表示第一个元动作, 下 标k表示专 家示教所包 含的元动作数量;
步骤S3: 求出各个元动作占示教动作整体的权重{ π1, π2,…, πk}, 其中权重系数πk与元动
作一一对应;
步骤S4: 根据各个元动作的权重系数, 按不同比重进行泛化, 生成泛化动作
其中
表示元动作Ak的泛化;
步骤S5: 从泛化后的元动作 τ(A1, A2,…, Ak)中随机挑选子动作进行组合, 得到泛化示教
ψ, 其中子动作的次序按照专 家示教进行排列, 形成与原 专家示教相同的目标动作;
步骤S6: 将泛化 示教 ψ输入卷积神经网络进行监 督学习得到目标动作的执 行策略。
2.如权利要求1所述的一种基于元动作分层泛化的机械臂模仿学习方法, 其特征在于:
步骤S1中所述的专家示教数据集φ(s, a)记录示教机器人机械臂的状态(s)及当前状态所
映射的动作(a), 其中状态数据包括机械臂关节的空间位姿、 力矩、 方向角; 动作数据包括语
义级技能或动作, 并与过渡动作结合成为高级技能或动作;
步骤S1中所述的数据采集过程通过双目摄像头按一定频率拍摄图片, 采集专家示例来
简化数据采集过程; 或对视频进行抽帧处理, 记录图片数据, 形成专家示教数据; 将采集到
的专家示教数据φ(s1, a1; s2, a2;…sn, an)输入泛化系统; 泛化系统包括以下四个步骤: 元动
作分解、 求各元动作权重、 泛化占高权重的元动作、 将泛化动作与 原分解动作随机结合生成
大量示教数据。
3.如权利要求2所述的一种基于元动作分层泛化的机械臂模仿学习方法, 其特征在于:
所述的语义级技能或动作包含 “拿取”、“放置”、“托举”; 所述的高级技能或动作包含 “铺展
床单”、“更换吊瓶”、“康复辅助 ”。
4.如权利要求3所述的一种基于元动作分层泛化的机械臂模仿学习方法, 其特征在于:
步骤S2中所述的元动作分解表 示为动作数据聚类过程, 在给出先验元动作数量k的基础上,
采用k‑means聚类算法, 对各个状态进行动作划分及聚类为τ(A1, A2,…, Ak); 其中先验元动
作数量k由专家通过经验获得, 确定k个聚类中心后, 最小化数据数据对 象到聚类中心的距
离平方和, 由下式表示:
该准则函数 结果越小则代 表动作连续 性、 相似性越强, 则该 数据归为 一类元动作;
针对元动作聚类中心, 为了提高归类的精确度, 每一轮都采用公式(2)重新定位,
其中ci表示属于 该元动作类的动作数据, 之后重复进行上述过程, 直到 各个元动作中心权 利 要 求 书 1/3 页
2
CN 114683287 A
2之间距离最大, 最终得到分解后的元动作 τ(A1, A2,…, Ak)。
5.如权利要求4所述的一种基于元动作分层泛化的机械臂模仿学习方法, 其特征在于:
步骤S3中所述的元动作占目标动作整体的权重求解过程采用高斯混合模型(GMM), 建立分
解后元动作的高斯模型, 由式(3)表示,
其中, N(x| μk, ∑k)为第k个元动作的高斯模型, πk为对应高斯模型的权重, μk与∑k分别
表示高斯分布中的均值和方差; 并且将该问题转化为利用最大期望算法求解GMM中各个参
数的过程, 各参数的编程 求解式如下:
其中θ={ μ, ∑}表示高斯模型的参数, g代表当前高斯模型。 从而得出组成目标动作的
元动作重要性的排序, 其中权 重用参数{ π1, π2,…, πn}表示。
6.如权利要求5所述的一种基于元动作分层泛化的机械臂模仿学习方法, 其特征在于:
步骤S4所述的泛化过程包括: 首先将步骤S3中得到的权重进行由高到低的排序, 得到权重
系数例如π1>π2>…>πk, 泛化规则为, 在元动作中挑选比例为γ的数据加入高斯噪声, 其
中高斯噪声的概率密度分布均值和方差 参数来自于对 应元动作的高斯模型的μk与∑k; 并且
高权重元动作进行高数量(n1)次泛化, 低权重元动作进行低数量(n2)次泛化, 其中n1>n2;
生成泛化结果表示为
其中
表示元动作Ak泛化后的动作集。
7.如权利要求6所述的一种基于元动作分层泛化的机 械臂模仿学习方法, 其特 征在于:
步骤S5中所述的获取泛化示教的过程先对泛化后的元动作进行预处理, 从
每组元动作中随机抽
取一次泛化动作, 根据完整专家示教的组合顺序完成泛化演示的组合表示为φ, 数量由后
续监督学习的需求而定, 之后将泛化演示输入深度监 督学习过程进行训练。
8.如权利要求6所述的一种基于元动作分层泛化的机械臂模仿学习方法, 其特征在于:
步骤S6所述卷积神经网络包括3个卷积层, 2个全连接层以及1个隐藏层; 具体地, 卷积层的权 利 要 求 书 2/3 页
3
CN 114683287 A
3
专利 一种基于元动作分层泛化的机械臂模仿学习方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:18:49上传分享