专利 一种基于元动作分层泛化的机械臂模仿学习方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210465064.3 (22)申请日 2022.04.25 (71)申请人浙江工业大学地址 310014 浙江省杭州市拱墅区潮王路 18号 (72)发明人张文安　姜国栋　付明磊　刘锦元　刘安东　杨旭升　史秀纺　仇翔　滕游　周叶剑　吴麒　胡佛　 (74)专利代理机构杭州天正专利事务所有限公司 33201 专利代理师楼明阳 (51)Int.Cl. B25J 9/16(2006.01) B25J 9/22(2006.01) (54)发明名称一种基于元动作分层泛化的机械臂模仿学习方法 (57)摘要一种基于元动作分层泛化的机械臂模仿学习方法，包括：获取专家示教数据集，表示为φ (s,a)，其中s表示机械臂各个关节的状态数据，包括空间位姿、力矩、方向角， a表示当前状态映射的机械臂动作；采用聚类的方式将专家示教数据集进行分解，得到分解后的元动作集合；求出各个元动作占示教动作整体的权重{π1， π2，…， πk}，其中权重系数πk与元动作一一对应；根据各个元动作的权重系数，按不同比重进行泛化，生成泛化动作；从泛化后的元动作τ (A1， A2，…， Ak)中随机挑选子动作进行组合，得到泛化示教ψ，其中子动作的次序按照专家示教进行排列，形成与原专家示教相同的目标动作；将泛化示教ψ输入卷积神经网络进行监督学习得到目标动作的执行策略。本发明提高了训练效率和元动作的准确性。权利要求书3页说明书7页附图1页 CN 114683287 A 2022.07.01 CN 114683287 A 1.一种基于元动作分层泛化的机械臂模仿学习方法，包括如下步骤：步骤S1：获取专家示教数据集，表示为φ(s,a)，其中s表示机械臂各个关节的状态数据，包括空间位姿、力矩、方向角， a表示当前状态映射的机械臂动作；步骤S2：采用聚类的方式将专家示教数据集进行分解，得到分解后的元动作集合表示为 τ(A1， A2，…， Ak)，其中A1表示第一个元动作，下标k表示专家示教所包含的元动作数量；步骤S3：求出各个元动作占示教动作整体的权重{ π1， π2，…， πk}，其中权重系数πk与元动作一一对应；步骤S4：根据各个元动作的权重系数，按不同比重进行泛化，生成泛化动作其中表示元动作Ak的泛化；步骤S5：从泛化后的元动作 τ(A1， A2，…， Ak)中随机挑选子动作进行组合，得到泛化示教 ψ，其中子动作的次序按照专家示教进行排列，形成与原专家示教相同的目标动作；步骤S6：将泛化示教 ψ输入卷积神经网络进行监督学习得到目标动作的执行策略。 2.如权利要求1所述的一种基于元动作分层泛化的机械臂模仿学习方法，其特征在于：步骤S1中所述的专家示教数据集φ(s， a)记录示教机器人机械臂的状态(s)及当前状态所映射的动作(a)，其中状态数据包括机械臂关节的空间位姿、力矩、方向角；动作数据包括语义级技能或动作，并与过渡动作结合成为高级技能或动作；步骤S1中所述的数据采集过程通过双目摄像头按一定频率拍摄图片，采集专家示例来简化数据采集过程；或对视频进行抽帧处理，记录图片数据，形成专家示教数据；将采集到的专家示教数据φ(s1， a1； s2， a2；…sn， an)输入泛化系统；泛化系统包括以下四个步骤：元动作分解、求各元动作权重、泛化占高权重的元动作、将泛化动作与原分解动作随机结合生成大量示教数据。 3.如权利要求2所述的一种基于元动作分层泛化的机械臂模仿学习方法，其特征在于：所述的语义级技能或动作包含 “拿取”、“放置”、“托举”；所述的高级技能或动作包含 “铺展床单”、“更换吊瓶”、“康复辅助 ”。 4.如权利要求3所述的一种基于元动作分层泛化的机械臂模仿学习方法，其特征在于：步骤S2中所述的元动作分解表示为动作数据聚类过程，在给出先验元动作数量k的基础上，采用k‑means聚类算法，对各个状态进行动作划分及聚类为τ(A1， A2，…， Ak)；其中先验元动作数量k由专家通过经验获得，确定k个聚类中心后，最小化数据数据对象到聚类中心的距离平方和，由下式表示：该准则函数结果越小则代表动作连续性、相似性越强，则该数据归为一类元动作；针对元动作聚类中心，为了提高归类的精确度，每一轮都采用公式(2)重新定位，其中ci表示属于该元动作类的动作数据，之后重复进行上述过程，直到各个元动作中心权　利　要　求　书 1/3 页 2 CN 114683287 A 2之间距离最大，最终得到分解后的元动作 τ(A1， A2，…， Ak)。 5.如权利要求4所述的一种基于元动作分层泛化的机械臂模仿学习方法，其特征在于：步骤S3中所述的元动作占目标动作整体的权重求解过程采用高斯混合模型(GMM)，建立分解后元动作的高斯模型，由式(3)表示，其中， N(x| μk， ∑k)为第k个元动作的高斯模型， πk为对应高斯模型的权重， μk与∑k分别表示高斯分布中的均值和方差；并且将该问题转化为利用最大期望算法求解GMM中各个参数的过程，各参数的编程求解式如下：其中θ＝{ μ， ∑}表示高斯模型的参数， g代表当前高斯模型。从而得出组成目标动作的元动作重要性的排序，其中权重用参数{ π1， π2，…， πn}表示。 6.如权利要求5所述的一种基于元动作分层泛化的机械臂模仿学习方法，其特征在于：步骤S4所述的泛化过程包括：首先将步骤S3中得到的权重进行由高到低的排序，得到权重系数例如π1＞π2＞…＞πk，泛化规则为，在元动作中挑选比例为γ的数据加入高斯噪声，其中高斯噪声的概率密度分布均值和方差参数来自于对应元动作的高斯模型的μk与∑k；并且高权重元动作进行高数量(n1)次泛化，低权重元动作进行低数量(n2)次泛化，其中n1＞n2；生成泛化结果表示为其中表示元动作Ak泛化后的动作集。 7.如权利要求6所述的一种基于元动作分层泛化的机械臂模仿学习方法，其特征在于：步骤S5中所述的获取泛化示教的过程先对泛化后的元动作进行预处理，从每组元动作中随机抽取一次泛化动作，根据完整专家示教的组合顺序完成泛化演示的组合表示为φ，数量由后续监督学习的需求而定，之后将泛化演示输入深度监督学习过程进行训练。 8.如权利要求6所述的一种基于元动作分层泛化的机械臂模仿学习方法，其特征在于：步骤S6所述卷积神经网络包括3个卷积层， 2个全连接层以及1个隐藏层；具体地，卷积层的权　利　要　求　书 2/3 页 3 CN 114683287 A 3

专利 一种基于元动作分层泛化的机械臂模仿学习方法

专利一种基于元动作分层泛化的机械臂模仿学习方法