专利 一种基于无监督图像编辑的多目标强化学习方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210469373.8 (22)申请日 2022.04.28 (71)申请人同济大学地址 200092 上海市杨浦区四平路1239号 (72)发明人钱智丰　尤鸣宇　 (74)专利代理机构上海科盛知识产权代理有限公司 312 25 专利代理师赵志远 (51)Int.Cl. B25J 9/16(2006.01) G06F 17/16(2006.01) G06V 10/774(2022.01) (54)发明名称一种基于无监督图像编辑的多目标强化学习方法 (57)摘要本发明涉及一种基于无监督图像编辑的多目标强化学习方法，包括：获取关于机器人控制场景的多目标任务数据集；训练对抗生成网络和特征空间编码器，将图像中与任务高度相关与不相关的因素进行解耦；对每个子空间对应全连接层的权重进行奇异值分解，获得贡献最大的若干个特征向量作为有语义信息的可编辑方向，并训练可编辑方向编码器来识别出可编辑方向的类别和尺度；基于可编辑方向编码器的输出得到图像的可编辑表征空间，作为控制策略网络的输入以及奖励函数的计算，同时通过在可编辑表征空间中可控地采样出各种目标任务来训练机器人，最终得到可完成多个目标的控制策略。与现有技术相比，本发明具有能够无监督解耦开任务相关因素、提升样本效率和泛化性能等优点。权利要求书2页说明书5页附图3页 CN 115070753 A 2022.09.20 CN 115070753 A 1.一种基于无监督图像编辑的多目标强化学习方法，其特征在于，所述的多目标强化学习方法包括：步骤1：获取关于机器人控制场景的多目标任务数据集；步骤2：训练对抗生成网络和特征空间编码器，将隐变量空间分为三个子空间，分别对应任务无关因素、机器人以及操作的物体，将图像中各个部分进行解耦；步骤3：对每个子空间对应全连接层的权重进行奇异值分解，获得贡献最大的若干个特征向量作为有语义信息的可编辑方向，并训练一个可编辑方向编码器来识别出可编辑方向的类别和尺度；步骤4：基于可编辑方向编码器的输出得到图像的可编辑表征空间，作为控制策略网络的输入以及奖励函数的计算，同时通过在可编辑表征空间中可控地采样出各种目标任务来训练机器人，最终得到可完成多个目标的控制策略。 2.根据权利要求1所述的一种基于无监督图像编辑的多目标强化学习方法，其特征在于，所述的步骤1具体为：搭建机器人虚拟仿真环境，并通过采样控制策略控制机器人完成多种目标任务，创建一个关于机器人控制场景的多目标任务数据集。 3.根据权利要求2所述的一种基于无监督图像编辑的多目标强化学习方法，其特征在于，所述的多目标任务包括抓木块和组装两个任务，机器人虚拟仿真环境包括UR5机械臂、操作台和若干操作物体；通过从随机探索策略中采样出动作指令来控制机器人与环境进行交互，得到每个任务的各种图像序列数据，每条序列的目标位置由均匀分布中采样得到。 4.根据权利要求1所述的一种基于无监督图像编辑的多目标强化学习方法，其特征在于，所述的对抗生成网络包括：生成网络，期望生成出辨别网络无法分辨其真伪的足够真实的图片；辨别网络，期望分辨出图片是真实的还是生成网络生成的；将从高斯分布中随机采样的隐变量通过8层全连接层映射到3个W特征空间中，其中， W1 对应于任务无关因素，其他两个子空间对应于任务相关因素，其中W2对应于机器人， W3对应于需要操作的物体；所述的特征空间编码器用于将生成网络生成的图像编码回W空间中的特征；步骤2将生成网络生成的图像作为特征空间编码器的输入，每张图像对应的生成网络输入作为特征空间编码器的输出标签，从而对特征空间编码器进行监督训练。 5.根据权利要求1所述的一种基于无监督图像编辑的多目标强化学习方法，其特征在于，所述步骤2中将图像各个部分进行解耦的方法为：通过交换一个子空间隐变量、保持其他子空间隐变量不变的方法，解耦开图像中的各个部分。 6.根据权利要求5所述的一种基于无监督图像编辑的多目标强化学习方法，其特征在于，所述步骤2中将图像各个部分进行解耦的方法具体为：将多目标任务数据集中的两张图片作为一组数据，对应的W空间特征记作W1,2,3和Wa,b,c；将某一个W子空间的特征相互交换，其他特征保持不变，得到两个新的特征W1,b,3和 Wa,2,c；将新特征输入生成网络得到两张新的图像；权　利　要　求　书 1/2 页 2 CN 115070753 A 2通过特征空间编码器将生成的两张图像进行编码，再次进行特征交换操作得到新的特征W′1,2,3和W′a,b,c，并通过均方根误差来监督该特征，具体为： 7.根据权利要求1所述的一种基于无监督图像编辑的多目标强化学习方法，其特征在于，所述步骤3中每个子空间对应全连接层参数设为为一个非方阵；则全连接层对于随机采样得到的隐变量z的仿射变换 F为： W＝F(z)＝Az+b 通过对对应的W空间特征添加有语义信息的方向N，对生成的图像进行可控地编辑，使得生成的图像在某一个内容因子上发生改变。 8.根据权利要求1所述的一种基于无监督图像编辑的多目标强化学习方法，其特征在于，所述步骤3中奇异值分解具体为：奇异值分解用于对全连接层参数Ai进行矩阵分解： Ai＝U∑VT 其中， U为一个m*m方阵； ∑为一个m*n矩阵，除了主对角线上的元素以外全为0，主对角线上的每个元素都称为奇异值； V为一个n*n方阵；然后根据∑中奇异值大小进行排序，得到贡献值最大的前若干个奇异值，对应的特征向量则为有语义信息的方向N，即通过无监督的方式学到了图像可编辑方向N。 9.根据权利要求1所述的一种基于无监督图像编辑的多目标强化学习方法，其特征在于，所述的可编辑方向编码器具体为：可编辑方向编码器用于编码出两张图像在对抗生成网络的W空间的变化情况，包括可编辑方向的类别Ni和尺度α，步骤3基于可编辑方向在W空间的线性加权操作对生成图像进行可控编辑，获得图像对和对应的编辑类别和尺度，从而对可编辑方向编码器进行监督训练。 10.根据权利要求1所述的一种基于无监督图像编辑的多目标强化学习方法，其特征在于，所述的步骤4具体为：控制策略网络以可编辑方向编码器的输出作为观察图像和任务目标的嵌入空间输入，并输出机器人的关节角度来控制机器人完成任务。权　利　要　求　书 2/2 页 3 CN 115070753 A 3

专利 一种基于无监督图像编辑的多目标强化学习方法

专利一种基于无监督图像编辑的多目标强化学习方法