(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210469373.8
(22)申请日 2022.04.28
(71)申请人 同济大学
地址 200092 上海市杨 浦区四平路1239号
(72)发明人 钱智丰 尤鸣宇
(74)专利代理 机构 上海科盛知识产权代理有限
公司 312 25
专利代理师 赵志远
(51)Int.Cl.
B25J 9/16(2006.01)
G06F 17/16(2006.01)
G06V 10/774(2022.01)
(54)发明名称
一种基于无监督图像编辑的多目标强化学
习方法
(57)摘要
本发明涉及一种基于无监督图像编辑的多
目标强化学习方法, 包括: 获取关于机器人控制
场景的多目标任务数据集; 训练对抗生成网络和
特征空间编码器, 将图像中与任务高度相关与不
相关的因素进行解耦; 对每个子空间对应全 连接
层的权重进行奇异值分解, 获得贡献最大的若干
个特征向量作为有语义信息的可编辑方向, 并训
练可编辑方向编码器来识别出可编辑方向的类
别和尺度; 基于可编辑方向编码器的输出得到图
像的可编辑表征空间, 作为控制策略网络的输入
以及奖励函数的计算, 同时通过在可编辑表征空
间中可控地采样出各种目标任务来训练机器人,
最终得到 可完成多个目标的控制策略。 与现有技
术相比, 本发 明具有能够无监督解耦开任务相关
因素、 提升样本效率和泛化 性能等优点。
权利要求书2页 说明书5页 附图3页
CN 115070753 A
2022.09.20
CN 115070753 A
1.一种基于无监督图像编辑的多目标强化学习方法, 其特征在于, 所述的多目标强化
学习方法包括:
步骤1: 获取关于 机器人控制场景的多目标任务数据集;
步骤2: 训练对抗生成网络和特征空间编码器, 将隐变量空间分为三个子空间, 分别对
应任务无关因素、 机器人以及操作的物体, 将图像中各个部分进行解耦;
步骤3: 对每个子空间对应全连接层的权重进行奇异值分解, 获得贡献最大的若干个特
征向量作为有语义信息的可编辑方向, 并训练一个可编辑方向编 码器来识别出可编辑方向
的类别和尺度;
步骤4: 基于可编辑方向编码器的输出得到图像的可编辑表征空间, 作为控制策略网络
的输入以及奖励函数的计算, 同时通过在可编辑表征 空间中可控地采样出各种目标任务来
训练机器人, 最终得到可完成多个目标的控制策略。
2.根据权利要求1所述的一种基于无监督图像编辑的多目标强化学习方法, 其特征在
于, 所述的步骤1具体为:
搭建机器人虚拟仿真环境, 并通过采样控制策略控制机器人完成多种目标任务, 创建
一个关于 机器人控制场景的多目标任务数据集。
3.根据权利要求2所述的一种基于无监督图像编辑的多目标强化学习方法, 其特征在
于, 所述的多目标任务包括抓木块和组装两个任务, 机器人虚拟仿真环境包括UR5机械臂、
操作台和若干操作 物体; 通过从随机探索策略中采样出动作指 令来控制机器人与 环境进行
交互, 得到每 个任务的各种图像序列数据, 每条序列的目标位置由均匀分布中采样得到 。
4.根据权利要求1所述的一种基于无监督图像编辑的多目标强化学习方法, 其特征在
于, 所述的对抗 生成网络包括:
生成网络, 期望生成出辨别网络无法分辨 其真伪的足够真实的图片;
辨别网络, 期望分辨出图片是真实的还是生成网络生成的;
将从高斯分布 中随机采样的隐变量通过8层全连接层映射到3个W特征空间中, 其中, W1
对应于任务无关因素, 其他两个子空间对应于任务相关因素, 其中W2对应于机器人, W3对应
于需要操作的物体;
所述的特 征空间编码器用于将生成网络生成的图像编码回W空间中的特 征;
步骤2将生成网络生成的图像作为特征空间编码器的输入, 每张图像对应的生成网络
输入作为特 征空间编码器的输出 标签, 从而对特 征空间编码器进行监 督训练。
5.根据权利要求1所述的一种基于无监督图像编辑的多目标强化学习方法, 其特征在
于, 所述步骤2中将图像各个部分进行解耦的方法为:
通过交换一个子空间隐变量、 保持其他子空间隐变量不变的方法, 解耦开图像中的各
个部分。
6.根据权利要求5所述的一种基于无监督图像编辑的多目标强化学习方法, 其特征在
于, 所述步骤2中将图像各个部分进行解耦的方法具体为:
将多目标任务数据集中的两张图片作为 一组数据, 对应的W空间特 征记作W1,2,3和Wa,b,c;
将某一个W子空间的特征相互交换, 其他特征保持不变, 得到两个新的特征W1,b,3和
Wa,2,c;
将新特征输入生成网络得到 两张新的图像;权 利 要 求 书 1/2 页
2
CN 115070753 A
2通过特征空间编码器将生成的两张图像进行编码, 再次进行特征交换操作 得到新的特
征W′1,2,3和W′a,b,c, 并通过均方根 误差来监督该特征, 具体为:
7.根据权利要求1所述的一种基于无监督图像编辑的多目标强化学习方法, 其特征在
于, 所述步骤3中每 个子空间对应全连接层参数设为
为一个非方阵;
则全连接层对于随机采样得到的隐变量z的仿射变换 F为:
W=F(z)=Az+b
通过对对应的W空间特征添加有语义信息的方向N, 对生成的图像进行可控地编辑, 使
得生成的图像在某一个内容因子上发生改变。
8.根据权利要求1所述的一种基于无监督图像编辑的多目标强化学习方法, 其特征在
于, 所述步骤3中奇异值分解具体为:
奇异值分解用于对 全连接层参数Ai进行矩阵分解:
Ai=U∑VT
其中, U为一个m*m方 阵; ∑为一个m*n矩阵, 除了主对角线上的元素以外全为0, 主对角
线上的每 个元素都称为奇异值; V为 一个n*n方阵;
然后根据∑中奇异值大小进行排序, 得到贡献值最大的前若干个奇异值, 对应的特征
向量则为有语义信息的方向N, 即通过 无监督的方式学到 了图像可编辑方向N。
9.根据权利要求1所述的一种基于无监督图像编辑的多目标强化学习方法, 其特征在
于, 所述的可编辑方向编码器具体为:
可编辑方向编码器用于编码出两张图像在对抗生成网络的W空间的变化情况, 包括可
编辑方向的类别Ni和尺度α, 步骤3基于可编辑方向在W空间的线性加权操作对生成图像进
行可控编辑, 获得图像对和对应的编辑类别和尺度, 从而对可编辑方向编码器进行监督训
练。
10.根据权利要求1所述的一种基于无监督图像编 辑的多目标强化学习方法, 其特征在
于, 所述的步骤4具体为:
控制策略网络以可编辑方向编码器的输出作为观察图像和任务目标的嵌入空间输入,
并输出机器人的关节角度来控制机器人完成任务。权 利 要 求 书 2/2 页
3
CN 115070753 A
3
专利 一种基于无监督图像编辑的多目标强化学习方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:19:20上传分享