(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211162789.1
(22)申请日 2022.09.23
(71)申请人 华南理工大 学
地址 510640 广东省广州市天河区五山路
381号
(72)发明人 吴斯 魏希文 徐震
(74)专利代理 机构 广州市华学知识产权代理有
限公司 4 4245
专利代理师 冯炳辉
(51)Int.Cl.
G06V 10/764(2022.01)
G06V 10/80(2022.01)
(54)发明名称
基于生成对抗模型的图像多属性联合编辑
方法
(57)摘要
本发明公开了一种基于生成对抗模型的图
像多属性联合编辑方法, 该方法包含两个可学习
的组件: 一个内容感知语义方向预测器, 用于学
习和推断一组语义方向, 这些语义方向与输入图
像相对应且与预设的语义属性相关联; 一个语义
方向融合网络用于非线性地融合与 目标属性相
关的语义方向, 最终产生一个可以用于编辑多属
性的语义方向。 在此基础之上, 通过施加基于属
性感知特征的一致性正则化, 进一步保证了编辑
图像在不相关属性的保存, 使得本发 明在目标属
性操控的准确性和不相关属性的保持能力都优
于现有的方法。
权利要求书3页 说明书6页 附图1页
CN 115546537 A
2022.12.30
CN 115546537 A
1.基于生成对抗模型的图像多属性联合编辑方法, 其特 征在于, 包括以下步骤:
S1、 从输入图像数据集X中随机采样图像x, 利用预训练的编码器E将x反演回生成对抗
模型的生成器G的潜在空间, 得到图像x 对应的潜在编码w;
S2、 将步骤S1得到的潜在编码w输入到内容感知语义方向预测器P中, 利用P得到一组语
义方向
其中
为第K个语义方向, 这些语义方向与预设属性和输入图
像相关联;
S3、 通过人为设置或者利用参考 图片得到目标属性y, 将图像潜在编码w、 目标属性y以
及从步骤S2中得到的语义方向一起输入到语义方向融合网络M中, 由M产生一个最 终的语义
方向
用来同时操控多属性;
S4、 用潜在编码w加上从步骤S3得到的语义方向
得到最终的潜在编码w', 将最终的潜
在编码w'输入到预训练的生成对抗模型的生成器G中, 得到最终编辑完成的图片xy;
S5、 重复步骤S2 ‑S4, 达到预先设定的迭代次数后完成训练, 输出训练好的内容感知语
义方向预测器P和 语义方向融合网络M, 利用训练好的内容感知语义方向预测 器P和语义方
向融合网络 M与预训练的生成对抗模型的生成器G配合, 输出编辑完成的图片即可。
2.根据权利要求1所述的基于生成对抗模型的图像多属性联合编辑方法, 其特征在于:
在步骤S1中, 需要将图像数据集X中的所有图像进行预处理, 即利用预训练的编码器E把输
入图像x∈{X}反演回生 成对抗模 型的生成器G的潜在空间, 得到一组与输入图像x对应的潜
在编码w=E(x),w∈W+, 其中W+表示生成对抗模型的生成器G的潜在空间。
3.根据权利要求2所述的基于生成对抗模型的图像多属性联合编辑方法, 其特征在于:
在步骤S2中, 先预设N个属性, 将从步骤S1获得的图像潜在编码w输入到内容感知语义方向
预测器P中, 内容感知语义方向预测器P根据预设的属性和潜在编码产生一组语义方向
其中,
为第K个语义方向且与预设的第K个属性相关联, 并
且这一组语义方向以潜在编 码w为条件, 即内容感知语义方向预测器P预测得到的语义方向
会随输入图像的变化而变化。
4.根据权利要求3所述的基于生成对抗模型的图像多属性联合编辑方法, 其特征在于:
在步骤S3中, 对于图像目标属性的编辑, 目标属性能够由用户或参考图像指 定, 给定参考图
像xref, 使用预训练的属性分类器R推断参考图像以及输入图像预设属性的概率分布, 并通
过计算参考图像和输入图像在预设属性的概率分布的差值来得到目标属性, 目标属性的定
义如下:
y=Δ(Bi nary(R(x) ), Binary(R(xref)))
式中, 二进制函数Binary( ·)用于确定基于属性分类器预测条件的图像所拥有的预设
属性的概率, 而函数Δ( ·,·)用于得到输入图像与参考图像在预设属性上的差异, 对于输
入图像x, y∈{0,1}N表示期望属性变化的标签; 然后训练语义方向融合 网络M产生一个能够
用于操控多属性的语义方向
并且
也以潜在编码w为条件, 语义方向
的公式定义如
下:
权 利 要 求 书 1/3 页
2
CN 115546537 A
2其中, 所述语义方向融合网络M为一个可学习的语义方向融合网络, 能够条件非线性地
融合多个 语义方向。
5.根据权利要求4所述的基于生成对抗模型的图像多属性联合编辑方法, 其特征在于:
在步骤S4中, 用潜在编码w加上从步骤S3得到的语义方向
得到最终的潜在编码w', 将最终
的潜在编码w'输入到预训练的生成对抗模型的生成器G中, 合成最终的编辑图像xy, 定义如
下:
式中, σ 是控制操控强度的一个加权因子; 语义方向融合网络M与内容感知语义方向预
测器P合作, 确保操控语义的正确性, 也就是指合成图像xy应包含y指定的语义属性; 为了保
证操控语义的正确性, 在内容感知语义方向预测器P和语义方向融合网络M的训练过程中加
入了预训练的属性分类器R来提供指导; 并引入了新的评估损失Ltrgt来保证操控语义的正
确性, 评估损失Ltrgt定义如下:
式中,
表示数学期望, R( ·)表示图像预设属性的预测概率; 除了编辑目标属性外,
语义转换的过程不应该影响输入图像除目标属性外的其它属性; 用fR表示属性分类器R的
隐藏层特 征, 计算图像属性感知表示如下:
式中,
表示原始图像x的属性感知特征, ⊙表示Hadamard积, γ(i)表示与第i个属
性对应的softmax权重, fR(x)表示利用属 性分类器R得到的图像x的隐藏层特征; γ(i)能够
提取与属性i相关的信息, 因为它预测了属性i在图像中的出现概率, 通过以这种 方式调制
fR, 所得到的
捕获了与属性i相关联的信息; 为了保证无关属性保持不变, 进行了语
义一致性正则化, 相应的损失Lpres表示如下:
式中,
表示编辑完成的图像xy的属性感知特征, y(i)表示期望的属性变化标签y
的第i个元素, 1{·}是一个指示函数, 如果输入为真则返回1, 否则返回0; 为了在优化过程中
保持搜索效率, 进一 步加入了一个正则化项Lregl, 定义如下:
式中, θ表示 一个阈值, 用来防止修改后的潜在编码 偏离原始潜在编码。
6.根据权利要求5所述的基于生成对抗模型的图像多属性联合编辑方法, 其特征在于:
在步骤S5中, 对于需要训练的内容感知语义方向预测 器P和语义方向融合网络M, 它们的总
体优化目标函数表述 为:
式中, 权重因子α和β 来实现相应正则项之间的平衡; 依照上述目标函数对内容感知语权 利 要 求 书 2/3 页
3
CN 115546537 A
3
专利 基于生成对抗模型的图像多属性联合编辑方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:04:35上传分享